- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语科技词系统在文献自动赋词标引中的应用研究-“十二五”科技支撑
本期话题
http: //
汉语科技词系统在文献自动
赋词标引中的应用研究*
□ 闫莹莹 许德山 张运良 李鹏 / 中国科学技术信息研究所 北京 100038
摘要:文章首先介绍了汉语科技词系统的体系结构和功能,其次设计了自动赋词标引研究的整体思路,完成了
自动赋词标引的系统功能实现,包括标引知识库的格式转换、算法实现和系统实现,并收集语料进行测试。最后
对自动赋词标引的结果进行了分析,并且总结了该自动赋词标引研究的特点和不足,介绍了未来的工作设想。
关键词:自动标引,赋词标引,汉语科技词系统,标引知识库,词系统应用,D2RQ
DOI :10.3772/j .issn .1673—2286.2013.11.002
引言 献相对集中,从而对文本进行更加 (Ter m )为基本组织对象,在整体
有序化和规律化的组织。 的知识结构包括:1)词条基本信
《汉语科技词系统》是中国科 本文涉及《汉语科技词系统》 息;2)词条定义及注释知识;3)词
学技术信息研究所在“十一五”科 的体系结构和功能介绍,并以该词 条之间的关系知识;4 )词条的属
技支撑计划资金的支持下牵头研 表知识库为基础,设计了自动赋词 性知识;5)词条的多维分类知识;
发的领域词系统。目前已建成包括 标引的整体思路和算法,完成自动 6 )词条形式化概念描述知识。其
新能源汽车、重大自然灾害监测与 标引系统的开发。 中,词条的基本信息包含词条的中
防御、新一代工业生物技术、新能 文词形、对应的英文翻译、对应的
源、智能材料与智能结构五个不同 1 词系统的体系结构和 拼音、词汇类型(即核心词/ 基础词
领域的词汇组织系统。建设初衷是 功能 区分)等知识要素。词条的定义主
希望能够通过词系统的相关建设支 要是核心词,也就是那些在领域中
[ 1, 2 ] 处于核心骨干地位的词条,定义通
持我国在相关领域的自动信息分析 汉语科技词系统 是吸收叙
处理,并进一步支持战略决策、科 词表和本体思想的一种知识系统, 常来自教科书、百科全书、科技期
研发展和科技创新。 它基于丰富的科技文献资源和知 刊以及互联网。除了定义以外,还可
本文在汉语科技词系统的基础 识工程师的努力,提供中英文对 以为词条添加有关变化、历史信息
上,研究中文自动赋词标引系统。 照、定义、关系、属性、多维分类和 和知识工程师或者专家编辑审核体
自动标引包括关键词自动提取和自 形式化概念描述等多层面的知识。 会的注释。词汇之间的关系从宏观
动赋词标引两种。自动赋词标引是 目前汉语科技词系统包含新能源汽 讲仍然是等同关系、层级关系和相
一种通过规范化的词语来描述文 车、重大自然灾害监测与防御、新 关关系,并对以上关系类型做了细
献主题的方法,特点是借助统一的 一代生物技术、新能源、智能材料 化,尤其是对相关关系。细化既有
词表,对文本的主题加以限定,这 与智能结构5个领域。 通用的部分,也有针对新能源汽车
种方法能使相同主题的各种异构文 汉语科 技 词 系 统 以词 条 特定的部分。属性用来表征一些依
* 本文系国家 “十二五”科技支撑计划课题 “科技知识组织体系共享服务平台建设” (编号:2011BAH10B03-2)、中国科学技术信息研究所重点工作项 目 “汉语科技词系统建设与应用
工程” (编号:ZD2012-3-2)的研
文档评论(0)