- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
术语工作中文本挖掘方法的应用探索
摘要:研究了信息管理与知识管理科技名词术语的审定工作方法。该工作由全国科学技术名词审定委员会主管并委托国家自然科学基金委员会管理科学部完成。工作内容主要包括三个连续的阶段:(1)确定领域的收词范围,(2)确定术语定义,(3)确定术语的英文名称。介绍了在每一阶段所使用的工作方法、发现的问题与解决办法。目的是向从事术语审定工作的专家汇报工作,总结工作经验,并征求意见。
关键词:术语审定,信息管理,知识管理,文本挖掘
中图分类号:N04;TP3 文献标识码:A 文章编号:1673―8578(2011)04―0009―08
引言
科学技术名词的审定和规范化工作是一个国家发展科学技术所必需的基础条件之一,对促进科技发展,保障语言健康有着重要作用和意义。为了规范科技名词,国务院于1985年批准成立了全国自然科学名词审定委员会(现名为全国科学技术名词审定委员会,以下简称全国科技名词委),授权全国科技名词委代表国家审定和公布科技名词。经全国科技名词委公布的名词具有权威性和约束力,全国各科研、教学、生产经营以及新闻出版等单位须遵照使用。
2008年,全国科技名词委主管并委托国家自然科学基金委员会(以下简称国家自然基金委)管理学部进行管理类科技名词的审定。受国家自然基金委的委托,由大连理工大学系统工程研究所所长党延忠教授领导的课题组审定了管理类中有关信息管理与知识管理领域的术语。该领域按照核心内容划分为七个子领域:(1)管理系统工程,(2)管理信息系统,(3)决策支持系统,(4)信息资源管理,(5)电子商务,(6)知识管理,(7)图书馆、情报和档案管理。
在全国科技名词委的《科学技术名词审定的原则及方法》(以下简称《原则及方法》)指导下,课题组依据国家自然基金委组织的审定工作流程,发挥课题组成员熟悉机器学习文本挖掘技术的优势,采用人机结合的方式完成了本领域术语的初步审定工作。此次,信息管理与知识管理领域初步确定了1001个术语,其中,管理系统工程子领域120个术语,管理信息系统子领域198个,决策支持系统子领域137个,信息资源管理子领域154个,电子商务子领域152个,知识管理子领域182个,图书馆、情报和档案管理子领域58个。
对每个子领域,课题组使用了相同的工作原则和方法分别审定其术语,审定工作主要分为三个阶段:(1)确定收词范围,(2)确定术语定义,(3)确定术语的英文名称。按照工作内容、工作方法和工作总结的顺序,下文将分阶段依次介绍和总结上述三个阶段的工作情况。
本文目的在于,向术语审定与术语标准化领域的专家、信息管理与知识管理领域的专家汇报工作,并为全国科技名词委今后开展其他领域科学技术名词的审定工作提供些许知识的共享。如无特别说明,下文中采用“术语”来代替“科学技术名词”。
一 确定收词范围
(一)工作内容
确定收词范围是术语审定工作的第一步。收词范围要能够反映领域的概念体系,每一个领域专有概念,包括领域内通用的概念和新涌现的概念,都应该有其对应的术语被收录。由于人们对客观世界的认识有一个渐进的过程,新概念层出不穷,过时概念不断出局,所以收词范围要能够描述领域最新的概念集合,使得人们能够通过术语表达的符号世界正确理解领域的客观世界。
该部分工作的内容是确定审定的对象,即确定收录术语的集合。工作步骤一般为:(1)从各类文献中收集术语。(2)选择这些术语中特定的一部分作为收词范围。工作方法一般是:首先阅读大量的现有文献,如学术专著、大专院校教材、各类辞书、专利文献、科技文献资料、国家标准等,从中收集得到一个较广泛的术语的集合;然后由专家讨论选定其中的一部分术语,即一个子集,作为领域专有术语添加进收词范围,其余的则删除不用。在全国科技名词委以前进行的领域术语审定中,确定收词范围这一阶段的工作几乎完全以人工手动的方式完成。
全国科技名词委在《原则及方法》中制定了详细的术语选择原则,如图1所示:
由于一个概念往往可以有几个不同的名称,这就产生了术语的同义现象。同义现象会导致术语使用的混乱,在术语审定工作中,应该尽量减少术语的同义现象。因此,在确定收词范围时,除了图1所列的选词原则之外,还需要遵循《原则及方法》制定的关于定名的单义性原则,即一个领域概念应确定唯一的一个中文名称作为与之相对应的领域专有术语,其他还在使用的中文名称则作为同义词列出而不再进行审定。
(二)工作方法
依据上述工作原则,课题组设计并实现了一种以人机结合的方式来确定收词范围的工作方法,综合了机器学习的定量结果和领域专家的人工经验。该方法首先采用机器学习文本挖掘技术从领域语料中自动提取领域专有
您可能关注的文档
最近下载
- 切向流过滤原理.ppt VIP
- 孤独症康复教育人员上岗培训课程考试题库【附答案】.docx VIP
- 教科版(2024)新教材小学二年级科学上册第二单元《3.我们周围的空气》精品课件.pptx
- 孤独症康复教育人员上岗培训课程考试题库【附答案】.docx VIP
- 极值点偏移1-2---极值点偏移定理.doc VIP
- XFUSION超聚变 服务器 (V5及以下) iBMC Redfish 接口说明.pdf VIP
- 景德镇社区工作者考试真题库(2024版).docx VIP
- 海外工程重油发电机组安装施工组织设计(中英文版).doc VIP
- 2025年中考历史复习专项训练:中国古代史选择题100题(原卷版).pdf VIP
- 蓝凌数字化办公OA平台解决方案EKP使用指南.docx VIP
文档评论(0)