- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于互联网的汉语术语定义提取研究.PDF
基于互联网的汉语术语定义提取研究
张榕 宋柔
北京语言大学语言信息处理研究所 北京 100083
E-mail:zhangrong@;songrou@
摘 共:本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与
人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向盆空间模型有效结合起来,提出了
一种术语智能匹配算法.实验取得了较好的效果,有效的解决了术语定义的提取问题.
关健询:术语,定义,提取,智能匹配
InternetBasedChineseTermDefinition
ExtractionResearch
ZhangRong SongRou
LanguageInformationProcessingInstitute,
BeijingLanguageandCultureUniversity,Beijing100083
E-mail:zhangrong@;songrou@
Abstract:Thispaperemploysasoftmatchalgorithmtoextracttermdefniitionafterusinghardmatchbasedonanalysis
oflinguisticfeatureofcandidatetermdefinition.Thesoftmatchincludesdefinitionmemberhoodcalculationand
similaritycalculationbasedonVectorSpaceModel,andthencombinedthetwoalgorithmstogether.Theexperiment
achievesgoodresults,andofferseffectivemethodfortheresearchoftermdefinitionextraction.
Keywords:Term,Defniition,Extraction,SoftMatch
1前言
科学技术发展迅猛,新术语随之应运而生。比如,什么是迅驰?什么是异地灾备?等等。当
人们不明确这些术语的确切含义的时候,通常借助字典或者搜索引攀。字典,大百科全书等资源,
有时难以跟得上词汇发展的速度,无法提供最新术语的定义.搜索引擎虽然可以提供大量的术语
的解释和描述等相关信息,却无法提供现成的术语定义。人工从海量的信息中查找到术语的定义
是件费时,费力的事情。
术语定义是对术语所指称概念的语言描述。获取到术语定义是对术语概念理解最有效的方
式。互联网能够提供海量的,动态的,最新的信息。在这样的前提下,本文提出了一种基于互联
网的汉语术语定义提取方法.
首先我们需明确几个名词的定义。术语是指称特定领域的专业概念的词和词组,是表示科技
知识和信息的基本单元。在本文中所特指的术语是在某个特定领域内,普通用户需要知道其定义
才能理解的那些词语。
定义的优选结构是:定义二上位概念 (最邻近的属概念)+种差 (用于区分所定义的概念同其
他并列概念间的区别特征)。[1]定义又可以分为内涵定义和外延定义两大类。内涵定义指的是列
举被定义概念的特征来描述概念的定义。外延定义指的是通过概念的数量范围来描述概念的外延
的定义。定义的构成规则要求,准确性,适度性,简明性,只有在概念本身是否定性的情况下,
才可使用否定定义,不能使用循环定义。幻【
术语定义的自动抽取是一个相对较新的研究课题,国内外的研究比较少,而且相关研究主要
都是手工建立或机器学习出术语定义的模式,通过模式的硬匹配HardMatch,抽取出文本中的术
语定义。硬匹配的缺点:模式编写工作量大,模式类型过于死板,召回率受影响,手工书写的规
则比较主观,难以穷尽客观语言现象 3〔]。本文在粗匹配的基础上,通过智能匹配算法,进一步
提高了定义抽取的准确率。
2候选术语定义的粗匹配
2.1文档的预处理
首先我们将被查询术语提交Google搜索引擎,对返回文档进行预处理 (我们使用了排在最
前面的60个文档)。本文使用了中科院计算所汉语
文档评论(0)