基于互联网的汉语术语定义提取研究.PDFVIP

基于互联网的汉语术语定义提取研究.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于互联网的汉语术语定义提取研究.PDF

基于互联网的汉语术语定义提取研究 张榕 宋柔 北京语言大学语言信息处理研究所 北京 100083 E-mail:zhangrong@;songrou@ 摘 共:本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与 人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向盆空间模型有效结合起来,提出了 一种术语智能匹配算法.实验取得了较好的效果,有效的解决了术语定义的提取问题. 关健询:术语,定义,提取,智能匹配 InternetBasedChineseTermDefinition ExtractionResearch ZhangRong SongRou LanguageInformationProcessingInstitute, BeijingLanguageandCultureUniversity,Beijing100083 E-mail:zhangrong@;songrou@ Abstract:Thispaperemploysasoftmatchalgorithmtoextracttermdefniitionafterusinghardmatchbasedonanalysis oflinguisticfeatureofcandidatetermdefinition.Thesoftmatchincludesdefinitionmemberhoodcalculationand similaritycalculationbasedonVectorSpaceModel,andthencombinedthetwoalgorithmstogether.Theexperiment achievesgoodresults,andofferseffectivemethodfortheresearchoftermdefinitionextraction. Keywords:Term,Defniition,Extraction,SoftMatch 1前言 科学技术发展迅猛,新术语随之应运而生。比如,什么是迅驰?什么是异地灾备?等等。当 人们不明确这些术语的确切含义的时候,通常借助字典或者搜索引攀。字典,大百科全书等资源, 有时难以跟得上词汇发展的速度,无法提供最新术语的定义.搜索引擎虽然可以提供大量的术语 的解释和描述等相关信息,却无法提供现成的术语定义。人工从海量的信息中查找到术语的定义 是件费时,费力的事情。 术语定义是对术语所指称概念的语言描述。获取到术语定义是对术语概念理解最有效的方 式。互联网能够提供海量的,动态的,最新的信息。在这样的前提下,本文提出了一种基于互联 网的汉语术语定义提取方法. 首先我们需明确几个名词的定义。术语是指称特定领域的专业概念的词和词组,是表示科技 知识和信息的基本单元。在本文中所特指的术语是在某个特定领域内,普通用户需要知道其定义 才能理解的那些词语。 定义的优选结构是:定义二上位概念 (最邻近的属概念)+种差 (用于区分所定义的概念同其 他并列概念间的区别特征)。[1]定义又可以分为内涵定义和外延定义两大类。内涵定义指的是列 举被定义概念的特征来描述概念的定义。外延定义指的是通过概念的数量范围来描述概念的外延 的定义。定义的构成规则要求,准确性,适度性,简明性,只有在概念本身是否定性的情况下, 才可使用否定定义,不能使用循环定义。幻【 术语定义的自动抽取是一个相对较新的研究课题,国内外的研究比较少,而且相关研究主要 都是手工建立或机器学习出术语定义的模式,通过模式的硬匹配HardMatch,抽取出文本中的术 语定义。硬匹配的缺点:模式编写工作量大,模式类型过于死板,召回率受影响,手工书写的规 则比较主观,难以穷尽客观语言现象 3〔]。本文在粗匹配的基础上,通过智能匹配算法,进一步 提高了定义抽取的准确率。 2候选术语定义的粗匹配 2.1文档的预处理 首先我们将被查询术语提交Google搜索引擎,对返回文档进行预处理 (我们使用了排在最 前面的60个文档)。本文使用了中科院计算所汉语

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档