基于互联网的汉语术语定义提取研究.PDFVIP

下载本文档

13
0
约7.9千字
约 7页
2016-01-11 发布于四川
举报
版权申诉

基于互联网的汉语术语定义提取研究.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于互联网的汉语术语定义提取研究.PDF

基于互联网的汉语术语定义提取研究张榕宋柔北京语言大学语言信息处理研究所北京 100083 E-mail:zhangrong@;songrou@ 摘共:本文的术语定义抽取，在分析术语定义的语言学特征，进行硬匹配的基础上，通过将术语定义用词与人民日报用词进行对比，给出了词语和句子的定义隶属度这一概念，并且与向盆空间模型有效结合起来，提出了一种术语智能匹配算法.实验取得了较好的效果，有效的解决了术语定义的提取问题. 关健询:术语，定义，提取，智能匹配 InternetBasedChineseTermDefinition ExtractionResearch ZhangRong SongRou LanguageInformationProcessingInstitute, BeijingLanguageandCultureUniversity,Beijing100083 E-mail:zhangrong@;songrou@ Abstract:Thispaperemploysasoftmatchalgorithmtoextracttermdefniitionafterusinghardmatchbasedonanalysis oflinguisticfeatureofcandidatetermdefinition.Thesoftmatchincludesdefinitionmemberhoodcalculationand similaritycalculationbasedonVectorSpaceModel,andthencombinedthetwoalgorithmstogether.Theexperiment achievesgoodresults,andofferseffectivemethodfortheresearchoftermdefinitionextraction. Keywords:Term,Defniition,Extraction,SoftMatch 1前言科学技术发展迅猛，新术语随之应运而生。比如，什么是迅驰?什么是异地灾备?等等。当人们不明确这些术语的确切含义的时候，通常借助字典或者搜索引攀。字典，大百科全书等资源，有时难以跟得上词汇发展的速度，无法提供最新术语的定义.搜索引擎虽然可以提供大量的术语的解释和描述等相关信息，却无法提供现成的术语定义。人工从海量的信息中查找到术语的定义是件费时，费力的事情。术语定义是对术语所指称概念的语言描述。获取到术语定义是对术语概念理解最有效的方式。互联网能够提供海量的，动态的，最新的信息。在这样的前提下，本文提出了一种基于互联网的汉语术语定义提取方法. 首先我们需明确几个名词的定义。术语是指称特定领域的专业概念的词和词组，是表示科技知识和信息的基本单元。在本文中所特指的术语是在某个特定领域内，普通用户需要知道其定义才能理解的那些词语。定义的优选结构是:定义二上位概念 (最邻近的属概念)+种差 (用于区分所定义的概念同其他并列概念间的区别特征)。[1]定义又可以分为内涵定义和外延定义两大类。内涵定义指的是列举被定义概念的特征来描述概念的定义。外延定义指的是通过概念的数量范围来描述概念的外延的定义。定义的构成规则要求，准确性，适度性，简明性，只有在概念本身是否定性的情况下，才可使用否定定义，不能使用循环定义。幻【术语定义的自动抽取是一个相对较新的研究课题，国内外的研究比较少，而且相关研究主要都是手工建立或机器学习出术语定义的模式，通过模式的硬匹配HardMatch，抽取出文本中的术语定义。硬匹配的缺点:模式编写工作量大，模式类型过于死板，召回率受影响，手工书写的规则比较主观，难以穷尽客观语言现象 3〔]。本文在粗匹配的基础上，通过智能匹配算法，进一步提高了定义抽取的准确率。 2候选术语定义的粗匹配 2.1文档的预处理首先我们将被查询术语提交Google搜索引擎，对返回文档进行预处理 (我们使用了排在最前面的60个文档)。本文使用了中科院计算所汉语