计算机识别汉语同义词的两种算法比较和测评.PDF

计算机识别汉语同义词的两种算法比较和测评.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机识别汉语同义词的两种算法比较和测评

( ) 中国图书馆学报 双月刊 2002 年第 4 期        ZHONGGUO   TUSHUGUANXUEBAO ●朱毅华  侯汉清  沙印亭 计算机识别汉语同义词的两种算法比较和测评 摘  要  以词素为单位进行相似度计算 ,在许多方面解决了字面相似度算法中不合理的问题 , 但汉语分词 、词义分解 、词素分类体系及其编码问题又亟待解决 。基于语义的词素相似度算法 优于基于单汉字的字面相似度算法 ,是今后的研究重点。表 4 。参考文献 9 。 关键词  中文信息处理  同义词识别  模式识别  词素  字面相似度匹配 分类号 G252 7 ABSTRACT  In t his paper , t he aut hor s point out t he advantages and disadvantages of t he similarit y computing by word element s. They t hink t hat t he wordelementbased similarit y algorit hm is better t han t he singlecharacterbased similarit y algorit hm . 4 tabs. 9 ref s. KEY WORDS  Chinese information p rocessing .  Recognition of synonyms.  Pattern recognition .  Word element .  Matching of word similarit y . CLASS NUMBER  252 7   随着计算机技术的飞速发展 , 自然语言越来越 识别同义词的有效方法之一 。字面相似度算法主要 多地应用于信息检索领域 ,这可以说是当代检索语 根据字面相似性原理 , 即汉语中绝大多数同义词 、准 言发展最重要的特征[ 1 ] 。然而 ,汉语中自然语言对 同义词都含有相同语素这一突出特点 ,计算词与词 概念表达灵活 、自由的特点 ,为情报界学者提出了更 之间的关联程度 。王源等首先讨论了通过字面相似 多研究课题 。目前 ,利用计算机辅助识别 自然语言 匹配的方法查找新术语与主题词的相关关系 , 并提 中存在的大量的同义词是全文检索 、网络检索中亟 出了在计算中同时考虑匹配字数和词汇结构两方面 待解决的课题之一 。其中 , 自动识别中文同义词的 的因素[3 ] 。宋明亮主要利用汉语词汇字面相似性原 ( ) [4 ] 测定方法主要有两种 : 以单汉字 即语素 为单位的 理进行词汇归类 。吴志强提出的加权相似度算法 字面相似度测定 : 以词素为单位的字面相似度测定 。 是在前面两种思想基础上又将汉语构成的“重心后 移”原理加入其 中 , 成为一种 比较有代表性 的算 1  语言学和情报学中的同义词 法[ 5 ] 。其主要内容如下 : 同义词在语言学 、情报学中都存在 ,但其含义并 汉语词汇构成具有“重心后移”的特点 。表达某 不相同。汉语语言语气 、语词结构的细微变化都可 一具体专指概念的语词 ,其主题中心即中心词往往 能造成词义的变化 。因此 ,在语言学领域的同义词 在词的后半部分 。在字面上语素越靠后 ,它

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档