- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机识别汉语同义词的两种算法比较和测评
( )
中国图书馆学报 双月刊 2002 年第 4 期
ZHONGGUO TUSHUGUANXUEBAO
●朱毅华 侯汉清 沙印亭
计算机识别汉语同义词的两种算法比较和测评
摘 要 以词素为单位进行相似度计算 ,在许多方面解决了字面相似度算法中不合理的问题 ,
但汉语分词 、词义分解 、词素分类体系及其编码问题又亟待解决 。基于语义的词素相似度算法
优于基于单汉字的字面相似度算法 ,是今后的研究重点。表 4 。参考文献 9 。
关键词 中文信息处理 同义词识别 模式识别 词素 字面相似度匹配
分类号 G252 7
ABSTRACT In t his paper , t he aut hor s point out t he advantages and disadvantages of t he similarit y
computing by word element s. They t hink t hat t he wordelementbased similarit y algorit hm is better
t han t he singlecharacterbased similarit y algorit hm . 4 tabs. 9 ref s.
KEY WORDS Chinese information p rocessing . Recognition of synonyms. Pattern recognition .
Word element . Matching of word similarit y .
CLASS NUMBER 252 7
随着计算机技术的飞速发展 , 自然语言越来越 识别同义词的有效方法之一 。字面相似度算法主要
多地应用于信息检索领域 ,这可以说是当代检索语 根据字面相似性原理 , 即汉语中绝大多数同义词 、准
言发展最重要的特征[ 1 ] 。然而 ,汉语中自然语言对 同义词都含有相同语素这一突出特点 ,计算词与词
概念表达灵活 、自由的特点 ,为情报界学者提出了更 之间的关联程度 。王源等首先讨论了通过字面相似
多研究课题 。目前 ,利用计算机辅助识别 自然语言 匹配的方法查找新术语与主题词的相关关系 , 并提
中存在的大量的同义词是全文检索 、网络检索中亟 出了在计算中同时考虑匹配字数和词汇结构两方面
待解决的课题之一 。其中 , 自动识别中文同义词的 的因素[3 ] 。宋明亮主要利用汉语词汇字面相似性原
( ) [4 ]
测定方法主要有两种 : 以单汉字 即语素 为单位的 理进行词汇归类 。吴志强提出的加权相似度算法
字面相似度测定 : 以词素为单位的字面相似度测定 。 是在前面两种思想基础上又将汉语构成的“重心后
移”原理加入其 中 , 成为一种 比较有代表性 的算
1 语言学和情报学中的同义词 法[ 5 ] 。其主要内容如下 :
同义词在语言学 、情报学中都存在 ,但其含义并 汉语词汇构成具有“重心后移”的特点 。表达某
不相同。汉语语言语气 、语词结构的细微变化都可 一具体专指概念的语词 ,其主题中心即中心词往往
能造成词义的变化 。因此 ,在语言学领域的同义词 在词的后半部分 。在字面上语素越靠后 ,它
文档评论(0)