计算机中同义词的识别.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机中同义词的识别.ppt

同义词的识别 计算机识别同义词主要有两种方法: 以单汉字为单位的字面相似度测定。 以词素为单位的字面相似度测定。 字面相似度算法主要根据字面相似性原理,即汉语中绝大多数同义词准意词都含有相同语素这一特点计算出词与词之间的相似程度。 以单汉字为单位的字面相似度算法 在计算中考虑匹配字数和词汇结构两个方面的因素,并加入汉语构成的重心后移的特点。所谓的重心后移就是指表达某一具体的专指概念时,其主题中心词往往在词的后半部分。 同义词的识别 具体算法如下: 对待匹配词甲与匹配词乙进行字面相似性分析,统计两个词中共同含有的相同语素的个数,同时对词甲和词乙中各个语素加权。根据相同语素在两词中的位置及次序,统计相同语素在各个词中所占的权值,拟定算法计算两词的相似度,确定其同义、准同义关系。设定两个词之间的相似度受两方面的影响:两个词含有相同语素的个数的影响占60 %;相同语素在各个词中的位置关系的影响占40 %。由此拟定相似度匹配公式: 同义词的识别 式中xsword表示两个词中含有相同语素的个数, 同义词的识别 xsword = 4 ; ctrlword = 6 ; keyword = 6 ; 同义词的识别 这种算法还存在许多缺陷: 1. 在词这个层面上汉字歧义现象比较多。 2. 阈值的选取比较困难。 用这种方法计算出来的相似度值是一个可穷举的序列,这必然导致在处理大数据样本集时候产生相似度聚集的现象。在这种聚集区域改变阈值将导致遗漏率的较大变化。 3.不能识别非字面相似的现象。 4.难以应用于法规则进一步提高识别率。 5.算法存在理论上的支持,存在逻辑错误。 相似度的表达和基本公式存在逻辑缺陷。 dp的作用缺乏科学性。 同义词的识别 基于语义的词素相似度识别算法 字面相似度算法只适用于识别由纯汉字构成的词汇,不适用于识别纯粹由非汉字组成的词汇。因此开始有人致力于研究以词素为单位识别同义词的 方法。 词素相似度识别算法的主要思想是: 首先,建立常用词素的语义词典,对识别词进行切分,在此基础上以词素为单位,以相似性原理为依据,将词素的字面形式转换为语义代码进行相似度判别,在考虑词组的结构关系的前提下进行同义词的识别。其中引入了表达度这一概念,表示词的部分对整体的涵义所起的作用大小,据此进行加权。 表达度是表示词的部分对整体的涵义所起的贡献的大小,整个词的表达度为100%,空串对整体的表达度为0%,词的部分对整体的表达度等于其词素表达度之和。 同义词的识别 公式成立的条件是以下信息已知: 待匹配词ctrlword 的信息量总和为A ; 匹配词keyword 的信息量总和为B ; 两词中表示相同语义的信息量为C1 ,C2 ; 共同部分C1 对A 的表达度为x ,C2 对B 的表达度为y。 根据这些条件可得: 同义词的识别   具体做法是建立以词素为单位的语义词典,将词素按语义上的分类体系进行相似比较,再将组成语词的各个词素相似度按一定的权重计算出表达度,再通过两词的表达度计算出相似度。 两种方法的比较 以单汉字为单位的字面相似度算法具有直观、简单、易行的特点。 以语素为单位的字面相似度算法对处理一字多义的情况效果比较好。 字面相似度算法不适合识别由非纯汉字组成的词汇。 字面相似度算法中的主观因素较多。 同义词的识别 下周工作: 继续研究计算机同义词识别相关的算法…… THANKS! * 表示匹配字在待匹配词中所处的位权之和。 表示匹配字在被匹配词中所处的位权之和。 dp 表示位置系数,其值为被匹配词与待匹配词语素总数之比,如果被匹配词语素总数大于待匹配词语素总数, dp = keyword/ ctrlword ,反之则为dp =ctrlword/ keyword。 该相似度计算公式是通过计算匹配字串与被匹配词和待匹配词的比例的算术平均数,以及匹配字串在被匹配词和待匹配词的位置次序关系的权数之和的算术平均数,然后分别乘以两个影响的加权数,最终得出两词的相似度。例如,“经济信息管理”与 “商业信息管理”的相似度: 相似度为: *

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档