中文语句相似度计算的方法初探3.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文语句相似度计算的方法初探3

第 16 卷  第 4 期 兰州工业高等专科学校学报 Vol . 16 ,N0 . 4 2009 年 8 月 J ournal of L anzhou Polyt echnic College Aug . ,2009 文章编号 :1009 - 2269 (2009) 04 - 000 1 - 03 中文语句相似度计算的方法初探 李  伟 (安徽工业大学 计算机学院 ,安徽 马鞍山 243002) 摘要 : 分析了中文自然语言处理中句子相似度的计算方法 ,介绍了基于向量空间模型的 TF - ID F 的、基于句子语义和基于句子依存关系的三种句子相似度计算模型 ,并对它们的计算原理 、计 算方法进行了分析 ,给出了他们的优缺点. 基于向量空间模型的句子相似度计算模型已经比较成 熟 ,一般情况下能够产生较好的效果. 由于 TF - ID F 方法没有考虑这种语义信息 ,所以传统的 TF - ID F 方法具有一定的局限性. 而基于句子语义或句子的依存结构来进行相似度计算 ,能达到更 好的效果. 关  键  词 : TF - ID F ;语义 ;依存结构 ;相似度计算 ;模型 中图分类号 : TP 30 1. 6 文献标识码 : A   相似度是一个很复杂的概念 ,语义学 、哲学和 建立在大量真实文本语料基础之上. 在 自动问答 信息理论中被广泛地讨论. 句子间相似度的计算 系统中[2 ] ,若用户提 问与候选答案包含的所有词 在 自然语言处理的各个领域都 占有很重要的地 为 W 1 , W2 , …, W n , 则问句用一个 n 维的向量 T = 位 ,在基于实例的机器翻译 、自动问答和多文档文 M T1 , T2 , …, Tn 来表示. 其中 Ti = n lo g ( ) 摘系统中 ,语句相似度的计算是一个关键问题 ,而 m 语句相似度的衡量机制与对语句的分析深度是密 ( ) 1 ≤i ≤n , n 为词 W i 在这个问句中出现的个数, 切相关的. 在相似度计算中 ,按照对语句的分析深 m 为知识库 中含有词 W i 的问句 的个数, M 为 度来看 ,主要存在两种方法 : 1) 基于向量空间模 FA Q 库中问句的总数, 以上 Ti 的表达式综合反映 的 TF - ID F 的方法. 该方法把句子看成词的线性 了一个关键词的出现频率和这个关键词对不同问 序列 ,不对语句进行语法结构分析 ,相应的语句相 句的分辨能力, 因为出现次数多的关键词 n 值大, 似度衡量机制只能利用句子的表层信息 , 即组成 M 句子的词的词频 、词性等信息. 由于不加任何结构 但是这样的关键词的 lo g ( ) 的值并不一定大. 例 m 分析 ,该方法在计算语句之间的相似度时不能考

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档