一种基于物元集对的文本相似度计算新方法.pdfVIP

一种基于物元集对的文本相似度计算新方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于物元集对的文本相似度计算新方法.pdf

一种基于物元集对的文本相似度计算新方法 熊渝江 00044) (北方交通大学通信系北京1 摘要根据物元分析和集对分析的理论,本文提出了物元集对的概念,给出了物元集对的 相似联系度,在此基础上建立了文本物元集对,由相似联系度的计算公式,得到了一 种新的文本相似度计算方法.该方法全面地揭示了文本和查询式之间的确定.不确定 关系,有效地描述了两者之间的匹配程度. 关键词信息检索物元集对相似联系度 1引言 信息检索技术已经广泛地应用于各个领域,尤其在Intemet网络、图书馆等领域,它为快 速查阅文本信息提供了极大便利,文本信息检索过程中利用文本相似度描述文本与查询式之 明距离为基础的文本计算方法【5】等. 以上这些方法都只从单一联系方面考虑文本和查询式之间的相似度,而忽略了两者之间 的不确定因素的影响.本文从文本物元集对的角度出发,根据物元集对相似联系度的计算公 式,得出文本和查询式之间的相似度,全面考虑了两者之间的确定.不确定联系,从而得到更 准确的查询结果. 2物元集对及相似联系度 set 物元集对(matter-clementpair,MESP)是在物元分析【6】和集对分析【7】的基础上提出的一 种系统分析法,其定义如下:设两物元 耻卜兰卜氐:卜 其中N。、Nb是所涉及的事物,Cai、Cbi是事物所具有的特征,‰、Vbi是特征对应的量值,n 是特征的数量,称{Ra,Rb)为两物元的物元集对.建立物元集对的目的是为了更好地分析物元 50l Zf.q的确:g、不确定联系程度,从而得出其相似联系度.相似是指两物元存在某些共同特征, 而在量值上存在差异.称 (1) 各特征的权值,则称 . ag--(1/n)EWiqi (2) 为两物元的相似同一度, CR=(1/n)Ewe0一qi) (3) 为两物元的相似对立度, bR=(1/n)∑(1一w/) (4) 为两物元的相似差异度,并称 u(Ra,‰)=aR.-I-bRi+CRj (5) 为两物元的相似联系度,其中i在【-1,l】上取值,j=。l。 i的取值应根据实际具体情况而定,比如当相似度qi较大时,说明原来不确定的因素 对同一性的支持程度较大,i的取值应偏向1:当qi较小时,说明原来不确定的因素对同 一性的支持程度较小,而对对立的支持程度较大,i的取值应偏向0或.1.可见,相似联系 度描述了物元集对的同异反联系程度,并且反映了不确定因素和确定因素的影响. 了两者之间不确定的关系.可见,物元集对的相似联系度从确定性与不确定性,同一性、对立 性与差异性多方面深刻描述了两物元的相似程度,与传统的分析方法不同,它较全面地描述 了客观事物和主观认识的确定与不确定性,反映了不确定因素对确定因素的影响,可提供更 多的信息. 3物元集对在文本相似度计算中的应用 (1)相似度计算公式 由以上的分析,可以首先建立文本的物元集对{&,K),其中凡为文本物元,K为查询 i+cRj,其含义及计算见(1),(2),(3),(4)式,定义相 式物元,其相似联系度为la(粕,Rq)=aR+ba ’ 似度计算公式: sim(1k,氏

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档