- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于物元集对的文本相似度计算新方法.pdf
一种基于物元集对的文本相似度计算新方法
熊渝江
00044)
(北方交通大学通信系北京1
摘要根据物元分析和集对分析的理论,本文提出了物元集对的概念,给出了物元集对的
相似联系度,在此基础上建立了文本物元集对,由相似联系度的计算公式,得到了一
种新的文本相似度计算方法.该方法全面地揭示了文本和查询式之间的确定.不确定
关系,有效地描述了两者之间的匹配程度.
关键词信息检索物元集对相似联系度
1引言
信息检索技术已经广泛地应用于各个领域,尤其在Intemet网络、图书馆等领域,它为快
速查阅文本信息提供了极大便利,文本信息检索过程中利用文本相似度描述文本与查询式之
明距离为基础的文本计算方法【5】等.
以上这些方法都只从单一联系方面考虑文本和查询式之间的相似度,而忽略了两者之间
的不确定因素的影响.本文从文本物元集对的角度出发,根据物元集对相似联系度的计算公
式,得出文本和查询式之间的相似度,全面考虑了两者之间的确定.不确定联系,从而得到更
准确的查询结果.
2物元集对及相似联系度
set
物元集对(matter-clementpair,MESP)是在物元分析【6】和集对分析【7】的基础上提出的一
种系统分析法,其定义如下:设两物元
耻卜兰卜氐:卜
其中N。、Nb是所涉及的事物,Cai、Cbi是事物所具有的特征,‰、Vbi是特征对应的量值,n
是特征的数量,称{Ra,Rb)为两物元的物元集对.建立物元集对的目的是为了更好地分析物元
50l
Zf.q的确:g、不确定联系程度,从而得出其相似联系度.相似是指两物元存在某些共同特征,
而在量值上存在差异.称
(1)
各特征的权值,则称
. ag--(1/n)EWiqi (2)
为两物元的相似同一度,
CR=(1/n)Ewe0一qi) (3)
为两物元的相似对立度,
bR=(1/n)∑(1一w/) (4)
为两物元的相似差异度,并称
u(Ra,‰)=aR.-I-bRi+CRj (5)
为两物元的相似联系度,其中i在【-1,l】上取值,j=。l。
i的取值应根据实际具体情况而定,比如当相似度qi较大时,说明原来不确定的因素
对同一性的支持程度较大,i的取值应偏向1:当qi较小时,说明原来不确定的因素对同
一性的支持程度较小,而对对立的支持程度较大,i的取值应偏向0或.1.可见,相似联系
度描述了物元集对的同异反联系程度,并且反映了不确定因素和确定因素的影响.
了两者之间不确定的关系.可见,物元集对的相似联系度从确定性与不确定性,同一性、对立
性与差异性多方面深刻描述了两物元的相似程度,与传统的分析方法不同,它较全面地描述
了客观事物和主观认识的确定与不确定性,反映了不确定因素对确定因素的影响,可提供更
多的信息.
3物元集对在文本相似度计算中的应用
(1)相似度计算公式
由以上的分析,可以首先建立文本的物元集对{&,K),其中凡为文本物元,K为查询
i+cRj,其含义及计算见(1),(2),(3),(4)式,定义相
式物元,其相似联系度为la(粕,Rq)=aR+ba
’
似度计算公式:
sim(1k,氏
文档评论(0)