基于主题词语义分词与距离的去重算法.docVIP

下载本文档

3
0
约3.95千字
约 7页
2016-09-11 发布于北京
举报
版权申诉

基于主题词语义分词与距离的去重算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于主题词语义分词与距离的去重算法.doc

基于主题词语义分词与距离的去重算法　　【摘要】对主题网页去重技术进行了综述，结合已有算法的缺点，提出了一种基于主题词语义与距离的网页去重算法。该方法通过对用户输入的关键词进行语义标注后分词检索，计算分词子集在网页文本中的距离，来判断网页与主题的相关度以及网页之间的相似度。同时避开了网页文本向量空间维数大的不足，在一定程度上考虑到了网页的语义信息。　　【关键词】网页去重语义分词与距离去重　　目前大多数搜索引擎采用基于关键词的方法返回用户所需信息，这些信息的冗余度通常很高，很多不相关的信息没有进行有效的组织。因此人们迫切地希望拥有一种方法，能够自动的将与特定主题相关的信息分类汇总后，供用户查阅。主题搜索引擎的出现使得用户能够对特定主题相关信息的进行获取，然而在信息采集过程中如何对搜索回来的页面进行分类，在下一次信息采集的过程中让爬虫主动发现主题相关页面，并去除相关页面中的重复或近似重复的页面成为搜索引擎的研究热点之一。　　1 网页去重技术综述　　搜索引擎的工作原理主要分为三个部分：网页抓取，网页处理，提供检索服务。网页去重是搜索引擎预处理技术的关键部分，主要是由于web上存在大量的重复信息，有统计信息表明，网页的重复率平均为4，即用户通过一个URL在互联网上看到一篇相似网页的同时，平均还有三个URL不同的网页给出的内容相同或近似相同。因此为了提高搜索引擎的工作效率，网页去重在整个搜索引擎的工作中是必不可少的。　　国外对于网页去重的研究最初主要是针对大型文件系统的近似镜像文档检测算法上的研究，后来这些算法又被拓展应用到数字化图书馆项目以及搜索引擎系统中。美国Arizona大学的研究人员对于大型文件系统中的相似文件采用了计算文档的重叠程度的方法来进行实现。国内，网页去重重点还是对网页去重的算法进行研究。大连理工大学韩冰主要研究了大规模的网页文本去重和科技论文抄袭检测。江苏大学吕霞提出了一种基于关键词和特征码的网页去重K-CC算法，在分析国内外目前比较通用的几种去重技术的基础上，提出了一种基于关键词和特征码的网页去重K-CC算法。　　2 基于主题词语义分词与距离的网页去重算法的背景　　传统的特征码实现的精确匹配完全可以与先进的检索系统联系起来，其去重效率比较高，是一种去重的好方法。但是该方法的缺点是：　　（1）特征码所实现的是精确匹配，并不能有效的检测出转载所造成的近似的重复网页；（2）在没有利用网页文本结构信息的前提下，极有可能会发生长度不同甚至差别悬殊的文本被视为相同网页的情况；（3）作为可以产生特征码的标志的句号有时也并不会在网页文本中出现，也有可能只出现在文章的末尾，或者出现在版权信息和超链接中，而所有这些都会导致特征码产生重大错误。　　由于目前大多数搜索引擎是通过关键词匹配来完成用户的检索请求的，考虑到正文文本语义的复杂性我们对关键词的语义进行标注，作为网页检索的主题词，并且利用不同关键词组合的语义及其之间的距离差因素作为评判标准。故提出了一种基于主题词语义分词与距离的网页去重方法。　　3 基于主题词语义分词与距离的网页去重算法的背景　　把主题词（Ks）按词组形式分成若干个词组的模糊集合S，S中词组的组合必须具有一定语义。然后在给定文本中记录每个词组wi在文本中的位置pi，j，pi，j组成Pi，然后比较所有Pi分量组成的向量的距离差，若距离差L不小于某个值Kd（模糊评判标准阀值），则与主题相关，若小于Kd，则与主题无关。在不大于Kd中，若L在某个区间[a，b]（此区间是认定为重复置信区间），若在此区间，则认定为重复，否则认定为不同类。具体模型和方法如下：　　（1）设主题词为Ks 　　（2）Ks分拆的模糊集合S为：　　S={w1，w2，…，wm} 　　（3）wi在文本中出现位置的向量：Pi=（pi，1，pi，2，…，pi，k），1≤i≤m，ki∈N 　　若：wi在文本中没有出现，则Pi= 　　（4）语义位置向量V={vi?vj=（pi，j1，p2，j2，…，pm，jm），1≤jj≤ki} 　　注：若Pi=，则pi，ji不记入向量中。　　（5）计算V中每个向量分量差分集合D={di?dj=△vj=（pi，j-pi-1，ji-1）} 　　（6）根据D中的值来判断主题是否相关，包括不相关、相关（包括重复（强相关）或不同类（弱相关））。　　4 相关性判别方法　　判别指标用下式表示：　　r=∩pi 　　若r=则不相关，否则相关。也可以用向量空间V的维数r=Dim（V））来判别，若rm，则不相关，否则相关。　　重复性判别方法：在相关的情况下，判别主题内容是否接近或相同。　　首先记：　　该式表明模糊集S中前m-1个词的长度总合。