基于正文结构和长句提取网页去重算法.docVIP

下载本文档

6
0
约8.56千字
约 18页
2018-08-30 发布于福建
举报
版权申诉

基于正文结构和长句提取网页去重算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于正文结构和长句提取网页去重算法

基于正文结构和长句提取网页去重算法　　摘要:针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。　　　　关键词:网页去重;正文结构树;长句提取;层次指纹　　中图分类号:TP391文献标志码:A 　　文章编号:1001-3695(2010)07-2489-03 　　doi:10.3969/j.issn.1001-3695.2010.07.024 　　　　Detection and elimination of similar Web pages based on ??text structure and extraction of long sentences 　　HUANG Ren,FENG Sheng,YANG Ji-yun,LIU Yu,AO Min 　　(College of Computer Science, Chongqing University, Chongqing 400044, China) 　　Abstract:As regard to the feature of the similarity and that of the text structure of Web pages,this paper proposed a dynamic,stratified and robust algorithm to detect and delete similar Web pages.By this method,expressed the texts of Web pages in the style of text structure trees.Then,thus implemented a dynamic algorithm to extract features of texts and a layer fingerprint algorithm to calculate similarity.That the extraction of the features made use of the algorithm of extraction of long sentences guarantees the robustness. The experimental results show that the method can carry out accurate detection concerning completely similar Web pages and partly similar ones. 　　Key words:detection and elimination of similar Web pages; text structure tree; extraction of long sentences; layer fingerprint 　　0 引言　　研究表明,近似镜像网页数占总网页数的比例高达22%[1]。如果搜索引擎能够找出这些重复网页并从数据库中去除,就能节省一部分存储空间,同时也提高了检索质量和效率。其次,通过对已抓取的网页进行分析,预先发现重复网页,在以后的网页搜集过程中就可以避开这些网页,从而提高有效网页的搜集速度。另外,还可以根据网页的镜像度来判断该网页的重要度,以制定更为合理的网页搜索策略和输出结果定序(Ranking)算法。因而,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。　　网页去重的关键问题是正文特征抽取和大规模内容的快速计算。传统的正文特征抽取算法大致分为基于词频统计[2]和基于字符串抽取(如KOALA[3]、SHINGLING[4])两类。基于词频统计方法的召回率很高,但对于一些新闻题材或模板类文章准确率较低。基于字符串抽取的方法都有较高的准确率,但都是针对普通文本,不适合网页去重的大规模内容计算。近年来提出的网页去重算法有基于正文结构树[5]和基于长句提取[6]。基于正文结构树的网页去重算法思想:首先将网页正文表示成一棵正文结构树;然后利用MD5算法对每个节点(对应于网页正文中的一个自然段)求摘要,并将其作为该节点的指纹;最后通过去重算法比较判断网页的相似度。由于MD5算法的严格性和自然语言的复杂性,对于正文中自然段稍有丢字、加字但是主题内容相同的重复网页便无法检测出来,这使得搜索引擎作弊者有机可乘。基于长句提取的网页去重算