基于元搜索的网页消重方法研究.docVIP

下载本文档

1
0
约4.89千字
约 3页
2017-08-10 发布于重庆
举报
版权申诉

基于元搜索的网页消重方法研究.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于元搜索的网页消重方法研究.doc

计算机系统应用 .//0 年第 0 期基于元搜索的网页消重方法研究 !#$% ’ () *#+,-./)$ 0)1 2/3)4 *)).-’ 5,36-(7 8-( 9)/ !)/6.( :’3-’) 谢! 蕙! 秦! 杰! （河南工业大学信息科学与工程学院河南郑州 #$$$%）摘! 要：本文在对现有主流网页消重技术进行分析基础上，针对元搜索引擎技术，提出一种基于元搜索的网页消重算法。介绍了算法的具体实现步骤，并且通过实验验证了算法的有效性。关键词：消重特征码元搜索引擎网页元数据摘要相似度的相同指纹，则认为这两个文档的内容重叠性较高，也 %! 引言随着网络技术的飞速发展，网络提供给人们的信息资源越来越多，要想在浩瀚的网络资源中查找到有用的信息，搜索引擎起到了重要作用。但是现在的搜索引擎技术并不完善，存在一些亟待解决的问题，最主要的问题之一是存在大量的重复网页［%］。对用户而言，如果查询到的是重复信息，严重影响查询效率。对互联网系统而言，如果采集到大量重复网页，既浪费信息检索时间又浪费存储空间。网络机器人（ ’()*+）采集互联网中的相关信息，采集信息的数量非常巨大，采集结果的处理，需要进行消重处理后，才能作为有效的信息。若单单依靠人工进行去重处理，不仅耗费宝贵的人力资源，而且时效性也不能满足实际需要。为了解决这些问题，网页消重成为搜索引擎所研究的一项重要技术。 ,! 网页消重技术网页消重技术是指对内容重复的网页进行识别，处理和合并，以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程［,］。 ! # 网页消重技术主要思想根据网页重复原因不同对应的判断网页是否重复的方法也有所不同，但是几乎所有的消重技术都基于这样一个基本思想［-］：根据一定的算法为每个文档计算出一组指纹（.(/0*+’+(/1），若两个文档拥有一定数量 - ! 应用技术 !#$% ’%()*$+,% 即二者是重复网页。对于 234 相同的网页，为了避免重复搜集同一 234 网页，主要使用排除相同 234 的方法：网络蜘蛛把访问过的网页地址变成信息指纹存放到哈希表中，在抓取新的网页时，把网页的地址解析成指纹，判断比较该指纹是否存在于哈希表中，若存在则表示已下载过，若不存在则下载且把这个指纹存放到该哈希表中。当然这个算法要保证几乎不能产生相同的网址指纹。针对内容相同的网页，当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间向量模型来完成消重任务的。典型的系统包括 56607* 和天网系统［-］。通常这类系统的消重工作过程大致是：在对网络蜘蛛已抓取回来的网页进行分析时，首先对网页进行净化，提取出网页的主题以及与主题相关的内容，这些内容包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等信息，根据网页的关键词、摘要、正文等信息提取网页的特征项，构造评价函数，根据两个网页的特征项的相似度判断网页是否重复。 ! ! 现有主流网页消重技术［#］ 89:; 算法计算出每篇文档中各个单词的词频，将文档用词频向量的方法表示出来，计算 , 个词频向量之间的距离，在一定的范围之内就判断为相似的文档。89（ )(0(1=7 /1=?1(? ?7@1*+(/0）算法，首先将一篇文档分成由 / 个字组成的 A(/07*，一篇文章就可以由 / 个 A(/07* 来表示，再按照一定的过滤规则将过滤出 .//0 年第 0 期的 !#$%’! 作为该篇文档的代表，参加比较的就是这些被选出来的 !#$%’!。( ) *+,- 算法是对 ./0 算法的一种改进，它从过滤 !#$%’! 这方面着手，尽量过滤掉尽可能多的重复次数较多的 !#$%’!。北大的天网系统在搜集并分析一篇网页时，提取并记录了网页中出现的关键词，同时根据公式赋予每个关键词一个权值，这些关键词的权值构成一个向量空间，可以用来表示该网页。并以关键词作为网页的特征项。清华大学使用的提取方法是在文章中逗号，句号的前后各取 1 个汉字，作为字符串。哈工大使用的方法是在文章中各个句号的前后各取 2 个汉字。虽然提取汉字的方法不同，但是都是以标点作为文中的提取标记，这种方法效率较高，因为提取字符串是线性时间的，就是把一个 3（$1）时间复杂度的问题转变成了 3（ $）时间复杂度的问题，不失为一种好方法。 ! # 现有网页消重技术的局限我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面，其中查全率是指去重算