基于元搜索的网页消重方法研究.docVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于元搜索的网页消重方法研究.doc

计 算 机 系 统 应 用  .//0 年 第 0 期 基于元搜索的网页消重方法研究 !#$% ’ () *#+,-./)$ 0)1 2/3)4 *)).-’ 5,36-(7 8-( 9)/ !)/6.( :’3-’) 谢! 蕙! 秦! 杰! ( 河南工业大学 信息科学与工程学院 河南郑州 #$$$%) 摘! 要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消 重算法。介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性。 关键词:消重 特征码 元搜索引擎 网页元数据 摘要相似度 的相同指纹,则认为这两个文档的内容重叠性较高,也 %! 引言 随着网络技术的飞速发展,网络提供给人们的信 息资源越来越多,要想在浩瀚的网络资源中查找到有 用的信息,搜索引擎起到了重要作用。但是现在的搜 索引擎技术并不完善,存在一些亟待解决的问题,最主 要的问题之一是存在大量的重复网页[%]。 对用户而言,如果查询到的是重复信息,严重影响 查询效率。对互联网系统而言,如果采集到大量重复 网页,既浪费信息检索时间又浪费存储空间。网络机 器人( ’()*+)采集互联网中的相关信息,采集信息的 数量非常巨大,采 集 结 果 的 处 理,需 要 进 行 消 重 处 理 后,才能作为有效的信息。若单单依靠人工进行去重 处理,不仅耗费宝贵的人力资源,而且时效性也不能满 足实际需要。 为了解决这些问题,网页消重成为搜索引擎所研 究的一项重要技术。 ,! 网页消重技术 网页消重技术是指对内容重复的网页进行识别, 处理和合并,以节省网页数据库的存储空间和在网页 数据库上进行操作的时间的过程[,]。 ! # 网页消重技术主要思想 根据网页重复原因不同对应的判断网页是否重复 的方法也有所不同,但是几乎所有的消重技术都基于 这样一个基本思想[-]:根据一定的算法为每个文档计 算出一组指纹(.(/0*+’+(/1),若两个文档拥有一定数量 - ! 应用技术 !#$% ’%()*$+,% 即二者是重复网页。 对于 234 相 同 的 网 页,为 了 避 免 重 复 搜 集 同 一 234 网页,主要使用排除相同 234 的方法:网络蜘蛛把 访问过的网页地址变成信息指纹存放到哈希表中,在 抓取新的网页时,把网页的地址解析成指纹,判断比较 该指纹是否存在于哈希表中,若存在则表示已下载过, 若不存在则下载且把这个指纹存放到该哈希表中。当 然这个算法要保证几乎不能产生相同的网址指纹。 针对内容相同的网页,当前比较成功的搜索引擎 系统大多是基于关键词匹配和结合向量空间向量模型 来完成消重任务的。典型的系统包括 56607* 和天网 系统[-]。通常这类系统的消重工作过程大致是:在对 网络蜘蛛已抓取回来的网页进行分析时,首先对网页 进行净化,提取出网页的主题以及与主题相关的内容, 这些内容包括网页标识、网页类型、内容类别、标题、关 键词、摘要、正文、相关链接等信息,根据网页的 关 键 词、摘要、正文等信息提取网页的特征项,构造评价函 数,根据 两 个 网 页 的 特 征 项 的 相 似 度 判 断 网 页 是 否 重复。 ! ! 现有主流网页消重技术[#] 89:; 算法计算出每篇文 档 中 各 个 单 词 的 词 频, 将文档用词频向量的方法表示出来,计算 , 个词频向 量之间的距离,在一定的范围之内就判断为相似的文 档。89( )(0(1=7 /1=?1(? ?7@1*+(/0)算法,首先将一篇 文档分成由 / 个字组成的 A(/07*,一篇文章就可以由 / 个 A(/07* 来表示,再按照一定的过滤规则将过滤出 .//0 年 第 0 期 的 !#$%’! 作为该篇文档的代表,参加比较的就是这 些被选出来的 !#$%’!。( ) *+,- 算法是对 ./0 算法 的一种改进,它从过滤 !#$%’! 这方面着手,尽量过滤 掉尽可能多的重复次数较多的 !#$%’!。 北大的天网系统在搜集并分析一篇网页时,提取 并记录了网页中出现的关键词,同时根据公式赋予每 个关键词一个权值,这些关键词的权值构成一个向量 空间,可以用来表示该网页。并以关键词作为网页的 特征项。清华大学使用的提取方法是在文章中逗号, 句号的前后各取 1 个汉字,作为字符串。哈工大使用 的方法是在文章中各个句号的前后各取 2 个汉字。虽 然提取汉字的方法不同,但是都是以标点作为文中的 提取标记,这种方法效率较高,因为提取字符串是线性 时间的,就是把一个 3($1)时间复杂度的问题转变成 了 3( $)时间复杂度的问题,不失为一种好方法。 ! # 现有网页消重技术的局限 我们为网页消重算法设计的评价指标包括算法复 杂度、查全率和准确率三个方面,其中查全率是指去重 算

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档