- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于元搜索的网页消重方法研究.doc
计 算 机 系 统 应 用
.//0 年 第 0 期
基于元搜索的网页消重方法研究
!#$% ’ () *#+,-./)$ 0)1 2/3)4 *)).-’ 5,36-(7
8-( 9)/ !)/6.( :’3-’)
谢! 蕙! 秦! 杰! ( 河南工业大学 信息科学与工程学院 河南郑州 #$$$%)
摘! 要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消
重算法。介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性。
关键词:消重 特征码 元搜索引擎 网页元数据 摘要相似度
的相同指纹,则认为这两个文档的内容重叠性较高,也
%! 引言
随着网络技术的飞速发展,网络提供给人们的信
息资源越来越多,要想在浩瀚的网络资源中查找到有
用的信息,搜索引擎起到了重要作用。但是现在的搜
索引擎技术并不完善,存在一些亟待解决的问题,最主
要的问题之一是存在大量的重复网页[%]。
对用户而言,如果查询到的是重复信息,严重影响
查询效率。对互联网系统而言,如果采集到大量重复
网页,既浪费信息检索时间又浪费存储空间。网络机
器人( ’()*+)采集互联网中的相关信息,采集信息的
数量非常巨大,采 集 结 果 的 处 理,需 要 进 行 消 重 处 理
后,才能作为有效的信息。若单单依靠人工进行去重
处理,不仅耗费宝贵的人力资源,而且时效性也不能满
足实际需要。
为了解决这些问题,网页消重成为搜索引擎所研
究的一项重要技术。
,! 网页消重技术
网页消重技术是指对内容重复的网页进行识别,
处理和合并,以节省网页数据库的存储空间和在网页
数据库上进行操作的时间的过程[,]。
! # 网页消重技术主要思想
根据网页重复原因不同对应的判断网页是否重复
的方法也有所不同,但是几乎所有的消重技术都基于
这样一个基本思想[-]:根据一定的算法为每个文档计
算出一组指纹(.(/0*+’+(/1),若两个文档拥有一定数量
-
! 应用技术 !#$% ’%()*$+,%
即二者是重复网页。
对于 234 相 同 的 网 页,为 了 避 免 重 复 搜 集 同 一
234 网页,主要使用排除相同 234 的方法:网络蜘蛛把
访问过的网页地址变成信息指纹存放到哈希表中,在
抓取新的网页时,把网页的地址解析成指纹,判断比较
该指纹是否存在于哈希表中,若存在则表示已下载过,
若不存在则下载且把这个指纹存放到该哈希表中。当
然这个算法要保证几乎不能产生相同的网址指纹。
针对内容相同的网页,当前比较成功的搜索引擎
系统大多是基于关键词匹配和结合向量空间向量模型
来完成消重任务的。典型的系统包括 56607* 和天网
系统[-]。通常这类系统的消重工作过程大致是:在对
网络蜘蛛已抓取回来的网页进行分析时,首先对网页
进行净化,提取出网页的主题以及与主题相关的内容,
这些内容包括网页标识、网页类型、内容类别、标题、关
键词、摘要、正文、相关链接等信息,根据网页的 关 键
词、摘要、正文等信息提取网页的特征项,构造评价函
数,根据 两 个 网 页 的 特 征 项 的 相 似 度 判 断 网 页 是 否
重复。
! ! 现有主流网页消重技术[#]
89:; 算法计算出每篇文 档 中 各 个 单 词 的 词 频,
将文档用词频向量的方法表示出来,计算 , 个词频向
量之间的距离,在一定的范围之内就判断为相似的文
档。89( )(0(1=7 /1=?1(? ?7@1*+(/0)算法,首先将一篇
文档分成由 / 个字组成的 A(/07*,一篇文章就可以由
/ 个 A(/07* 来表示,再按照一定的过滤规则将过滤出
.//0 年 第 0 期
的 !#$%’! 作为该篇文档的代表,参加比较的就是这
些被选出来的 !#$%’!。( ) *+,- 算法是对 ./0 算法
的一种改进,它从过滤 !#$%’! 这方面着手,尽量过滤
掉尽可能多的重复次数较多的 !#$%’!。
北大的天网系统在搜集并分析一篇网页时,提取
并记录了网页中出现的关键词,同时根据公式赋予每
个关键词一个权值,这些关键词的权值构成一个向量
空间,可以用来表示该网页。并以关键词作为网页的
特征项。清华大学使用的提取方法是在文章中逗号,
句号的前后各取 1 个汉字,作为字符串。哈工大使用
的方法是在文章中各个句号的前后各取 2 个汉字。虽
然提取汉字的方法不同,但是都是以标点作为文中的
提取标记,这种方法效率较高,因为提取字符串是线性
时间的,就是把一个 3($1)时间复杂度的问题转变成
了 3( $)时间复杂度的问题,不失为一种好方法。
! # 现有网页消重技术的局限
我们为网页消重算法设计的评价指标包括算法复
杂度、查全率和准确率三个方面,其中查全率是指去重
算
文档评论(0)