- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚焦爬虫关键技研究
摘要
摘要
主题搜索引擎是搜索引擎的细分和延伸,为特定领域、特定人群或特定需求提供
定向信息和个性化信息检索服务。聚焦爬虫是主题搜索引擎的基础和核心设施,其主
要目标是在有限的时间内尽可能多地抓取与给定主题相关的网页,已成为W曲数据挖
掘领域的研究热点之一。
本文基于对聚焦爬虫的基本结构和工作原理的分析,主要做出如下工作:
(1)通过对几种经典的爬虫搜索策略的深入研究和对比分析,本文提出了一种综
合考虑内容分析和链接结构分析算法的策略,该策略综合考虑爬虫的立即回报价值和
未来回报价值,有效解决了爬虫“陷入”问题。
(2)在内容分析部分,提出了基于多层次分类器的主题相关性算法,充分利用网
页的结构信息和链接上下文信息以提高网页主题相关性判断的准确度。
以此预测URL的未来回报价值,指导爬虫穿越主题隧道以爬取更多主题相关页面。
(4)最后,在对聚焦爬虫相关技术的研究和分析基础上,本文实现了一个聚焦爬
虫原型系统。
实验结果表明,本文提出的聚焦爬虫算法在收获率和目标召回率上均取得了较好
的效果。
关键词:主题搜索引擎;聚焦爬虫;多层次分类器;链接上下文;mTS
Abstract
t0
Withthe oflmemet ofhowobtainthe
infomation,the
rapidexpansion problem
that them嬲siVeinformationiSst-1lnot
inf0啪ationweneeded and
quicklyaccurately丘Dm
abIemeet
t0bcsoIVcd.Whentraditio眦lsearch havcnotbcen to our
engines growing
de眦nd南r tllefocusedseaurch
service,webrought
personal砌information州eVal
engine.
Focusedse锄.ch isthee)(tensionoftraditionalse锄.ch anditisone
engine engines aspect
oft飓ditionalones.It directivevalueinformationand iIlfomation
provides personal泣ed
re口ievalservicef.0r or inf.0rmationneedst0mcct
speci6careas,specificgroupsspecific
uscr’s and se锄-chneedsbetter.Focu∞d isthebase
professionalpersonal娩ed crawler,、汕ich
andcorefacilitiesofthefocuseds髓rch to the thatisrelatedwi
文档评论(0)