- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息采集系统设计及实现.doc
基于主题的Web信息采集系统的设计与实现
李盛韬,赵章界,余智华
(中国科学院计算技术研究所 软件研究室,北京 100080)
摘 要:基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词: 信息采集;信息检索;信息处理;主题
Email: lishengtao@ ; zhaozj@ ; yzh@
中图分类号:TP391 文献表示码:A
基金资助:中科院计算所领域前沿青年基金资助(资助8 )2000年7月,21亿[1][2],这使得页面的失效率非常地巨大。Selberg和Etzioni在1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[5]。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。
传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高了采集到页面的利用效率。
为此,我们开展了主题Web信息采集技术的研究,并设计实现了“天达”主题Web信息采集系统。全文的组织是这样的:第二章介绍主题Web信息采集的基本问题;第三章给出了“天达”主题Web信息采集系统的结构模型以及相关细节;在第四章里,我们给出了该系统的实现情况;最后,在第五章里展望了主题Web信息采集发展的动向。
2.基于主题的Web信息采集的基本问题
2.1基于主题的Web信息采集的定义
在Web信息采集的大家庭中,有一类非常重要,它就是基于主题的Web信息采集(Focused Crawling),也称为Topic-Specific Crawling,主要是指选择性地搜寻那些与预先定义好的主题集相关的页面进行采集的行为。
2.2基于主题的Web信息采集的分类
2.2.1广泛主题和具体主题的Web信息采集
按照采集主题的范围和规模,基于主题的Web信息采集可分为广泛主题的Web信息采集和具体主题的Web信息采集。
广泛主题是指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题的Web信息采集也称作领域Web信息采集。一般这类信息采集所需要采集的页面数量较多,为了达到较高的召回率,在进行URL过滤的时候所设定的阈值较低、限制较宽,因此它的页面内容也相对较杂。与之相对应,具体主题涵盖面较窄,意义较明确,采集规模也较小,一般进行URL过滤的时候所设定的阈值较高、限制较严。这类采集一般可直接服务于用户,提供更加灵活、针对性更强的服务。
2.2.2固定主题和可变主题的Web信息采集
按照采集时能否指定主题,基于主题的Web信息采集分为固定主题的Web信息采集和可变主题的Web信息采集。
顾名思义,固定主题的Web信息采集在采集前和采集的过程中都不能进行主题的变更。它一般是针对广泛主题和领域搜索引擎的,不直接服务于用户。可变主题的Web信息采集是指用户在采集前可设定采集主题、在采集过程中可改变主题的一种采集方式。这类采集往往设定的主题较具体,采集页面的规模也较小,提供给用户的操作方式比较灵活。另外,多个此类信息采集器进行合作,分别采集不同的主题,能够完成一些更高级和复杂的服务。
2.3主题页面在Web上的分布特征
整个Web上的页面主题分布是混杂的,但同一个主题在Web上分布却有一些规律。我们将这些分布规律总结为四个特性:Hub特性、Sibling/Linkage Locality特性、站点主题特性、Tunnel特性。
2.3.1 Hub特性
美国康奈尔大学的教授Jon M. Kleinberg发现Web上存在大量的Hub页面,这种页面不但含有许多outlink链接(指出链接),并且这些链接趋向于相关同一个主题。也就是说,Hub页面是指向相关主题页面的一个中心。另外,他还定义了权威页面(authority)的概念,即其它许多页面都认为相关于这一主题有价值的好页面。好的Hub页面一般指向多个Authority的页面,并且所指向的Authority页面越权威Hub页面的质量也越好;反过来,Hub页面的质量越好,它所指向的每个页面也趋向于越权威。我们把主题在Web上的这一特性称为Hub特性。
2.3.2 Sibling/Linkage Locality特性
在Hub特性的基础上,人们又提出了Sibling/Linkage Locality特性[1]。1).Link
您可能关注的文档
- fl2009年枣阳市中考质量分析报告tvt.doc
- Flash动画短片设计及制作论文开题报告.doc
- GCT2010真题及解析.doc
- GFQ高中三年级语文高考二轮复习诗歌形象鉴 赏二课件.doc
- GIS 学科及专业建设发展思路应用研究.doc
- Google搜索语法释疑.doc
- GPRS远程抄表系统设计及实现.doc
- gps-rtk技术在地形测量中应用.doc
- HBV基因定量分析技术应用价值.doc
- HiD工作原理的电路分析.doc
- 【西班牙投资促进局】英文2024年西班牙农业食品技术873mb.pptx
- 【中国农业大学】2024北京市高校食堂食物浪费现状及转型策略报告732mb.pptx
- 【联合国粮食及农业组织】传粉者挑战徽章训练手册中18228mb.pptx
- 【联合国粮食及农业组织】粮食和农业植物遗传资源种质库标准实施实用指南—种质库正常型种子保存8117mb.pptx
- 【世界银行】加强巴伊亚州的农业支持:建立有竞争力、绿色和包容性的农业食品部门的政策2025643mb.pptx
- 【FAO】2024年粮食及农业状况报告.pptx
- 20242025年互联网农业市场现状调研及前景趋势预测报告1081mb.pptx
- 20242025年现代农业市场现状调研及前景趋势预测报告1141mb.pptx
- 辽宁省首饰产品质量监督抽查实施细则.docx
- 数字农业产业项目整体解决方案9126mb.pptx
最近下载
- 古代画中的仕女图10幅.pdf VIP
- 高校教师岗前培训题库高等教育学.pdf VIP
- 2024年新高考全国Ⅰ卷数学试卷试题真题答案详解(精校打印).docx VIP
- 苏科版九年级上册物理课件 二、电路连接的基本方式 2节 电路连接的基本方式.pptx VIP
- T_CCTAS 157-2024 陆路交通基础设施隧道智能设计数字化技术规范.docx
- 中心静脉导管并发症处理.pptx VIP
- 52个奥数解题方法.pdf VIP
- 2024年新人教版英语三年级上册课件 Unit 4 Part A 第1课时.pptx VIP
- 监测设备、报警仪器和辐射防护用品登记表.docx VIP
- 22rum猜想想要读写快还是存储省又三选二.pdf VIP
文档评论(0)