- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
辛亥革命史主题爬虫的设计与实现
摘要:今年是辛亥革命100周年,该文在普通爬虫的技术基础上以主题相关性为核心构建辛亥革命史主题爬虫,从而保证该主题爬虫所搜集网页与辛亥革命主题相关,返回用户所需,做构建辛亥革命主题搜索引擎的前期工作。
关键词:主题搜索引擎;主题爬虫;主题相关性;主题字典
中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)13-3009-02
近年来,随着Internet的飞速发展,Web信息以爆炸的方式增长着,人们的身边围绕着各种各样的信息资源,但是这同时也给人们带来了难题,因为从大量类似的信息中获取自己想要的信息不是一件简单的事。搜索引擎技术的出现在很大程度上解决了这个问题,但如何满足用户对快速、准确的获取信息资源的要求,尤其是获取专业领域的信息,这是目前主流搜索引擎的尚未解决的问题。
在这种情况下,针对特定的专业领域提供搜索服务的主题搜索引擎逐步受到人们的青睐。相比传统的搜索引擎,主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的内容可以更深,搜索的周期可以更短。主题搜索引擎的针对性强和专业化的特点使它成为计算机科学界和信息产业界争相研究、开发的对象,国内外专家学者们纷纷对主题搜索引擎的关键技术和实现方案进行了广泛的探索和研究。彭涛在他的博士学位论文中提出了基于链接上下文关系的自适应性主题爬行方法,利用改进的原始微粒群优化算法对网页分类器进行优化组合提高网页分类的精确度,并提出来了增量式索引结构[1]。张岭在他的博士论文里提出了智能WEB信息评价,资源价值标定、分布式图结构索引等WEB数据挖掘的模型,将智能挖掘算法有机的结合到主题搜索引擎中[2]。同时在国外,Rui Chen,Bipin C.Desai,Cong Zhou提出了基于多层检测模型的CINDI聚焦爬虫,最大限度的考虑了WEB页面特征来发现相关主题网页[3]。P.Srinivasan,F.Menczer,G.Pant提出了主题爬虫的主题相关度综合评价框架[4]。
本文的研究问题是在传统爬虫基础上,构造辛亥革命主题词典,利用基于链接内容分析的主题相关度预测方法的爬取策略,构造辛亥革命主题搜索引擎的爬虫模块,为广大历史学家和历史爱好者提供精准的信息服务。
1 研究基础
1.1 构建基于动态主题库的主题词典
1) URL信息
有过网页制作经历的人都知道,在URL中加入提示页面的文字都或多或少是相关主题的信息,来区别其他主题的页面。如历史:history;体育:sports、pingpong、basketball;因此在URL地址中有可能含有与页面主题相关的信息。比如:http://则表示这是一个教育的链接,反应了主题。
2) 锚文本信息
锚文本实际上就是链接文本,是对页面中的超链接的文字解释。锚文本对该URL所指向的页面起到了概括描述的作用。比如页面中有超链接历史历史就是该超链接的锚文本,该子页面包含的内容就很有可能与“历史”有关;辛亥革命百年纪念电影,该锚文本则与主题相关。锚文本是对URL主题相关度预测时一个重要的指标。
3) 父页面与子页面的信息
一个网页中,总会有许多个链接,那么我们就称该页面为父页面,它里边的链接所指向的页面叫做该页面的子页面,如index.html有如下链接指向的页面:information.html,organizatioon.html,news.html,about.html,则这些页面被称为index.html的子页面。根据主题页面的分布规律,index.html与某一主题相关,那么这些子页面与主题相关度也可能很高。
4) 主题字典
动态主题库是由静态主题库和动态主题库而构成,静态主题库在初始过程中由历史领域专家建立,并在抓取过程中保持不变[5]。动态主题库是在网页爬取过程中,根据提取出来的锚文本中和URL中的未知字段构建。
锚文本中未出现在主题库的字段可能是与主题相关的概念的另一种表述,这些信息是主题相关的潜在信息。本文利用Google的blog搜索方法,对未知字段进行查询,提交给Google,在返回的结果列表中,提取前n个结果对应的URL,将这n个URL对应的网页抓取回来,构成一个未知字段ut相关的网页集合X。通过对网页集合X中的网页进行字段统计,得出一个(字段,频率)的列表,根据频率降序排列,从中选取前S个字段,构成未知字段的反馈字段集合T。对T中的每个字段ti,利用同义词进行替换,替换成静态主题库中的词语,构成新的语义层次的相关反馈字段集合ST。为了进一步判断未知字段的主题相关性,利用其对应的相关反馈字段集合ST和动态主题库DTB进行匹配,利用概率计算方法,得出ST和动态主题库D
文档评论(0)