- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎 爬虫研究现状简介 目前主要的热点研究方向 聚焦爬虫技术 智能爬虫技术 高性能爬虫技术 聚焦爬虫(Focused Crawler) 对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的不足,提出了面向主题的聚焦爬虫的研究。现在,聚焦爬虫已成为爬虫的研究热点之一。 什么是聚焦爬虫 聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。 与通用爬虫(general—purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 主要策略 基于内容评价的策略 基于链接结构策略 基于未来目报价值评价的策略 基于“综合价值” 评价的策略 基于“动态” 价值评价的策略(基于“动态”价值评价的搜索策略问题的研究受到重视。) 例子 “个性化”搜索引擎的研究 专业搜索引擎的研究(垂直搜索) 研究的现状 国内: 1.北京理工大学 汪涛等 2004 2. 南京大学 王超等 2004 国外研究较多 智能爬虫 随着动态网页技术的发展,网络爬虫越来越困难了。很多动态网页是搜索不到的,例如bbs系统,聊天室系统等。还有很多页面是需要注册为用户并登录才可以看到。所以网络爬虫技术也在逐步发展。 智能网络爬虫具有一定的人工智能,它能够自动检测这个网页是否需要注册并登录,然后可以自动登录,看到所有的页面。 智能爬虫 利用网络爬虫技术发展出来的新的网络技术。这种检测爬虫可以自动登录到聊天室、论坛等系统,并随时检查各种信息,从中过滤出敏感信息来。并且可以将敏感信息的来源直接定位到ip地址(这个结合路由器和嗅探器是可以做到的),并且爬虫可以跟踪某个敏感话题的发展,并判断其影响力。 爬虫不但可以跟踪网页形式的信息,还可以结合qq的协议,泡泡的协议等,直接检测这些信息。 智能爬虫 数据挖掘是近年的一个研究热点,其中的web挖掘的研究很多结合了网络爬虫的研究。 聚焦爬虫和智能爬虫的界限不是十分明显。 研究现状 华东师范大学计算机应用研究所,上海 杨德仁等 2006 南京大学计算机科学与技术系软件新技术国家重点实验室 朱炜等 武汉大学信息管理学院 严亚兰等 2003 兰州理工大学电气工程与信息工程学院 董瑞洪等 2005 University of California, Los Angeles Jeonghee Yi 等 University of Patras, Christos Makris等 2005 高性能爬虫 算法的研究 分布式爬虫设计研究 算法的研究 结合人工智能的一些算法或改进算法 基于非贪婪策略的网络蜘蛛搜索算法 2004 基于模拟退火的网络蜘蛛 2003 增量式Web信息采集结构模型 2005 Effective Web data extraction with standard XML technologies 2002 Efficient crawling through URL ordering based on a Hidden Markov Model (HMM) to learn user browsing patterns 还有对一些特殊格式网页的抓取的研究 分布式爬虫设计研究(热) 基于p2p技术的分布式爬虫 College of Computing, Georgia Institute of Technology, Atlanta Aameek?Singh1, Mudhakar?Srivatsa1, Ling?Liu1 and Todd?Miller1 等 University of Oregon, Eugene Daniel?Stutzbach1? Reza?Rejaie1? 2005 Shanghai Jiaotong University 2004 Liu?Fei1? , Ma?Fan-Yuan1? , Ye?Yun-Ming1? , Li?Ming-Lu1? and Yu?Jia-Di1 上海大学 2005 张博锋 刘 凤 周传飞 邹国兵 等等 基于移动代理的爬虫 华中科技大学 2005 石 柯 周利兵 陶文兵 南京大学 潘春华 冯太明 武港山 University of Chile Blanco Encalada 2002 Ricardo Baeza-Yates A1 and José Miguel Piquer A1 An Extensible Mobile-Agent-Based Framework for Coordinating Distribute
文档评论(0)