- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
随着 Web 技术的飞速发展,网络信息已经呈现出了大爆炸的趋势,通用搜索 引擎在网页捕获,内容索引等方面面临着越来越大的挑战。通用搜索引擎检索结 果包罗万象,与特定领域用户的精确检索需求的矛盾越来越突出。垂直搜索引擎 是专门面向特定领域的搜索引擎,它能够在一定程度上解决这种矛盾。
网络机器人是垂直搜索引擎重要组成部分,是垂直搜索引擎的数据来源,它 捕获网页的数量和质量直接决定了搜索引擎检索结果的召回率和准确率。
文中说明了网络机器人的基本概念,在搜素引擎中所处的位置,发展历史和 当前现状。具体分析了通用搜索引擎网络机器人和垂直搜索引擎网络机器人之间 的区别。垂直搜索引擎所使用的网络机器人一般被称为聚焦网络机器人或者聚焦 爬虫。为处理“主题孤岛”问题,在本文中,结合就业搜索引擎开发的具体情况, 提出了基于 URL 规则,实时监控站点 HUB 页面 URL 列表的可扩展自定制网络机器 人。
文中就网络机器人设计中的一些技术细节进行了讨论,提出了一些提高网络 机器人效率,节省计算机和网络资源的实现方法。
本文创新点包括,设计并且实现了聚焦网络机器人的三层结构;设计并且实 现了聚焦网络机器人的资源优化策略;提出并且实现了列表监控解决主题孤岛的 方法。
关键词: 垂直搜索引擎;网络机器人;主题漫游;并行可扩展
Abstract
The rapid development of Web technology, network information has shown a trend of the big bang. For general search engine, many fields such as web page capture, content indexing and so on are facing with increasing challenges. The contradiction of the all-inclusion of the general search engine results and the precise needs of the specific areas of the users is more and more prominent. Vertical search engine which is a professional search engine can solve the conflict in some way.
Network Robot is an important part of vertical search engines. It is also the data sources of the search engine. The quantity and quality of the page captured determines the recall and accuracy of the results of the search engine directly. Many as the concept, the status in the whole search engine, the history and the current status are introduced in the article. Differences of network robots in the general search engine and in the vertical search engine are analyzed specifically. The network robot used by a vertical search engine is generally called as a Focused Network Robot. To solve the problem known as ―theme island‖ , contacting the actual situation of our Job Search Engine, we proposed a customizable Network Robot, which bases on the URL-rules and can monitor the URL list of the Hub page real-time.
Some technical details in the design of the network robots are discussed and many methods which can improve the efficiency or s
您可能关注的文档
- 交互式图像检索中的相关反馈技术-模式识别与智能系统专业论文.docx
- 基于DEA模型的农村金融资源配置效率研究-金融学专业论文.docx
- 基于DSP的永磁同步电机直接转矩控制-电机与电器专业论文.docx
- 基于Web的空间数据挖掘研究-大地测量学与测量工程专业论文.docx
- 基于Web+Service异构数据库信息集成的研究-通信与信息系统专业论文.docx
- 基于WorldFIP现场总线电量变送器的研发-模式识别与智能系统专业论文.docx
- 基于不确定性分析的火电建设项目计划分析-管理科学与工程专业论文.docx
- 基于WorldFIP的现场总线控制系统的研究-模式识别与智能系统专业论文.docx
- 基于xml的电力系统图形信息表示的应用研究-计算机应用技术专业论文.docx
- 基于共形FDTD方法的波导带通滤波器分析与优化设计-电磁场与微波技术专业论文.docx
原创力文档


文档评论(0)