- 1、本文档共56页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
随着网络信息资源数量的急速增长,通用搜索引擎已经很难满足人们对专业化
信息检索服务的要求。主题搜索引擎只搜索与特定主题相关的 Web 资源,能更好地
满足用户对获取信息快速、准确的性能要求。实现主题搜索引擎,核心是设计一个
面向主题的网络爬虫,改进网络爬虫中对页面的过滤方法和网络爬行的策略,将有
助于提高主题搜索引擎的性能。
经过对现有的各种主题相关度判断方法的分析,以基于语义判断的方法为基础,
加入链接标签和元数据等信息作为判断因素,提出了综合使用向量空间模型和链接
标签分析及元数据分析的页面相关度判断的方法。实验表明,该方法可以提高主题
相关度判定的效率和准确率。
在对目前各种搜索策略的研究的基础上,决定采用效率较高的基于内容评定策
略进行网络爬行。针对基于内容评定策略中存在的“近视”问题,设计了一种基于
当前页面 URL 的简单链接结构分析方法,综合使用内容评定和链接结构分析方法作
为网络爬行策略。该方法能在一定程度上缓解 “近视”问题,提高爬虫的效率。
在通用搜索引擎的基础上,通过对其网络爬虫部分进行改进,设计和实现了一
个完整的主题搜索引擎。实验结果表明,上述主题相关度判断方法和爬行策略可以
有效地控制爬虫对主题相关的信息进行爬行,达到了设计要求。
关键词:主题搜索引擎,网络爬虫,爬行策略,页面过滤
I
Abstract
With the development of the network technology and the rapid growth of Internet
information resource, traditional Search Engines can’t satisfy the requirement of
personalized information retrieval service. Topical Search Engine only searches the Web
resources related with specific theme, so it will do better in special information search. To
design a Topical Search Engine, the core task is to design a topical crawler. And improve
the method of page filtration and crawling strategy are two most important tasks of topical
crawler.
After analyzing the relevant judge methods, this paper presents a new method in
relativity judgment by integrated use of vector space model, link tags analysis and
metadata analysis. Result shows that it may improve the speed of crawler.
Based on the research of current crawling strategy, think about the problem of the
performance of crawler, the content-based strategy is decided to use in this paper. But
there are some shortages such as “short sight” in the crawling strategy. In order to improve
the crawling strategy, an easy structure analysis method base on URL content is added to
control the crawler. We combine content-based determinant with the simple link analysis
and URL tag information as the crawling strategy. This strategy can resolve the “short
sight” shortage and improve the performance of crawler.
Based on the survey of topical Search Engine and traditional Se
您可能关注的文档
最近下载
- 熊诗波机械工程测试技术.pptx VIP
- 眼镜学知到智慧树期末考试答案题库2025年温州医科大学.docx VIP
- 江苏开放大学科学思维方法在实际生活和工作中的应用、意义.doc VIP
- 平面砂浆找平层施工工艺 (1).docx
- 学校空调采购安装服务方案(技术方案).doc
- 2025北京市公安局所属事业单位研究中心招聘4人(二)笔试模拟试题及答案解析.docx VIP
- 科技英语写作课件.ppt VIP
- 2025新版三下英语Unit 4 Healthy food单元整体教学设计.docx VIP
- 申请经营电信业务的业务发展、实施计划和技术方案。.pdf VIP
- 社区医院医疗质量安全核心制度要点.DOC VIP
文档评论(0)