网站大量收购闲置独家精品文档,联系QQ:2885784924

面向微博的主题爬虫设计与实现-计算机应用技术专业毕业论文.docx

面向微博的主题爬虫设计与实现-计算机应用技术专业毕业论文.docx

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中原工学 中原工学院硕士学位论文 目 录 目 录 1 绪论 1 1.1 研究背景1 1.2 搜索引擎发展现状1 1.2.1 搜索引擎分类2 1.2.2 搜索引擎的工作原理4 1.2.3 主题搜索引擎与通用搜索引擎的区别 5 2 相关理论及研究现状9 2.1 搜索引擎理论与技术9 2.1.1 搜索引擎的概念9 2.1.2 搜索引擎的发展简史9 2.1.3 搜索引擎的分类11 2.1.4 搜索引擎技术简介12 2.1.5 搜索引擎的系统结构13 2.2 HTTP 协议 14 2.2.1 协议概述14 3 面向主题微博爬虫的系统体系结构设计16 3.1 主题爬虫及相关理论技术16 3.2 爬虫分类16 3.2.1 通用网络爬虫工作原理及体系结构 16 3.3 主题网络爬虫工作原理及体系结构18 3.3.1 主题爬虫的概述18 3.3.2 主题爬虫工作原理19 3.4 主题相关度和重要度判定模块的设计20 4 主题相关性判定关键算法研究与设计22 4.1 基于网络拓扑的算法分析研究22 PageRank 算法 22 HITS 算法 23 4.2 算法使用分析23 4.3 基于网页内容的算法分析研究24 4.3.1 纯文本分类与聚类算法24 4.3.2 超文本分类和聚类算法25 4.3.3 算法使用分析25 4.4 基于主题的评价算法的设计25 4.4.1 主题对象确立模块算法设计26 4.4.2 初始种子优化模块算法设计27 4.4.3 主题相关度分析模块算法设计28 4.4.4 链接重要度分析模块算法设计30 5 主题微博爬虫系统的实现32 5.1 网络爬虫的概要设计32 5.2 网络爬虫总体设计33 5.3 网络爬虫具体实现34 5.3.1 爬取网页34 I II II 5.3.2 分析网页34 5.3.3 判断相关度35 5.3.4 保存网页信息35 5.3.5 多线程的实现35 5.3.6 实验结果35 6 总结 37 6.1 论文工作的总结37 6.2 下一步工作的展望38 参考文献39 致 谢 41 中原工学 中原工学院硕士学位论文 第一章 绪论 PAGE PAGE 1 1 绪论 1.1 研究背景 目前谷歌、百度等各大通用搜索引擎的普及取得了很大的成功,在一定程度 上解决了的网络信息资源和用户的查询需求之间的矛盾,成为了人们获取知识和 访问网络的重要工具。虽然各大通用搜索引擎都维护着庞大的索引,但索引的增 长规模远远不及迅速膨胀的网络本身。目前就连最大的搜索引擎谷歌所能检测到 的网页数目也就在30亿左右,所以通用搜索引擎检测的网页数还是有限的,大概 占所有网页的30%到40%。通用搜索引擎越来越不能满足对某一主题或某一学科 的精确搜索,特别是Web越来越多,这种现象逐渐增多。另一个重大需求是从事 各行各业的用户迫切的需要出现一类高精度的搜索引擎来搜搜索有与主题密切 相关的一些资料并做相应的整理保持。在这种环境下下主题搜索赢取了高度的关 注,它能够把一些符合主题要求的信息整理出来,与通用搜索引擎相比,具有较 高的准确度。 主题爬虫是主题搜索引擎的重要前段呈现形式,主题爬虫所使用的策略是整 个模块中的重中之重,也是主题搜索应用近几年研究的重心,其策略的算法核心 是对未爬行过的网页如何排队。各方研究人员对此算法提出了多种多样的意见, 大豆研究人员所提出的算法的“主题性”过于集中,从而使其搜集到的网页只显示 了局部最优的状态,对全局来说其不能达到最优的状态。虽然有些研究人员也提 出了其他的优化算法,这些算法实现起来甚是复杂,但也只是在局部起到了作用, 对全局来说起作用也是微乎其微[1]。 基于以上的方面,本文对主题爬虫模块进行研究,目的是研发一种新型的主 题微博爬虫,使在微博爬取过程中达到较好情况,进而应用到网络舆情监控系统 中;同时在使用的过程中减少对专业人员的依靠。在整个研究过程中,算法研究 是关键,如何实现符合主题的覆盖度,如何高效爬取等是整个过程的核心。 1.2 搜索引擎发展现状 互联网的高速发展,带动了搜索引擎的发展,使其成为互联网时代的一个新 兴产业。第一代搜索引擎在整个行业中较深的影响,其主要原因是覆盖面广,方 便快捷、免费查询等。但是随着互联网的发展,第一代搜索引擎已经不能满足人 们的需求,尤其是特定人群、特定主题的需求,所以第二代搜索引擎诞生了,也 就是垂直搜索引擎和元搜索引擎。搜索门户网站,采用目录是搜索,提供免费服 务是第一代搜索引擎的特点,其代表就是雅虎。改进的第二代搜索引擎实现起来 很

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档