新闻爬虫系统的结构设计与实现毕业设计论文.docVIP

下载本文档

42
0
约3.66万字
约 70页
2017-12-13 发布于湖北
举报
版权申诉

新闻爬虫系统的结构设计与实现毕业设计论文.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

新闻爬虫系统的结构设计与实现毕业设计论文 1 绪论本章主要阐明了该课题的研究背景及其研究意义，简要说明了国内外对于爬虫系统的研究现状，并介绍了本论文的主要内容组成以及论文的组织结构。 1.1 开发背景及目的随着互联网技术的发展与应用的普及，网络作为信息的载体，已经成为社会大众参与社会生活的一种重要信息渠道。由于互联网是开放的，每个人都可以在网络上发表信息，内容涉及各个方面。小到心情日志，大到国家大事。互联网已成为思想文化信息的集散地，并具有传统媒体无法相比的优势：便捷性，虚拟性，互动性，多元性。网络新闻热点通常形成迅速，多是人们对于日常生活中的各种问题发表的各种意见，评论，态度，情绪等，随着事件的发展而变化，是反映社会热点的重要载体之一。网络爬虫是一种按照一定上网规则，自动的抓取万维网信息的程序或脚本。网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜素引擎不断发展，人们的需求也不断提高，网络信息搜索已经成为人们每天都有进行的内容。如何使搜索引擎能够时刻满足人们的需求？最初的检索功能通过索引站的方式实现，从而有了网络机器人。本课题来源于新闻爬虫系统项目的建设，旨在为相关机构提供及时的网络信息服务。这些服务与现有的搜索引擎提供的服务不同，其重要特征主要体现在：及时性，专用性，人性化。及时性新闻爬虫系统通过爬虫技术自动爬取新闻信息，定期对相应类型的新闻的地址进行扫描，如若该新闻并未被爬取过则对其进行自动爬取。让系统的工作人员可以静观事态的发展。专用性新闻爬虫系统的专用性体现在数据采集，数据分析，数据展现等几个环节上。在数据采集方面系统采用手动爬取与增量爬取相结合的方式。有针对性的采集需要的几个类别的新闻信息，并对信息进行抽取，去噪，结构化处理，为后续专用分析创造条件。在数据分析与数据展示方面，系统通过对得到的信息进行深入的分析，将分析结果进行多维度的展现。人性化新闻爬虫系统的人性化主要体现在数据结果的展示上。用户可以随时查看任意一个时间的新闻分析结果，而且该系统由于是基于多线程的程序完成任务的效率高。所以不管实在界面上还是在效率上都非常的人性化。新闻爬虫系统项目建设意义重大。一方面，新闻爬虫系统提供了大量的分析素材，方便全面的了解大众网络新闻的热点。另一方面，原来的新闻信息收集工作主要依靠人工完成，工作量巨大，覆盖面小，不仅费时费力而且还不免出现人为疏漏的情况，这种局面亟待通过技术手段提高工作效率。本文完成的是新闻爬虫系统的设计与实现，该爬虫系统为新闻分析系统提供数据源，完成新闻信息的搜集。因此可以说爬虫系统是整个分析系统的基础，并且爬虫系统输出结果的好坏直接影响着系统结果的展现。 1.2 国内外相关研究现状 1.2.1 网络爬虫从搜索对象上来分类，主流的的爬虫技术包括以下两种：第一种是基于链接分析的搜索。上世纪九十年代，国外的搜索引擎开发者已经开始以社会网络工作为模型，对万维网进行模拟。专家们通过社会间人与人的关系网，设计研发出了页面间的超链接关系网络。同时他们还惊奇的发现，相似度最高的在传统引文方面。这样通过对照就可以分析得出结论，从关系网络的角度入手，就能将互联网上大量的网页进行分类。早在2002年，欧美地区便出现了这种最原始的基于链接的搜索系统。第二种是基于内容分析的搜索。相对于基于链接分析的搜索方式，这是搜索技术的一个突破性进展，他们采取了一种新的思维方式，建立一个针对主题的词库。当用户在专业领域进行搜索时，可以将词库和爬虫结合起来进行检索。由于搜索角度的转变，这种新的技术逐渐开始被人们所关注。在上世纪九十年代，Fish Search System系统作为首个基于内容分析的搜索系统被开发出来。后来在1998年和1999年相继出现了Shark Search System和聚焦爬虫（Focused Crawler）[1]。时至今日，聚焦爬虫技术取得了长足的发展和进步，国外典型的系统包括CORA、IBM Focused Crawler等。CORA 是由美国卡内基梅隆大学的A.K.McCallum和M.Nigam等人于1999年针对计算机科学设计的一个主题型搜索引擎。CORA采用机械认知的方式，其主要针对的对象是与计算机主题相关联的内容，通过隐性马尔夫的原理对用户需要的内容进行分类。虽然CORA分析地址和主题的能力还很不足，同时也不具备对网页进行分析的能力，但是这仍然无法抹杀它在自动搜集资源方面取得的重大成就。 S.Chakrabarti在本世纪初提出了IBM Focused Crawler，这是一种全新的爬行系统。从现在的技术来看，当时的IBM Focused Crawler采取了全新双模块系统，即分类器和选择