主題式新闻搜索系统的设计稿—新闻页面采集模块毕业专业论文设计稿.docVIP

下载本文档

2
0
约2.26万字
约 39页
2017-03-26 发布于上海
举报
版权申诉

主題式新闻搜索系统的设计稿—新闻页面采集模块毕业专业论文设计稿.doc

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主題式新闻搜索系统的设计稿—新闻页面采集模块毕业专业论文设计稿

毕业设计（论文）题目名称：主题式新闻搜索系统的设计—新闻页面采集模块院系名称：计算机学院班级：软件115 学号：201100834515 学生姓名：杜昕佳指导教师：程传鹏 2015 年 5 月主题式新闻搜索系统的设计—新闻页面采集模块 Design of thematic news search system—News page collection module 院系名称：计算机学院班级：软件115 学号：201100834515 学生姓名：杜昕佳指导教师：程传鹏 2015年 5 月摘要随着互联网使用的广泛性和不断增加的实用性，以及人们对自己想要的信息的渴望，主题式新闻搜索系统方法显得越来越重要。主题就是一种个性，一种时尚。用户怎么才能迅速的，准确的找到自己所需要的信息，就显得异常重要。同时给用户最有效的最准确的信息，也是每一个开发者的追求和目标。随着岁月的流失，这个情况也演变的越来越迫切。当然这也是一个十分难得时机与机遇，谁能抓住这个时机，谁就有可能成为下一个的互联网巨擘，引领一个网络时代。本文主要研究新闻是如何采集的，在从如此众多的繁杂的网络上，怎样收取的。通过广度遍历的算法，将URL采集到本地之中。利用hash表，将下载的URL一一的对比，除去重复的。通过转换将获取的相对路径链接，转化为绝对路径的链接。然后再通过获取的绝对路径链接获得网页，然后截取标题的最后两个字，进行判断是不是属于新闻，是则将数据写入txt文本之中，图片另存在指定的文件之中。关键词： Key words: news gathering, URL capture, absolute path acquisition, title interception, writing text 目录摘要 I Abstract II 目录 III 第一章绪论 1 1.1 研究背景及实现意义 1 1.2 国内外研究现状 2 1.3 本论文所做的主要工作 3 1.4 本文论文的组织结构 6 第二章新闻采集的关键技术 7 2.1 相关技术 7 2.1.1 搜索引擎 7 2.1.2 网络爬虫 7 2.1.3 多线程编程 7 2.1.4 主题 8 2.1.5 相对路径与绝对路径 8 2.2 URL的抓取 9 2.3 URL的除重 10 2.4 数据的写入 11 第三章新闻采集模块的设计与实现 12 3.1 URL的抓取与除重 14 3.2 绝对路径的提取 17 3.3 数据的提取与图片的存储 19 3.4 本章小结 26 第四章系统的测试 27 4.1 系统测试的环境 27 4.2 测试的目的与意义 27 4.3 测试的策略 27 4.4 系统测试的设计与结果分析 28 4.5 功能的测试 29 4.5 本章小结 30 第五章结论 31 致谢 32 参考文献 33 第一章绪论 1.1 研究背景及实现意义随着网络的迅速发展，万维网成为大量信息的载体，如何才能有效地从网络之中提取并且利用这些信息，已经成为现实社会的一个巨大的挑战，也是一个难得机遇。怎么样将用户所需要的信息展现给用户，也是一个关于搜索引擎的里程碑。传统的搜索引擎（Search Engine），包括有AltaVista，Yahoo!和Google等，它们在现实社会中，或许可以认作为一个辅助人们采集信息的工具，也可以认为是用户访问或者进入万维网的入口和行动指南。实际上传统的搜索引擎，通常也存在着一定的局限性，所以信息采集的技术应运而生。信息采集必须满足以下三个特点可靠性原也就是说，信息采集是指在采集信息时候，信息必须是真实的对象或这环境所产生的，必须保证信息的来源是可靠的，必须保证了采集的信息确实能够用来反映信息真实的状况，它是信息采集的基础，也就是信息采集的根本。完整性原则信息采集完整性是指采集的信息在内容上必须完整无缺，信息的采集必须要按照一定的标准去做，采集的信息应该反映全貌的信息，完整性原则是利用信息的基础性原则。实时性原则即采集的信息，应该是与用户要求的相关。将采集的信息，展示给用户。是基于搜索引擎的相关技术，但是又不完全同于搜索引擎。它改进了传统的搜索引擎的特点。消除了它的缺陷，比如搜索引擎搜索的信息有很多与用户要求不相关的信息，总之一句话克服了搜索引擎的缺点，继承了它的优点，这也是为什么它发展的这样迅速的主要原因。 1.2 国内外研究现状基