毕业设计--开题报告.docVIP

下载本文档

6
0
约2.71千字
约 5页
2015-10-29 发布于安徽
举报
版权申诉

毕业设计--开题报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

毕业设计--开题报告.doc

毕业设计（论文）开题报告课题的目的及意义（含国内外的研究现状分析或设计方案比较、选型分析等）网络爬虫又被称为网页蜘蛛，是一种按照一定的规则，自动的抓信息的程序或者脚本它为搜索引擎从上下载网页是搜索引擎的重要组成如何有效地提取并利用这些信息成为一个巨大的挑战。传统的返回的结果包含大量用户不关心的网页难以支持根据语义信息提出的查询为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。它根据既定的抓取目标，有选择的访上的网页与相关的链接，获取所需要的信息。与通用爬虫不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。据中国汽车工业协会统计分析，2013年12月，汽车产销保持稳定增长，当月产销再创月度新高。2013年，汽车产销双双超过2000万辆，增速大幅提升，高于年初预计，并且再次刷新全球记录，已连续五年蝉联全球第一。颜色是一辆汽车给人的第一个感官刺激，就像穿衣服一样，汽车的颜色也反映了车主的品位与个性。颜色不能全由流行时尚所决定，根据自身的情况合理选择才是长久之计2.课题任务、重点研究内容、实现途径主要内容：网络爬虫Crawler，采用多线程并发搜索技术，在互联网中访问各节点，定期搜索信息，抓取网页，并根据网络链接提取其他网页，对网页进行分析，提取关键词、URL等信息。本课题不局限于具体的开发技术（.NET或Java），旨在深入了解网络爬虫涵义的基础上利用所学编程技术，实现一个面向汽车色彩领域的网络爬虫原型。课题的主要任务和工作如下：深入学习网络爬虫涵义和所涉及的基本技术；深入分析一般的网络爬虫所具备的基本功能，如下载高质量的网页，认证，判断己经下载的网页与主题的相关性，决定待爬行URL的访问次序等；在对网络爬虫功能需求深入分析和了解的基础上，可针对汽车色彩领域，利用.NET/Java、开源web爬虫等技术和平台开发设计出一个面向汽车色彩领域的爬虫原型。重点研究技术：网络爬虫多线程并发搜索技术：为了提高爬取性能，应采用多线程并发搜索，多个线程共享一个URL队列，顺序地从队列中获取URL，然后每个线程单独处理网页的抓取，下载，分析链接工作，提高并发度。网页搜索策略：网页的抓取策略可以分为三种深度优先、广度优先和最佳优先。目前常见的是广度优先和最佳优先深度优先在很多情况下会爬虫的陷入问题去重的基本方法是计算页面特征关键词指纹，从页面主题内容中选取最代表性的一部分关键词计算这些关键词的数字指纹文本分类大致有两种方法：一种是基于训练集的文本分类方法；另一种是基于分类词表的文本分类方法毕业答辩学生签名：年月日 4、指导教师意见指导教师签名：年月日参考文献周立柱，林玲．聚焦爬虫技术研究综述【J】．计算机应用，2005，(09)． [2] 欧阳柳波，李学勇，李国徽，et a1．网络蜘蛛搜索策略进展研究【J】．小型微型计算机系统，2005，(04)． [3] 王灏，黄厚宽，田盛丰．文本分类实现技术【J】．广西师范大学学报(自然科学版)’2003，(01)． [4] 王伟强，高文，段立娟．Intemet上的文本数据挖掘【J】．计算机科学，2000，(04)． [5] 陈杰．主题搜索引擎中网络蜘蛛搜索策略研究【硕士】．浙江大学，2006． [6] 刘林，汪涛，樊孝忠．主题爬虫的解决方案【J】．华南理工大学学报(自然科学版)2004，(S1)． [7] 吕昊, 面向垂直搜索的聚焦爬虫研究及应用, 硕士学位论文,浙江大学, 2008. [8] 郑健珍, 定题爬虫搜索策略研究, 硕士学位论文, 厦门大学, 2007. [9] 陈奋, 过滤型网络爬虫的研究与设计, 硕士学位论文, 厦门大学, 2007. [10] Chakrabarfi S，van den Berg M，Dom B．Focused crawling：A new approach to topic—specific Web resouroe discovery【J】．In Proceedings of 8th International World Wide Web Confere