面向电子商务网站的增量爬虫设计与实现-软件工程专业毕业论文.docxVIP

下载本文档

11
0
约5.59万字
约 72页
2019-05-07 发布于上海
举报
版权申诉

面向电子商务网站的增量爬虫设计与实现-软件工程专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

|lIII |lIII I I II I II Ill rlr l l III Y1 907938 The Design and Implement on Incremental Web Crawler for E—commerce、№b S ites by YANG Song B．E．(XiangTan Normal University)2002 A thesis submitted in partial satisfaction of the Requirements for the degree of Master of Engineering ln Software Engineering in the Graduate School of Hunan University Supervisor Associate Professor 0UYANG Liubo Associate researcher LIU Jinzhao October，201 0 湖南大学学位论文原创性声明湖南大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任．何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 1、保密口，在年解密后适用本授权书。 2、不保密团。 (请在以上相应方框内打“√”) 作者签名：杨公覆日期：知fo年，1月≯f日刷醛一日期渺l夕年l f月文／日面向f乜了商务嘲站的增量爬虫设计’j研究摘面向f乜了商务嘲站的增量爬虫设计’j研究摘要随着互联网和电子商务的快速发展，电子商务网站越来越多，为了尽快的找到和比较商品，越来越多的人通过比较购物网站来精准的搜索和比较商品。在比较购物网站中，可以轻松的获取商品的详细信息，如价格、性能参数、图片等信息，还能方便的比较同一商品在不同电子商务网站的价格、评价等信息，从而选择合适的电子商务网站进行购物。然而，电子商务网站时刻都在发生变化，如商品的新增、删除以及商品价格的调整等。传统的比较购物网站往往存在商品信息滞后，数据与电子商务网站存在较大差异，影响用户体验，不能真正实现比较购物。为了解决上述问题，在比较购物网站中需要引入增量爬虫来实现数据的增量抓取。增量爬虫的特征是维护网页的变化轨迹并预测变化时间，提供待检查的 URL列表。增量爬虫对电子商务网站的增量抓取效果，直接影响比较购物网站数据的准确性，可以说增量抓取技术的应用程度，是整个比较购物网站是否成功的关键。一个好的增量抓取爬虫，可以减少购物搜索引擎中人工干预的程度，提高搜索引擎自身的时新性、查准率和查全率，以及有效改善网络带宽的使用效率。根据相关统计数据显示，国内电子商务网站的层级主要分为二级和三级，基于这一规律，本文提出了基于URL分类的爬行策略，将URL分为Index类、Channel 类、List类、Content类、其它类。其中Index类、Channel类和List类为索引类 URL，索引类URL指向的页面不包含具体商品信息，以导航形式指向其它索引页或Content内容页，Content类指向的页面为商品详细页，包含了商品的名称、图片、价格、介绍等信息，图片及其它类指向图片、CSS样式、附件等文件。同时设计了面向电子商务网站的抓取模型，对增量抓取的关键算法进行了描述，并在开源网络爬虫Heritrix的基础上实现增量抓取。通过对电子商务网站的抓取实验，表明该增量爬行策略的设计能够及时有效的发现电子商务网站数据的更新，实现增量抓取。关键词：电子商务；搜索引擎；增量爬虫；Heritrix II Abstractsites Abstract sites With the Internet and electronic commerce rapid development，E-commerce as soon as possl blePeople more and more．In order to find and compare the goods and of commodity oRen use throug