全自动网页信息采集系统.pdfVIP

下载本文档

13
0
约9.48千字
约 5页
2015-08-09 发布于湖北
举报
版权申诉

全自动网页信息采集系统.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

全自动网页信息采集系统.pdf

第38 卷第2 期长春理工大学学报（自然科学版） Vol.38 No.2 2015 年4 月 Journal of Changchun University of Science and Technology （Natural Science Edition ） Apr.2015 全自动网页信息采集系统徐春凤，王艳春，翟宏宇（长春理工大学计算机科学技术学院，长春 130022）摘要：随着网络时代的快速发展，用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix，进行扩展抓取用户需要的网页，深入研究了信息采集技术。利用Heritrix的可扩展性，来实现用户的抓取。通过分析Heritrix的工作流程，模块划分以及源码设计，基于Heritrix扩展抽取面向商品信息的网页，配合HtmlParser对网页内容进行解析，有效的提取商品关键信息后存入数据库以供检索。关键词：Heritrix；HtmlParser；网络爬虫；信息提取中图分类号： TP393.02 文献标识码：A 文章编号：1672-9870（2015）02-0151-04 AutomaticExtractionSystemof WebpageInformation XUChunfeng，WANGYanchun，ZHAI Hongyu （SchoolofComputerScienceandTechnology，ChangchunUniversityofScienceandTechnology，Changchun130022） Abstract：With the rapid development of the internet age，users have put forward more requirements for search en- gines，content of webpage and large data processing etc. Selecting the required information from the internet information with mass data has become a new hotspot. In this paper，extensible webcrawler project- Heritrix，which is an open source and developed by Java，is extended to capture user webpage. The information collection technology is further studied. Extendibility of Heritrix is used to realize a user’s capture. Through the analysis of the working process of Heritrix，module allocation and source code design，based on webpage extraction facing product information with Heri- trix extendibility and webpage content analysis with HtmlParser，key product information is extracted effectively，which isstoredinthe database for retrieval. Keywords：Heritrix；HtmlParser；web crawler；informationextraction 搜索引擎存在一定的局限性，会导致搜索的结的信息如果在数据库中有相应的记录，就可以直接果不能很好满足用户的需求。例如，在一个搜索引从数据库中检索出相应的信息提交给用户，最后给擎中，搜索一个信息，互联网中会搜到成百上千的相用户提