基于网页分块的科技信息采集系统的设计与实现.docVIP

下载本文档

1
0
约3.98千字
约 7页
2017-06-23 发布于北京
举报
版权申诉

基于网页分块的科技信息采集系统的设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网页分块的科技信息采集系统的设计与实现.doc

基于网页分块的科技信息采集系统的设计与实现　　摘要：本文针对目前互联网上科技信息需要定向追踪的需求，利用基于Web的信息采集技术，设计科技信息采集系统的系统框架，并对其中的网页分块和数据消重两个关键技术的实现进行了阐述。该系统使用简单方便，减轻了科技人员的工作量。　　Abstract: According to the need of science and technology information in internet need tracing, the article uses Web-based information collection technology and designs systems framework of science and technology information collection system. The paper describes how to realize the two key technologies, page segmentation and data elimination. The system is easy to use and reduces the workload of science and technology people. 　　关键词：信息采集；网页分块；数据消重　　Key words: information collection；page segmentation；data elimination 　　中图分类号：TP39 文献标识码：A文章编号：1006-4311（2011）02-0169-02 　　　　0引言　　互联网的迅速发展，为人们获取信息提供了一个广阔而便捷的信息流通途径，使人们的工作、生活方式发生很大变化。但是在这种信息流通环境下，人们面临的是一个信息爆炸的局面。面对互联网上无序、多样和复杂的海量信息，仅仅依靠人工搜集、整理来有效跟踪最新信息是不能满足实际需要的，Web信息采集技术应运而生[1-2]。科技信息具有时效性强、更新快等特点。它的发布集中在科技网站的固定栏目中，如公告通知、新闻通告或专业论坛等。栏目以标题列表的形式进行展示，发布格式固定。同时，科技工作者对特定主题科研信息进行查询时，常常关注几个固定权威性的科技网站，因此信息来源获取相对固定。可以利用Web信息采集技术，对固定来源的科技情报进行自动采集。帮助科技工作者持续有效的捕获到最新的科研信息，减轻科技人员重复查阅固定网站的负担，同时也避免了科研信息的遗漏。　　目前，市面上的主流采集软件（如军犬，乐思、谷尼信息采集软件等）大多通过采集模版配制的方式进行需求定制。这种方法定制的采集规则比较全面，但过程比较繁琐，需要使用者掌握一定的网页代码知识，不具备普遍性[3]。本文针对市面上信息采集软件的缺点，利用网页分块技术，设计和实现了科技信息采集系统。该系统在采集过程中把网页内容以模块化形式呈现给用户，由用户通过鼠标点击来选择采集内容，系统根据用户点击内容自动设置采集规则，不需要用户掌握网页代码知识，操作简单快捷，从而提高了系统使用的普遍性。　　1系统框架　　针对科技人员追踪科技情报的实际需求，笔者开发出一个以追踪某特定主题科技信息的信息采集系统。该系统的主要目标是根据提供固定科研网址以及固定科研板块等特征实时追踪板块内的特定主题的科技信息的更新情况，帮助科技人员及时掌握科技发展情况，调整研究策略。　　科技信息采集系统的基本采集思路如下：首先根据用户设定的网址抓取目标网页的源代码，根据网页结构进行网页分块；其次根据用户需求，进行板块定位；再次在内容抽取过程中，根据用户设定的主题词对其过滤，存入数据库；最后通过有效的整合，把用户需要的信息呈现给用户。　　本系统主要由信息采集、任务管理和数据库管理三大模块组成，系统框架详见图1。信息采集模块是整个采集系统的核心，主要负责根据科技人员的需求从特定网址上的具体板块采集特定主题科技信息并进行结构化处理；任务管理模块主要负责运行并维护系统已经存在的用户配置好的任务。当用户第一次对某个网站进行采集时系统自动记录下用户的定制信息，存储于任务文件中。当需要再次对该网站进行采集用户直接调用此任务即可，可以实现自动更新。数据管理模块主要负责对数据库内数据的控制，包括数据的存入、读取、删除等操作。　　本科技信息采集系统采用B/S架构，以Java作为开发语言。同时利用开源的java工具包Htmlparser来实现网页抓取与解析工作。系统运行界面详见图1。　　2关键技术　　多数采集软件需要用户使用html代码对网页进行详细的模板配置，对使用者的要求比较高，不适应普通的科技人员。利用网页分块