基于WEB智能信息采集及处理系统研究.docVIP

下载本文档

3
0
约3.11千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于WEB智能信息采集及处理系统研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于WEB智能信息采集及处理系统研究

基于WEB智能信息采集及处理系统研究　　摘要：本文研究的基于Web的智能信息采集及处理系统，一方面采用高效的URL去重和基于模版的下载机制，极大提高了采集Web资源的性能；另一方面应用成熟、先进的自然语言处理技术，对采集信息做智能分类和摘要。　　关键词：Web采集；URL去重；智能信息处理；个性化发布　　　　1 引言　　　　WWW从诞生以来至今，对Web信息的搜索正在从“偏平”走向“垂直”，从“通用”发展到“个性和智能”。但是据调查目前市场上绝大部分搜索工具或者产品都存在“重采集、忽视信息的处理和服务”，即对采集的信息缺乏深层次的加工、处理，并且提供主动的信息发布服务的机制。　　经过十余年的市场培育，Web用户最需要的是能提供面向一定的领域，有较好智能程度的信息采集、加工和发布的产品, 本文将构建和实现这样的系统。　　　　2 系统架构　　　　系统由三个子系统组成，即Web信息采集子系统、信息智能处理子系统和信息发布子系统。三个子系统可以单独部署和运行，也可以通过接口文件实现整个过程的自动化采集、智能化处理和主动式发布，整体架构如图1所示。　　2.1 系统整体架构　　该系统架构不仅适合较大用户的分布式部署采集、加工的需要，也可以适应单用户集中部署的需要。当用户只需要某个子系统时，只需对接口文件稍作配置就可以满足不同的用户需求。　　　　2.2 Web信息采集子系统　　Web采集器一般都是从称为种子的URL出发，通过协议向Web上其它所需页面作扩展。经研究表明Web上30%的页面是重复的，当面向特定的主题时，80%以上的URL链接是我们不关心的，因此在采集中如何进行URL去重和分析适合主题特征的URL是提高采集子系统效率的重要因素。同时如何获取有效的Web页面信息，过滤广告、导航栏等噪声，将直接影响后续的智能处理的性能。该子系统的流程如图2所示。　　有别于通用的Web信息采集器，该子系统最大的特点在于任何用户的主题采集都是在相应的模版的支撑下完成。所谓模版就是关于要采集的Web对象的特征描述，为了提高下载的有效性和效率，将某一个具体的网站所有的Web页面划分为Hub页和Topic页，表示为一个三元组。其中M刻画Web页共性特征，如：网站名称、网站URL地址、语言种类等；Hf刻画该Web资源中的Hub页面特征，即此类Web中哪些URL地址特征是下载时需要解析的；而Tf则是刻画某一类具体的Topic页特征，主要是描述用户最感兴趣的内容的访问路径，如：正文标题、作者、来源等。　　为了实现对下载的Web资源的监控，将最新的信息及时地推送给用户，触发器可以为用户指定适合需要的采集策略，通过设定一定的间隔时间来激活下载机器人，“巡视”是否存在最新的信息。　　2.3信息智能处理子系统　　该系统预先通过机器学习建立用户感兴趣的内容分类器，当用户某一次下载任务完成后，发送消息激活处理子系统，系统将会自动地处理下载的内容，主要包括自动分类、自动摘要和元数据分析，如创建正文标题、关键字、分析作者等。系统流程如图3所示。　　　　传统上的Web信息采集不具备对下载信息的深层次加工能力，而本系统不仅实现机器的自动分类、摘要和元数据分析，还提供人机交互的机制，将处理的结果以便捷预览的方式呈现，用户可以进行修改、删除以及确认后入库存储等操作，确保发布信息的正确性和有效性。　　2.4 信息发布子系统　　近年来信息的发布形式越来越备受关注，作为对外信息服务的平台，该子系统主要特点有：多视角、多层次发布采集信息，即从来源、原始栏目、分类体系多个视角交叉进行展示，可以灵活的进行信息集合的交、并运算；个性化信息发布，用户登录后利用个性化信息定制界面，选择自己感兴趣的信息视角，再次登录后，推送给用户的就是完全个性化的信息内容；强大的信息检索能力，不仅提供针对独立字段的检索，还提供快速检索、高级的表达式检索及全文检索。　　　　3 若干关键技术　　　　3.1 URL去重　　常规的URL去重有两种解决思路，一是将所有的URL地址存入数据库，做好索引后，利用数据库的查找来判断该URL是否被重复下载；二是利用文件存储，将URL通过一定转换，也是建立基于文件的查找索引。这两种方式的弊端是显而易见的，如中文网页有4亿左右，假设每一个URL的平均长度为25个字符，那么存储这些网页的URL地址需要的空间为8G左右，很显然面对如此大的文件，这种机制无法快速的进行URL查找，因此不能保证快速的下载和去重。　　在本系统中采用了文件目录寻址机制来实现URL的快速去重。基本思想是首先将URL地址做CRC32转换，生成一个唯一的4字节32位的编码，如：E8CA0B3F，将4个字节组成两