基于WEB的智能信息采集及处理.pdfVIP

  • 3
  • 0
  • 约4.57千字
  • 约 1页
  • 2017-08-28 发布于湖北
  • 举报
基于WEB的智能信息采集及处理.pdf

信 息 技 术 ChinaNewTechnologiesandProduct:s 基于WEB的智能信息采集及处理 吴 艳 (益阳电业局 信息中心 ,湖南 益阳 413000) 摘 要 :本文研究的基于Web的智能信息采集及处理系统 ,一方面采用高效的URL去重和基于模版的下栽机制,极大提高了采集 Web资源的性能;另一方面应用成熟、先进的 自然语言处理技术,对采集信息做智能分类和摘要。 关键词 :Web采集,URL去重,智能信息处理 ,个性化发布 1引言 最大的特点在于任何用户的主题采集都是在相 和去重。在本系统中采用了文件 目录寻址机制 www从诞生以来至今 ,对Web信息的搜 应的模版的支撑下完成。所谓模版就是关于要 来实现URL的快速去重。基本思想是首先将 索正在从 偏“平”走向 “垂直”,从 “通用”发展到 采集的Web对象的特征描述,为了提高下载的 URL地址做CRC32转换,生成—个唯一的4字 个“陛和智能”。但是据调查 目前市场上绝大部 有效性和效

文档评论(0)

1亿VIP精品文档

相关文档