- 3
- 0
- 约4.57千字
- 约 1页
- 2017-08-28 发布于湖北
- 举报
基于WEB的智能信息采集及处理.pdf
信 息 技 术 ChinaNewTechnologiesandProduct:s
基于WEB的智能信息采集及处理
吴 艳
(益阳电业局 信息中心 ,湖南 益阳 413000)
摘 要 :本文研究的基于Web的智能信息采集及处理系统 ,一方面采用高效的URL去重和基于模版的下栽机制,极大提高了采集
Web资源的性能;另一方面应用成熟、先进的 自然语言处理技术,对采集信息做智能分类和摘要。
关键词 :Web采集,URL去重,智能信息处理 ,个性化发布
1引言 最大的特点在于任何用户的主题采集都是在相 和去重。在本系统中采用了文件 目录寻址机制
www从诞生以来至今 ,对Web信息的搜 应的模版的支撑下完成。所谓模版就是关于要 来实现URL的快速去重。基本思想是首先将
索正在从 偏“平”走向 “垂直”,从 “通用”发展到 采集的Web对象的特征描述,为了提高下载的 URL地址做CRC32转换,生成—个唯一的4字
个“陛和智能”。但是据调查 目前市场上绝大部 有效性和效
您可能关注的文档
最近下载
- TCCIAT 0074-2023 排水管道紫外光固化修复施工和验收技术规程.pdf VIP
- 2026入团考试必刷156题(含答案解析高频考点版).docx
- T_CSPSTC 127-2023 城镇排水管道封堵施工技术规程.pdf VIP
- 2026年中考第二次模拟考试:化学二模模拟卷(辽宁专用)(考试版).docx VIP
- 2023年普通高等学校招生全国统一考试(新课标2卷)地理试题 .pdf VIP
- 线性代数(第六版)赵树嫄课后习题答案.pdf VIP
- 2024《年产100吨植物乳杆菌菌剂生产线设计》10000字.docx VIP
- 2025年神东钳工考试试题及答案.docx VIP
- 2026年建筑企业安全生产合规培训课件与工地风控方案.pptx
- 餐厅厨房4D管理.pptx VIP
原创力文档

文档评论(0)