- 8
- 0
- 约1.11万字
- 约 9页
- 2017-01-30 发布于北京
- 举报
(Web信息采集系统的设计与实现2
基于主题的Web信息采集系统的设计与实现
李盛韬,赵章界,余智华
(中国科学院计算技术研究所 软件研究室,北京 100080)
摘 要:基于主题的Web信息采集是信息检索领域内一个新兴而有实用价值的方向,也是信息处理技术中的一个研究热点。本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。
关键词: 信息采集;信息检索;信息处理;主题
Email: lishengtao@ ; zhaozj@ ; yzh@
中图分类号:TP391 文献表示码:A
基金资助:中科院计算所领域前沿青年基金资助(资助8 )2000年7月,21亿[1][2],这使得页面的失效率非常地巨大。Selberg和Etzioni在1995年的调查发现,通过Internet中最常用的一些搜索引擎查询到的结果URL中,14.9%的目标页面已经失效了[5]。一个好的缓解办法就是采用主题采集,通过减小采集页面的数量,从而减小刷新一遍的时间,进而减小已采集页面的失效率。
传统的信息采集需要采集的页面数量十分巨大,这需要消耗非常多的系统资源和网络资源,而对这些资源的消耗并没有换来采集到页面的较高利用率,事实上,它们中有相当大的一部分利用率很低。基于主题的采集有效地提高了采集到页面的利用效率。
为此,我们开展了主题Web信息采集技
您可能关注的文档
最近下载
- 新疆维吾尔自治区乌鲁木齐市一中2024-2025学年高一下学期期中语文试题(含答案).docx VIP
- 15K502 供热计量系统设计与安装.docx VIP
- 深度解析(2026)《DLT 724—2021电力系统用蓄电池直流电源装置运行与维护技术规程》.pptx VIP
- Plait普莱特智能一体化座厕C831000E-6DAC00000 C831200E-6DAC00000用户手册.pdf
- 浙江省宁波市金兰教育合作组织2024学年第二学期期中考试高二年级技术学科试题(含答案).docx VIP
- 香港朗文3A期中测试题.doc VIP
- 四川2026年事业单位综合应用能力和职业能力倾向测验试题及答案.docx VIP
- Volkswagen大众速派(New Superb)轿车 2009 2013 维修手册.pdf
- 黄桷湾立交改造工程--道路工程施工图设计说明.doc VIP
- 《未来的家乡》教案-2025-2026学年贵州人民版(2024)小学综合实践活动五年级下册.docx
原创力文档

文档评论(0)