- 8
- 0
- 约9.61千字
- 约 3页
- 2017-09-11 发布于贵州
- 举报
维普资讯
罐瓣蛹
聚焦式WebCrawler工具的设计与开发
唐 详
(南京大学信息管理系 南京 210093)
摘 要 进行 了一种面向特定领域主题搜索的实践——聚焦式WebCrawler。分析 了搜索引擎和聚类算法的一般工
作原理,并指出其不足。在此基础上,综合两者的优 点形成 了聚焦式 WebCrawler工具,介绍 了该工具的主要技术及
实现方式。
关键词 webCrawler 聚类 自动分类 主题挖掘
对一些经常利用互联网进行科研工作的人来说,虽然关键 过滤,通常包括检验该链接是否已经遇到过 ,如果没有,就将其
词检索和 目录索引仍然是他们获取资源的重要手段,但这种方 加人待下载的URL序列中。
式存在着明显 的不足。我们可以先分析一下搜索引擎 的工作
原理。每个搜索引擎都有后台信息收集工具 ,常被人们称为 网
络爬虫 (webCrawler)。webCrawler不间断地在 网上下载 网
页,然后对下载的文本建立索引,生成倒
您可能关注的文档
最近下载
- 严重创伤院前急救中国专家共识2026.pptx
- 成人零基础英语教学课件.ppt VIP
- 初中英语单词(带音标).doc VIP
- 2024年哈密市商业银行股份有限公司建国北路支行秋季校园招考笔试试卷带答案详解.docx VIP
- 2024年哈密市商业银行股份有限公司复兴路支行秋季校园招考笔试试卷带答案详解.docx VIP
- 2024年哈密市商业银行股份有限公司花园支行秋季校园招考笔试试卷带答案详解.docx VIP
- 2024年哈密市商业银行股份有限公司人民路支行秋季校园招考笔试试卷带答案详解.docx VIP
- 蒲县垃圾分类试点县餐厨垃圾处理厂项目环评(2021年新版环评)环境影响报告表.pdf VIP
- 2024哈密市商业银行招聘综合柜员笔试备考题库及答案解析.docx VIP
- 2023年哈密市商业银行校园招聘笔试模拟试题及答案解析.docx VIP
原创力文档

文档评论(0)