互联网数据采集研究
数据采集研究关键字采集关键字采集采用搜索引擎技术自动搜索预设关键字,并对搜索结果进行URL去重、关键信息提取、入库等处理,达到监控互联网敏感信息的目的。系统定义广度搜索和深度搜索两种方式,对互联网信息进行搜索。广度搜索在本系统中采用的方式为调用互联网行业排名靠前的搜索引擎(谷歌、百度、奇虎、有道、盘古、即刻、搜搜等)对关键字进行搜索,同时对搜索结果进行整合、去重、分类,实现互联网信息搜索能力的最大化。深度搜索则利用开源爬虫程序Nutch对用户指定网站进行深度挖掘,搜索匹配关键字的网页信息。Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求,但是现有web搜索引擎的数目却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户。Nutch为我们提供了这样一个不同的选择。相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖。现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置。除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序。与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果.
您可能关注的文档
最近下载
- 医院中西医结合管理办法实施细则.docx
- 2026年浙江建筑架子工(建筑特殊工种)练习题题库含答案.docx VIP
- 马路护栏清洗机的设计.doc VIP
- 液压与气压传动技术 课件任务9.2 压力控制阀的结构认知及压力控制回路的构建.pptx
- 2023年上海高考英语iread模考试卷第3期(23003) 含答案与听力文本和音频(附在文末).pdf VIP
- 网络安全等级测评师能力评估(初级)第三套样卷测试题及答案.docx VIP
- 2025年江西省景德镇市中考三模语文试题(含答案).pdf VIP
- 彝医撮痧疗法治疗指南.doc
- 2025北京东城区初三一模数学试题及答案.pdf VIP
- 网络安全等级测评师能力评估(初级) 第二套样卷测试题及答案.docx VIP
原创力文档

文档评论(0)