动态爬虫管理平台构建与实现.pdf

摘要

网络的发展使得人们接收的信息越来越庞杂。基本上,人们要获得自己所需要的信息,需要借助

各种搜索引擎,比方说百度和谷歌等等。虽然这些网络巨头的产品在不断的改进和创新,可是用户在

使用其搜索引擎时,仍然可能面临许多困难,让他们找不到所需要的信息。因此,算法的改进势在必

行。主题搜寻技术是垂直搜索引擎的重要组成部分。本文的主要目的是对主题爬虫技术的核心技

术进行科学研究。主要研究方向如下:

(1)主题内容的提取是网络主题辨别的关键过程。本文是利用网页和主体两者的特点,结合内

容的搜索规则,提出一种提取信息的方式。

(2)推出内容辨别优化算法

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档