答辩张晨光研讨.ppt

答辩张晨光研讨

* 答 辩 人:张晨光 导 师:马建红 教授 专 业:软件工程 基于Nutch的网页自动分类与推荐的研究 RESEARCH OF WEBPAGE AUTOMATIC CLASSIFICATION AND RECOMMENDATION SYSTEM BASED ON NUTCH 1. 课题研究背景及意义 2. 课题研究主要内容 3. 系统实现及展示 4. 课题总结展望 课题研究背景及意义 课题研究的主要内容 工作1 工作2 工作3 工作4 系统整体设计 改进的KNN分类算法 网页推荐的设计 基于主题的网页分类模型 系统的整体设计 基于主题的网页分类模型 1、一般的分类模型:多为离线应用,即第一步采集数据,第二步分析和分类,二者联系不够紧密,往往是独立开来的,这样就无法满足网页分类的实时性。 2、进行网页采集的过程中,往往是批量的、无主题的采集,就会造成采集网页数目过多,然而与训练库无关的网页也会很多的现象。 为了解决上述问题,课题以Nutch为 基础平台,进行了基于主题的网页分类。 基于主题的网页分类模型 Nutch是apache下的一个具有高度可扩展性的网络爬虫项目软件, 是从Lucene项目发展而来。可以用最短的时间,用最少的花费,配置出一流的搜索引擎。 Nutch本身只能进行传统的网页抓取,不具有主题性质。通过对N

文档评论(0)

1亿VIP精品文档

相关文档