- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 答 辩 人:张晨光 导 师:马建红 教授 专 业:软件工程 基于Nutch的网页自动分类与推荐的研究 RESEARCH OF WEBPAGE AUTOMATIC CLASSIFICATION AND RECOMMENDATION SYSTEM BASED ON NUTCH 1. 课题研究背景及意义 2. 课题研究主要内容 3. 系统实现及展示 4. 课题总结展望 课题研究背景及意义 课题研究的主要内容 工作1 工作2 工作3 工作4 系统整体设计 改进的KNN分类算法 网页推荐的设计 基于主题的网页分类模型 系统的整体设计 基于主题的网页分类模型 1、一般的分类模型:多为离线应用,即第一步采集数据,第二步分析和分类,二者联系不够紧密,往往是独立开来的,这样就无法满足网页分类的实时性。 2、进行网页采集的过程中,往往是批量的、无主题的采集,就会造成采集网页数目过多,然而与训练库无关的网页也会很多的现象。 为了解决上述问题,课题以Nutch为 基础平台,进行了基于主题的网页分类。 基于主题的网页分类模型 Nutch是apache下的一个具有高度可扩展性的网络爬虫项目软件, 是从Lucene项目发展而来。可以用最短的时间,用最少的花费,配置出一流的搜索引擎。 Nutch本身只能进行传统的网页抓取,不具有主题性质。通过对Nutch的机制和代码的研究,抽取出了其中的爬虫部分,通过改造(通过关键词对页面词语检索匹配),设计出了系统的主题爬虫。 基于主题的网页分类模型 Google的页面排序是通过著名的PR算法,它的主要思想是“一个优质页面A链接到页面B,那么页面B是优质页面的可能性就越大”。它通过链接来给页面打分,然后完成排序。在这个算法中,反向链接就是其算法的核心。 反向链接的声明场所是在网页的内部,我们可以简单的将其定义为:把页面C含有指向页面D的链接命名为“C-D”,那么对D来说,“C-D”就是它的一个反向链接。 LinkDB LinkDB主要存储Url地址的反向链接地址 基于主题的网页分类模型 有以上理论支持,给主题去噪如下定义:从数据集中去除与主题无关的网页,即主题去噪。我们可以作如下假设“在主题去噪时,若有M-N,为判定页面N是否为无关页面,可通过其反向链接页面M进行判定;若M为广告等垃圾页面,可将N排除”。这样就可以将很多与要分类和推荐无关的页面排除,同时减少了分类过程中计算的时间,提高了分类效率。 页面M 页面N 基于主题的网页分类模型 网页分类 特征提取 中文分词 网页去噪 主题去噪 主题抓取 改进的KNN分类算法 KNN算法(又名K最近邻算法)的思想:假设我们有一个样本A,如果它的最临近的K个样本中,较大的一个部分是M类别的,那么我们就把样本A归结于M类。其中,A的K个邻居已经规定好自己所属的类别。 假设最中间的绿色圆形状未知,现在要确定其到底属于什么形状?方形还是三角形? 改进的KNN分类算法 KNN算法的计算步骤: 1)对预料库网页预处理,形成网页向量V(v1,v2,v3…vi)。 2)对测试网页进行分词、特征提取等,形成网页向量U(u1,u2,u3…ui)。 3)计算待分类样本与训练样本间的相似度,其计算公式为: 4)对相似度由大到小排序,选取前K个网页。目前,K的取值没有定性的一个数值,需要随着实验的进行不断更改,选取到最合适的K值。 5)从训练集中选取出前K个网页,依次计算输入样本针对这K个网页在训练集各个类别里的权重,可以用如下计算公式表示: 其中, 是类别属性函数,当vi属于cj时,值为1;当vi不属于cj时,函数为0。 6)最后的分类决策函数为 改进的KNN分类算法 文本和网页是有很大的区别的,这主要体现在网页的结构特点上。用常规的KNN分类算法只是针对普通的文本进行了处理,却忽略了锚文本元素。 1)meta name=“keywords”content=“HTML,PHP,JAVA”。W3C这样描述:“keywords”是一个经常被用到的名称,它定义了一组关键字。当搜索引擎遇到这些关键字时,会用这些关键字对文档进行分类。 2)meta name=“description”content=“JAVA教程,使初学者迅速掌握JAVA的精髓”。W3C这样描述:“description”用于定义网页简短描述,是为搜索引擎描述网页使用的。 课题中针对于此,提出了更适合网页的KNN分类算法。思路为:加入锚文本和标题对于网页类别的影响,尤其是锚文本的重要性,将类别判定从一部分改为三部分,然后求三部分的概率和。 改进的KNN分类算法 改进的KNN分类算
文档评论(0)