利用分块重要度进行中文网页分类的研究.pptVIP

  • 8
  • 0
  • 约3.41千字
  • 约 21页
  • 2017-09-05 发布于重庆
  • 举报

利用分块重要度进行中文网页分类的研究.ppt

利用分块重要度进行中文网页分类的研究 段 昕 山东大学计算机学院 引 言 互联网的发展和信息量俱增使得人们对于主题网页(以下简称“网页”)自动分类的要求越来越迫切。 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要一种分类质量更高的网页分类方法。 网页分块 网页中的信息并不都是具有相同的重要度的,比如大字标题就要比导航条更加引人注目。网页中的不同信息由于所处的位置、占据的空间大小或者内容不同而具有不同的重要度。所以,我们可以将网页按照内容分块,利用分块的一些特征来进行网页分类,从而提高分类的质量。 网页分块方法(1) 基于位置关系的分块法 网页分块方法(2) 基于文档对象模型(DOM)的分块法 网页分块方法(3) 基于视觉特征网页分块法(VIPS) 网页分块重要度的标定 利用网页的空间和内容特征可以对分块进行重要度的标注,共分为4个级别: 实 验 为了检验利用网页分块技术进行中文主题网页分类的质量,我们将其与传统网页分类法进行了比较。选取政治、艺术、医药、体育、军事、经济、教育、交通、计算机、环境等10大类共计3000篇主题网页进行实验,其中训练集2000篇,测试集1000篇。 在进行特征提取时,采用了开方检验( test, CHI)特征提取法,计算特征项t和类别c的相

文档评论(0)

1亿VIP精品文档

相关文档