华南木棉中文网页分类器.pptVIP

  • 4
  • 0
  • 约 17页
  • 2017-02-16 发布于湖北
  • 举报
华南木棉中文网页分类器 华南理工大学信息网络工程研究中心   广东省计算机网络重点实验室   曹鸿(队长) 李嘉林 陈胜荣 朱旭圻  目录 系统模块 系统流程 测试结果 总结与展望 模块结构 网页去噪模块 预处理 对天网格式的训练集1,训练集2及CWT20G文件进行解压,得到三个网页文档集合(11类别训练集,8类别训练集,待分类网页集),一个网页对应一个文档,以docID命名。 去除标签 去掉无用的HTML语法标签信息 模板去噪 对45M训练集进行 模板去噪 使用模板去噪以后,可以比较好的去除网页中导航栏,广告条,网站介绍,公司信息,无关链接等与网页主题内容无关的噪音信息 。 网页模板选取 选取一个结构相似的网页模板。我们使用网页URL作为衡量网页模板相似性的因子。 在训练集找出一个网页,它的URL与待分类网页URL具有最长相同前缀,这个网页就被视为网页模板。 模板去噪 记待去噪网页为t, 选取的模板为s. 然后利用JTidy建立两个网页的DOM树,从根结点开始,依次比较,如果有相同的结点,则认为该结点为噪音信息而删除。 中文分词模块 中文分词使用开源中文分词系统ICTCLAS,只保留名词。 进行中文分词后继续进行stemming处理。 Rainbow的禁止词是SMART system 的524个,我们进行扩充达到150

文档评论(0)

1亿VIP精品文档

相关文档