华南木棉中文网页分类器.pptVIP

下载本文档

4
0
约 17页
2017-02-16 发布于湖北
举报

华南木棉中文网页分类器.ppt

华南木棉中文网页分类器华南理工大学信息网络工程研究中心　广东省计算机网络重点实验室　曹鸿(队长) 李嘉林陈胜荣朱旭圻　目录系统模块系统流程测试结果总结与展望模块结构网页去噪模块预处理对天网格式的训练集1，训练集2及CWT20G文件进行解压，得到三个网页文档集合(11类别训练集，8类别训练集，待分类网页集），一个网页对应一个文档，以docID命名。去除标签去掉无用的HTML语法标签信息模板去噪对45M训练集进行模板去噪使用模板去噪以后，可以比较好的去除网页中导航栏，广告条，网站介绍，公司信息，无关链接等与网页主题内容无关的噪音信息。网页模板选取选取一个结构相似的网页模板。我们使用网页URL作为衡量网页模板相似性的因子。在训练集找出一个网页，它的URL与待分类网页URL具有最长相同前缀，这个网页就被视为网页模板。模板去噪记待去噪网页为t, 选取的模板为s. 然后利用JTidy建立两个网页的DOM树，从根结点开始，依次比较，如果有相同的结点，则认为该结点为噪音信息而删除。中文分词模块中文分词使用开源中文分词系统ICTCLAS，只保留名词。进行中文分词后继续进行stemming处理。 Rainbow的禁止词是SMART system 的524个，我们进行扩充达到150

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

华南木棉中文网页分类器.pptVIP