华南木棉中文网页分类器.pptVIP

下载本文档

1
0
约1.59千字
约 19页
2017-03-04 发布于北京
举报

华南木棉中文网页分类器.ppt

华南木棉中文网页分类器　广东省计算机网络重点实验室　李嘉林陈胜荣陈彬　丁丹魏本洁目录系统模块系统流程测试结果总结与展望模块结构网页预处理 Html去噪删去网页中的html Anchor Text 提取对每篇文档，在进行html去噪的同时，提取文档的In-link 和Out-link Anchor Text, 中文分词使用中科院的开源分词软件ICTCLAS，对每份文档的全文、In-link Anchor Text、 Out-link Anchor Text进行分词特征选取禁用词表预定义禁用词表，将禁用词表中出现的词从文档的特征向量中删去。词性选择基于ICTCLAS的分词结果，我们只特定词性标注的词作为特征项。信息增益对数据集进行特征降维，压缩特征空间。分类算法特征项权值使用tf*idf算法对特征项赋权值对Anchor Text中出现的特征项进行加权简单贝叶斯支撑向量机使用了SVMlight算法分类结果合并不同的分类算法在不同的类别上的性能具有差异，综合各分类器的的分类结果，改进最终的分类效果。目录系统模块系统流程测试结果总结与展望系统流程目录系统模块系统流程测试结果总结与展望测试结果 Anchor Text 的权值设置使用tf*idf算法对特征项赋权值 log（tf

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

华南木棉中文网页分类器.pptVIP