华南木棉中文网页分类器培训课件.pptVIP

下载本文档

0
0
约1.2千字
约 19页
2019-05-03 发布于湖北
举报

华南木棉中文网页分类器培训课件.ppt

分类结果合并不同的分类器具有不同的分类特性分类结果合并分类结果合并算法采用两个分类器——支撑向量机（C1）、简单贝叶斯（C2），操作Pi（c）可获得Ci分类器在c类别上的精度，操作Fi（c）可获得Ci分类器在c类别上的F1值。根据测试集得到的F1值确定各分类器的可信类别集合（R1，R2） Foreach（c）{ if（F1（c）〉F2（c））{ R1.add（c）; } else { R2.add（c）； } } 分类结果合并分类结果合并算法当一篇文档被两分类器分类得到结果T1、T2，按照以下算法确定最终分类结果T： If（T1∈R1 and T2 ∈ R2 or T1∈R2 and T2 ∈ R1 ）{ if( P1(T1) P2(T2)){ T = T1; } else { T = T2; } } else if(T1∈R1 and T2 ∈ R1 ){ T = T1 } else if(T1∈R2 and T2 ∈ R2){ T = T2 } 华南木棉中文网页分类器　广东省计算机网络重点实验室　李嘉林陈胜荣陈彬　丁丹魏本洁全国搜索引擎与网上信息学术研讨会 SEWM 2007---中文文本分类目录系统模块系统流程测试结果总结与展望模块结构网页预处理 Html去噪删去网页中的html Anchor Text 提取对每篇文档，在进行html去噪的同时，提取文档的In-link 和Out-link Anchor Text, 中文分词使用中科院的开源分词软件ICTCLAS，对每份文档的全文、In-link Anchor Text、 Out-link Anchor Text进行分词特征选取禁用词表预定义禁用词表，将禁用词表中出现的词从文档的特征向量中删去。词性选择基于ICTCLAS的分词结果，我们只特定词性标注的词作为特征项。信息增益对数据集进行特征降维，压缩特征空间。分类算法特征项权值使用tf*idf算法对特征项赋权值对Anchor Text中出现的特征项进行加权简单贝叶斯支撑向量机使用了SVMlight算法分类结果合并不同的分类算法在不同的类别上的性能具有差异，综合各分类器的的分类结果，改进最终的分类效果。目录系统模块系统流程测试结果总结与展望系统流程目录系统模块系统流程测试结果总结与展望测试结果测试数据集 200M训练集去年的分类答案测试内容 Anchor Text 的权值设置分类结果合并 Anchor Text 的权值设置使用tf*idf算法对特征项赋权值 log（tf+1）*log2(N/df) 对Anchor Text中出现的特征项赋以较高权重

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

华南木棉中文网页分类器培训课件.pptVIP