华南木棉中文网页分类器培训课件.pptVIP

  • 0
  • 0
  • 约1.2千字
  • 约 19页
  • 2019-05-03 发布于湖北
  • 举报
分类结果合并 不同的分类器具有不同的分类特性 分类结果合并 分类结果合并算法 采用两个分类器——支撑向量机(C1)、简单贝叶斯(C2),操作Pi(c)可获得Ci分类器在c类别上的精度,操作Fi(c)可获得Ci分类器在c类别上的F1值。 根据测试集得到的F1值确定各分类器的可信类别集合(R1,R2) Foreach(c){ if(F1(c)〉F2(c)){ R1.add(c); } else { R2.add(c); } } 分类结果合并 分类结果合并算法 当一篇文档被两分类器分类得到结果T1、T2,按照以下算法确定最终分类结果T: If(T1∈R1 and T2 ∈ R2 or T1∈R2 and T2 ∈ R1 ){ if( P1(T1) P2(T2)){ T = T1; } else { T = T2; } } else if(T1∈R1 and T2 ∈ R1 ){ T = T1 } else if(T1∈R2 and T2 ∈ R2){ T = T2 } 华南木棉中文网页分类器   广东省计算机网络重点实验室   李嘉林 陈胜荣 陈彬 丁丹 魏本洁 全国搜索引擎与网上信息学术研讨会 SEWM 2007---中文文本分类 目录 系统模块 系统流程 测试结果 总结与展望 模块结构 网页预处理 Html去噪 删去网页中的html Anchor Text 提取 对每篇文档,在进行html去噪的同时,提取文档的In-link 和Out-link Anchor Text, 中文分词 使用中科院的开源分词软件ICTCLAS,对每份文档的全文、In-link Anchor Text、 Out-link Anchor Text进行分词 特征选取 禁用词表 预定义禁用词表,将禁用词表中出现的词从文档的特征向量中删去。 词性选择 基于ICTCLAS的分词结果,我们只特定词性标注的词作为特征项。 信息增益 对数据集进行特征降维,压缩特征空间。 分类算法 特征项权值 使用tf*idf算法对特征项赋权值 对Anchor Text中出现的特征项进行加权 简单贝叶斯 支撑向量机 使用了SVMlight算法 分类结果合并 不同的分类算法在不同的类别上的性能具有差异,综合各分类器的的分类结果,改进最终的分类效果。 目录 系统模块 系统流程 测试结果 总结与展望 系统流程 目录 系统模块 系统流程 测试结果 总结与展望 测试结果 测试数据集 200M训练集 去年的分类答案 测试内容 Anchor Text 的权值设置 分类结果合并 Anchor Text 的权值设置 使用tf*idf算法对特征项赋权值 log(tf+1)*log2(N/df) 对Anchor Text中出现的特征项赋以较高权重

文档评论(0)

1亿VIP精品文档

相关文档