- 0
- 0
- 约1.2千字
- 约 19页
- 2019-05-03 发布于湖北
- 举报
分类结果合并 不同的分类器具有不同的分类特性 分类结果合并 分类结果合并算法 采用两个分类器——支撑向量机(C1)、简单贝叶斯(C2),操作Pi(c)可获得Ci分类器在c类别上的精度,操作Fi(c)可获得Ci分类器在c类别上的F1值。 根据测试集得到的F1值确定各分类器的可信类别集合(R1,R2) Foreach(c){ if(F1(c)〉F2(c)){ R1.add(c); } else { R2.add(c); } } 分类结果合并 分类结果合并算法 当一篇文档被两分类器分类得到结果T1、T2,按照以下算法确定最终分类结果T: If(T1∈R1 and T2 ∈ R2 or T1∈R2 and T2 ∈ R1 ){ if( P1(T1) P2(T2)){ T = T1; } else { T = T2; } } else if(T1∈R1 and T2 ∈ R1 ){ T = T1 } else if(T1∈R2 and T2 ∈ R2){ T = T2 } 华南木棉中文网页分类器 广东省计算机网络重点实验室 李嘉林 陈胜荣 陈彬 丁丹 魏本洁 全国搜索引擎与网上信息学术研讨会 SEWM 2007---中文文本分类 目录 系统模块 系统流程 测试结果 总结与展望 模块结构 网页预处理 Html去噪 删去网页中的html Anchor Text 提取 对每篇文档,在进行html去噪的同时,提取文档的In-link 和Out-link Anchor Text, 中文分词 使用中科院的开源分词软件ICTCLAS,对每份文档的全文、In-link Anchor Text、 Out-link Anchor Text进行分词 特征选取 禁用词表 预定义禁用词表,将禁用词表中出现的词从文档的特征向量中删去。 词性选择 基于ICTCLAS的分词结果,我们只特定词性标注的词作为特征项。 信息增益 对数据集进行特征降维,压缩特征空间。 分类算法 特征项权值 使用tf*idf算法对特征项赋权值 对Anchor Text中出现的特征项进行加权 简单贝叶斯 支撑向量机 使用了SVMlight算法 分类结果合并 不同的分类算法在不同的类别上的性能具有差异,综合各分类器的的分类结果,改进最终的分类效果。 目录 系统模块 系统流程 测试结果 总结与展望 系统流程 目录 系统模块 系统流程 测试结果 总结与展望 测试结果 测试数据集 200M训练集 去年的分类答案 测试内容 Anchor Text 的权值设置 分类结果合并 Anchor Text 的权值设置 使用tf*idf算法对特征项赋权值 log(tf+1)*log2(N/df) 对Anchor Text中出现的特征项赋以较高权重
您可能关注的文档
最近下载
- 电信区县员工思想状况的调查报告.doc VIP
- 新建住宅供配电设施建设标准.pdf VIP
- 高中政治2.中国特色社会主义的开创和发展-【中职专用】高一思想政治《中国特色社会主义》同步课堂精品课件(高教版2023·基础模块).pptx VIP
- 湖北省云学联盟2025-2026学年高二上学期12月考试生物试卷含答案.docx VIP
- 人为性与为人性道德本质属性.doc VIP
- 山东省邹城市2024-2025学年七年级上学期期末道德与法治试题.docx VIP
- 《印染行业规范条件(2023版)》.pdf VIP
- 湖北省云学联盟2025-2026学年高二上学期12月考试生物试卷(含答案).pdf VIP
- 师生网络安全培训课件.pptx VIP
- 涉诈风险账户审查表.xlsx VIP
原创力文档

文档评论(0)