* * * * * * * * * * 参考论文: Yiming Yang 1999年的论文 《A comparative Study on Feature Selection In Text Categorization 》 * * * * * * * * * * * * * * * * * * * * * * * * * * * DF、卡方、点对点互信息、信息增益法提取特征词对比(五) 我的实验结论: 评价一个特征词是否是好词,一个特征词集合是否选择的合理。主要看所选择的词是否具有类别标识性。所谓类别标识性有以下两点含有:1。Distinctive for categorization:也就是说,如果该词出现则可以以一个很大的概率将文章归为某类。2。该词在它所“标识”的类别中应该频繁出现。DF法选择的特征词满足第二个条件多一点;而点互信息法选择的特征词只满足第一个条件多一点;而IG法和卡方法在满足两个条件方面达到了均衡。所以 IG和卡方法性能差不多,优于DF法,DF优于点互信息法。(注:这是我个人的一点见地,如有偏颇的地方欢迎指正) 由此我们可以得出这样的结论: IG法,卡方法,虽然有抑制高频词噪声和低频词噪声的能力,但是归根结底,这两种方法是基于频率的经典统计推断,不能够有效抑制全部高频词噪声,如果要提高特征词集合抑制高频词噪声的能力,可能要求诸于贝叶斯统计推断。 评估分
您可能关注的文档
- 添加柑橘纤维或马铃薯纤维对.doc
- 清华大学覃征.ppt
- 清洁验证中的TOC分析.doc
- 渗透现象及体液渗透压的测定.ppt
- 温州二中赵沛荣.ppt
- 温胆汤加味治疗痰瘀交阻型颈性眩晕症临床研究.doc
- 湖南体育传统项目学校.doc
- 湖南教育教学改革发展优秀成果.doc
- 湖泊水或潜水补给河流.ppt
- 湿地生态系统湿地范围.ppt
- 智能作文批改系统在初中语文写作教学中对学生写作过程监控的作用分析课题报告教学研究课题报告.docx
- 初中AI课程中自然语言处理的智能影视推荐聊天机器人设计课题报告教学研究课题报告.docx
- 2026年3D打印传感器材料五年技术报告.docx
- 2026年小额贷款监管政策演变报告.docx
- 2026年数字孪生交通五年交通基础设施:路网优化与通行效率提升行业报告.docx
- 2026年深远海养殖环境评估报告.docx
- 医疗3D打印器官2026年临床转化与十年市场分析报告.docx
- 2026年超声波传感器十年电力测距技术报告.docx
- 基于多元智能理论的学生评价公平性保障机制探讨教学研究课题报告.docx
- 半导体设备五年技术迭代与国产替代趋势行业报告.docx
最近下载
- 胡椒醛安全技术说明书(MSDS).pdf VIP
- 2022年。四年级下册期中考试。.docx VIP
- (2021年)湖南省株洲市辅警协警笔试笔试真题(含答案).docx VIP
- 呼吸道感染的流行病学分析.pdf VIP
- 入团积极分子培养考察表(2025年版).docx VIP
- 学校中层管理岗位选聘与考核管理方案(2026年修订版).docx
- 中国医师药师临床指南第2版pdf.pptx VIP
- 吉林省题库建设指导手册(试行)+目录.pdf VIP
- 2025年咨询工程师(投资)考试《工程项目组织与管理》真题及答案解析【完20256.pdf VIP
- 第七章+第四节++长江经济带的协同发展+课件2025-2026学年+湘教版地理八年级下册.pptx VIP
原创力文档

文档评论(0)