- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * 参考论文: Yiming Yang 1999年的论文 《A comparative Study on Feature Selection In Text Categorization 》 * * * * * * * * * * * * * * * * * * * * * * * * * * * DF、卡方、点对点互信息、信息增益法提取特征词对比(五) 我的实验结论: 评价一个特征词是否是好词,一个特征词集合是否选择的合理。主要看所选择的词是否具有类别标识性。所谓类别标识性有以下两点含有:1。Distinctive for categorization:也就是说,如果该词出现则可以以一个很大的概率将文章归为某类。2。该词在它所“标识”的类别中应该频繁出现。DF法选择的特征词满足第二个条件多一点;而点互信息法选择的特征词只满足第一个条件多一点;而IG法和卡方法在满足两个条件方面达到了均衡。所以 IG和卡方法性能差不多,优于DF法,DF优于点互信息法。(注:这是我个人的一点见地,如有偏颇的地方欢迎指正) 由此我们可以得出这样的结论: IG法,卡方法,虽然有抑制高频词噪声和低频词噪声的能力,但是归根结底,这两种方法是基于频率的经典统计推断,不能够有效抑制全部高频词噪声,如果要提高特征词集合抑制高频词噪声的能力,可能要求诸于贝叶斯统计推断。 评估分类器的效果(EFFECTIVENESS)(一) 效果(effectiveness):这个术语来统称那些分类结果质量的评价指标,包括正确率、召回率和F1值。 性能(performance):这个术语主要指的 是分类或者IR系统的计算效率。 评估分类器的效果(EFFECTIVENESS)(二) 经常把分类问题(多分类问题)看成是二类问题(是否属于某个特定类别)。但针对某一个具体类别来说,我们又可以这样考虑:即有多少篇文章属于该类?有多少篇文章不属于该类?如果将属于该类的文章定义为“正例”,不属于该类别的文章定义为负例,那么就有了 查准率,查全率,F-score等性能评估标准。分类器的混合矩阵: 可以这样考虑TP,FN,FP,TN的含义: TP(Truly Positve):是指那些分类为正例实际上也是正例的文章; FP(Falsely Postive):是指那些分类为正例但是实际上为负例的文章; FN(Falsely Negtive):是指那些分类为负例但是实际上为正例的文章; TN(Truly Negtive):是指那些分类为负例,实际上也为负例的文章。 查准率(precision)p=TP/(TP+FP)。它的含义是:测试集中被正确分类的正例数量除以测试集中被分类为正例的数据数量。 查全率(recall) r=TP/(TP+FN)。 它的含义是:测试集中被正确分类的正例数量除以测试集中实际正例数量。 F-score=2pr/(p+r)。 它是查准率和查全率的调和平均值。 F-score更接近于p,r两个数种较小的那个 文本分类以及预处理代码实现 预处理算法处理框架图 分类算法框架图 KNN算法 KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法,也称懒惰式学习方法。 它的大概思路是:对于某个待分类的样本点,在训练集中找离它最近的k个样本点,并观察这k个样本点所属类别。看这k个样本点中,那个类别出现的次数多,则将这类别标签赋予该待分类的样本点。 重要数据结构定义 typedef map string,vectorpairint,int DICTIONARY;//定义字典数据结构 typedef mappairstring,string,pairint,int CONTINGENCY;//定义关联表数据结构 typedef mapint,vectorpairint,double DOCMATRIX;//文档向量矩阵 typedef vectorpairint,string RESULTINFO;//最后的分类和聚类结果信息 编程思路 操纵数据库模块 int?ConstructDictionary(DICTIONARY?mymap,FUNCSEG?seg,string?tablename);//从数据库中读出文章,分词,过滤停用词建立词典 int?GetArticleIdinEachClass(vectorstring??labels,string?tablename,mapstring,vectorint?articleIdinEachClass?);//获得训练集中每一类所包含的文章ID vectorstring?GetClassification(strin
您可能关注的文档
- 护理专业问题讨论四甲.DOC
- 拒绝烟酒与毒品-安全教育平台.PPT
- 招标文件小型地震模拟振动台及控制系统CD201KJ-068.DOC
- 招标文件物理探索科技馆-室及设备管理处-重庆大学.DOC
- 招聘简章-厦门疾病预防控制中心.DOC
- 探讨Acer集团之行销策略-国立中山大学管理学院.PPT
- 振华重工自动引导运输车辆AGV-FutureofManufacturing-Siemens.PPT
- 提升高压开关柜质量的12条措施.DOC
- 提高使用者和使用地的档次.DOC
- 故无需缴纳印花税-厦门税务.PPT
- 2019-2023年铜冶炼行业经济效益分析研究报告.doc
- 2019-2023年金属表面处理及热处理加工行业经济效益分析研究报告.doc
- 2019-2023年石油和天然气开采行业经济效益分析研究报告.doc
- 2019-2023年漆器工艺品制造行业经济效益分析研究报告.doc
- 2019-2023年石灰和石膏制造行业经济效益分析研究报告.doc
- 2019-2023年其他娱乐用品制造行业经济效益分析研究报告.doc
- 2019-2023年其他有色金属压延加工行业经济效益分析研究报告.doc
- 2019-2023年钨钼矿采选行业经济效益分析研究报告.doc
- 2019-2023年稀土金属矿采选行业经济效益分析研究报告.doc
- 2019-2023年其他乳制品制造行业经济效益分析研究报告.doc
最近下载
- 微型企业应急救援预案模板(定稿).pdf VIP
- 2025年群团工作部上半年工作总结.docx VIP
- 2025年拍卖师拍卖系统电子竞价数据隐私保护专题试卷及解析.pdf VIP
- 药品检验检测机构凝胶检测技术鲎试剂质量标准.pdf VIP
- 品管圈PDCA获奖案例呼吸科提高患者吸入剂规范使用达标率.pptx
- 实施指南《GB19521.12 - 2004有机过氧化物危险货物危险特性检验安全规范》实施指南.pptx VIP
- 2025年房地产经纪人行纪合同中的合同变更规则专题试卷及解析.pdf VIP
- 雕塑设计制作合同协议书范本2025年.docx VIP
- 婴幼儿反复喘息诊治、管理、预防临床实践循证指南(2025)解读PPT课件.pptx VIP
- 奶茶制作流程.pptx VIP
原创力文档


文档评论(0)