navigatingtotextcategorization.pptVIP

下载本文档

13
0
约8.47千字
约 47页
2017-02-14 发布于天津
举报
版权申诉

navigatingtotextcategorization.ppt

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

navigatingtotextcategorization

* * * * * * * * * * 参考论文： Yiming Yang 1999年的论文《A comparative Study on Feature Selection In Text Categorization 》 * * * * * * * * * * * * * * * * * * * * * * * * * * * DF、卡方、点对点互信息、信息增益法提取特征词对比（五）我的实验结论：评价一个特征词是否是好词，一个特征词集合是否选择的合理。主要看所选择的词是否具有类别标识性。所谓类别标识性有以下两点含有：1。Distinctive for categorization：也就是说，如果该词出现则可以以一个很大的概率将文章归为某类。2。该词在它所“标识”的类别中应该频繁出现。DF法选择的特征词满足第二个条件多一点；而点互信息法选择的特征词只满足第一个条件多一点；而IG法和卡方法在满足两个条件方面达到了均衡。所以 IG和卡方法性能差不多，优于DF法，DF优于点互信息法。（注：这是我个人的一点见地，如有偏颇的地方欢迎指正）由此我们可以得出这样的结论： IG法，卡方法，虽然有抑制高频词噪声和低频词噪声的能力，但是归根结底，这两种方法是基于频率的经典统计推断，不能够有效抑制全部高频词噪声，如果要提高特征词集合抑制高频词噪声的能力，可能要求诸于贝叶斯统计推断。评估分类器的效果（EFFECTIVENESS）(一) 效果(effectiveness):这个术语来统称那些分类结果质量的评价指标，包括正确率、召回率和F1值。性能（performance):这个术语主要指的是分类或者IR系统的计算效率。评估分类器的效果（EFFECTIVENESS）(二) 经常把分类问题（多分类问题）看成是二类问题（是否属于某个特定类别）。但针对某一个具体类别来说，我们又可以这样考虑：即有多少篇文章属于该类？有多少篇文章不属于该类？如果将属于该类的文章定义为“正例”，不属于该类别的文章定义为负例，那么就有了查准率，查全率，F-score等性能评估标准。分类器的混合矩阵：可以这样考虑TP,FN,FP,TN的含义： TP（Truly Positve）：是指那些分类为正例实际上也是正例的文章； FP（Falsely Postive）：是指那些分类为正例但是实际上为负例的文章； FN（Falsely Negtive）：是指那些分类为负例但是实际上为正例的文章； TN（Truly Negtive）:是指那些分类为负例，实际上也为负例的文章。查准率（precision）p=TP/(TP+FP)。它的含义是：测试集中被正确分类的正例数量除以测试集中被分类为正例的数据数量。查全率(recall) r=TP/(TP+FN)。它的含义是：测试集中被正确分类的正例数量除以测试集中实际正例数量。 F-score=2pr/(p+r)。它是查准率和查全率的调和平均值。 F-score更接近于p,r两个数种较小的那个文本分类以及预处理代码实现预处理算法处理框架图分类算法框架图 KNN算法 KNN文本分类算法又称为(k nearest neighhor)。它是一种基于事例的学习方法，也称懒惰式学习方法。它的大概思路是：对于某个待分类的样本点，在训练集中找离它最近的k个样本点，并观察这k个样本点所属类别。看这k个样本点中，那个类别出现的次数多，则将这类别标签赋予该待分类的样本点。重要数据结构定义 typedef map string,vectorpairint,int DICTIONARY;//定义字典数据结构 typedef mappairstring,string,pairint,int CONTINGENCY;//定义关联表数据结构 typedef mapint,vectorpairint,double DOCMATRIX;//文档向量矩阵 typedef vectorpairint,string RESULTINFO;//最后的分类和聚类结果信息编程思路操纵数据库模块 int?ConstructDictionary(DICTIONARY?mymap,FUNCSEG?seg,string?tablename);//从数据库中读出文章，分词，过滤停用词建立词典 int?GetArticleIdinEachClass(vectorstring??labels,string?tablename,mapstring,vectorint?articleIdinEachClass?);//获得训练集中每一类所包含的文章ID vectorstring?GetClassification(strin