文本分类中的类别信息特征选择-2006年全国搜索引擎和网上信息.ppt

下载文档 降价啦

0
0
约1.51千字
约 16页
2017-09-12 发布于天津
举报
版权申诉
保障服务

文本分类中的类别信息特征选择-2006年全国搜索引擎和网上信息.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本分类中的类别信息特征选择-2006年全国搜索引擎和网上信息

文本分类中的类别信息特征选择方法余俊英王明文盛俊江西师范大学 2006年7月21日提纲研究背景基本思路 OCFS算法类别信息特征选择算法实验结果进一步工作研究背景文本分类的特点数量巨大的训练样本高特征维数特征降维技术特征提取：主成分分析、线性判别分析、潜在语义索引特征选择：文档频数、信息增益、期望交叉熵、互信息、文本证据权、几率比、卡方统计量等常用的特征选择方法存在的问题卡方统计量和信息增益都是贪心算法，寻求满意解基本思路目标是：用一组特征来表示文档集合，在这组特征的表示下，类别与类别之间的分散程度达到最大，类别内文档的离散程度达到最小。 OCFS算法使得类别之间的离散程度最大，但是没有考虑类内文档的聚集程度。利用LDA的两个目标函数来刻画类间分布与类内分布。优化这两个目标函数，并且进行综合，得到最后对特征评分函数（即特征对分类信息的贡献） LDA的目标函数类间分布矩阵：类内分布矩阵： OCFS算法思想：在OR算法的基础上，从特征选择的角度来优化特征抽取方法。 OC算法目的是，通过对类别中心矩阵进行QR分解，从连续的空间中找到一个变换矩阵，使得文档向量变换成 (pd) 定理：求OC算法的解等价于下面的优化问题，从特征选择的角度考虑，在离散的空间求变换矩阵，便转换成这样一个优化问题：设为二元矩阵，每列有且仅有一个非零元，则：（a）现在问题变成：找到p个特征，由这些特征生成的变换矩阵能够最大化（a）式，这等价于根据找前p个最大值类别信息特征选择 OCFS算法仅仅考虑了特征对类间离散程度的贡献，而特征对类内离散程度的影响却被忽略。这里，我们目的也是要找到一个变换矩阵，使得最小，其中由于，是一个二元矩阵，每列有且仅有一个非零元素，那么：只要根据找前p个最小的即可试验结果文档集：Reuters-21578，共135类，保留训练集和测试集都有正例的90个类。特征选择方法：卡方统计量、OCFS以及本文提出的类别信息特征选择方法。特征权重：LTC权重分类器：SVMLight以及KNN分类器性能指标：宏平均F1和微平均F1 表2 SVM分类结果进一步工作当选取的特征数比较少的时候，微平均值相对比较低，特征的类内分布分数受那些稀有词的影响比较大，如何消除稀有词带来的噪音。通过与投影寻踪或者是卡方统计量特征选择方法进行组合。进一步合理化和优化类别信息的目标函数请各位老师、同学指正谢谢! * * 2006年度全国搜索引擎和网上信息挖掘会议从特征选择的角度来优化特征提取算法 OCFS算法正交质心算法类别信息特征选择考虑特征对类内分布的影响第一步：计算训练集中各个类别的质心第二步：计算整个训练集文档的质心第三步：计算各个特征对类间分布的贡献第四步：计算各个特征对类内分布的贡献第五步：计算各个特征的最终分数第六步：在分数集合中选取前个数最大的特征 *