- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类中的类别信息特征选择-2006年全国搜索引擎和网上信息
文本分类中的类别信息特征选择方法 余俊英 王明文 盛俊 江西师范大学 2006年7月21日 提纲 研究背景 基本思路 OCFS算法 类别信息特征选择算法 实验结果 进一步工作 研究背景 文本分类的特点 数量巨大的训练样本 高特征维数 特征降维技术 特征提取:主成分分析、线性判别分析、潜在语义索引 特征选择:文档频数、信息增益、期望交叉熵、互信息、文本证据权、几率比、卡方统计量等 常用的特征选择方法存在的问题 卡方统计量和信息增益都是贪心算法,寻求满意解 基本思路 目标是:用一组特征来表示文档集合,在这组特征的表示下,类别与类别之间的分散程度达到最大,类别内文档的离散程度达到最小。 OCFS算法使得类别之间的离散程度最大,但是没有考虑类内文档的聚集程度。 利用LDA的两个目标函数来刻画类间分布与类内分布。优化这两个目标函数,并且进行综合,得到最后对特征评分函数(即特征对分类信息的贡献) LDA的目标函数 类间分布矩阵: 类内分布矩阵: OCFS算法 思想:在OR算法的基础上,从特征选择的角度来优化特征抽取方法。 OC算法目的是,通过对类别中心矩阵进行QR分解,从连续的空间中找到一个变换矩阵 ,使得文档向量 变换成 (pd) 定理:求OC算法的解等价于下面的优化问题, 从特征选择的角度考虑,在离散的空间求变换矩阵,便转换成这样一个优化问题: 设为 二元矩阵,每列有且仅有一个非零元,则: (a) 现在问题变成:找到p个特征,由这些特征生成的变换矩阵能够最大化(a)式,这等价于根据 找前p个最大值 类别信息特征选择 OCFS算法仅仅考虑了特征对类间离散程度的贡献,而特征对类内离散程度的影响却被忽略。 这里,我们目的也是要找到一个变换矩阵 ,使得 最小,其中 由于 ,是一个二元矩阵,每列有且仅有一个非零元素,那么: 只要根据 找前p个最小的即可 试验结果 文档集:Reuters-21578,共135类,保留训练集和测试集都有正例的90个类。 特征选择方法:卡方统计量、OCFS以及本文提出的类别信息特征选择方法。 特征权重:LTC权重 分类器:SVMLight以及KNN分类器 性能指标:宏平均F1和微平均F1 表2 SVM分类结果 进一步工作 当选取的特征数比较少的时候,微平均值相对比较低,特征的类内分布分数受那些稀有词的影响比较大,如何消除稀有词带来的噪音。 通过与投影寻踪或者是卡方统计量特征选择方法进行组合。 进一步合理化和优化类别信息的目标函数 请各位老师、同学指正谢谢! * * 2006年度全国搜索引擎和网上信息挖掘会议 从特征选择的角度来优化特征提取算法 OCFS算法 正交质心算法 类别信息特征选择 考虑特征对类内分布的影响 第一步:计算训练集中各个类别的质心 第二步:计算整个训练集文档的质心 第三步:计算各个特征对类间分布的贡献 第四步:计算各个特征对类内分布的贡献 第五步:计算各个特征的最终分数 第六步:在分数集合 中选取前 个数最大的特征 *
文档评论(0)