- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
31 第三部分 文本分类的广义信息论模型 文本分类的信息论模型 段建国 2006-01-05 2 内容安排 ? 基于互信息最大化的特征压缩算法 ? 特征聚类 ? 特征选择 ? 文本分类的信息论模型 ? 贝叶斯分类模型 ? 基于 KL 距离的中心向量分类模型 ? 文本分类的广义信息论模型 ? 意义信息和加权熵 3 第一部分 基于互信息最大化的特征压缩算法 4 互信息最大化准则 ? 离散随机变量 表示原始特征,可能的取值为 ? 离散随机变量 表示新的特征,可能的取值为 ? 离散随机变量 表示类别,可能的取值为 ? 互信息最大化准则 ? 互信息损失最小化准则 T ~ T ? ? m t t t T , , , 2 1 ? ? ? ? k c c c C , , , 2 1 ? ? C ? ? m t t t T ? ? ~ , , ~ , ~ ~ 2 1 ? ) ~ , ( max T C I ? ? ) ~ , ( ) , ( min T C I T C I ? 5 互信息最大化的实现 ? 特征选择 ? 从一组特征中挑选出一些最有用的特征 ? 特征聚类 ? 将多个特征合并成一个新的抽象的特征 ? 聚类的算法 ? 凝聚式聚类方法 ? 迭代式聚类方法 ? 分解式聚类算法 6 参考文献 ? 凝聚式聚类算法 ? N. Slonim, N. Tishby, The power of word clusters for text classification . In 23rd European Colloquium on Information Retrieval Research (ECIR), 2001. ? 迭代式聚类算法 ? Inderjit S. Dhillon, Subramanyam Mallela, and Rahul Kumar , A Divisive Information- Theoretic Feature Clustering Algorithm for Text Classification , Journal of Machine Learning Research, 3(2003). 7 凝聚式聚类算法 ? 首先,假定每个特征为一个类 ? 然后循环选择两个类进行合并,选择的依据就是 互信息损失最小化,互信息损失定义为 ? 通过推导,得出互信息损失的具体表达式 ) ~ ; ( ) ~ ; ( ) ~ , ~ ( 2 1 after before j j T C I T C I t t I ? ? ? ? ? ) ~ | ( ), ~ | ( )) ~ ( ) ~ ( ( ) ~ , ~ ( 2 1 2 1 2 1 j j j j j j t c p t c p JS t p t p t t I ? ? ? ? ? 8 迭代式聚类算法 ? 采用硬聚类方法 ? 特征聚类质量的衡量 ? 聚类中心的分布 ? ? ? ? ? ? ) ~ | ( || ) | ( ) ( ) ~ ; ( ) ; ( ~ 1 ~ 1 j j m j t t KL j m j j t C p t C p D t p T C I T C I t Q j j ?? ? ? ? ? ? ? ) | ( ) ~ ( ) ( ) ~ | ( ~ j i t t j j j i t c p t p t p t c p j j ? ? ? ? 9 分解式聚类算法 ? 再次分析特征聚类的质量 ? 每个聚类的互信息损失 ? 分解式聚类算法的基本思想。 ? 每次选择互信息损失最大的特征类进行分解。 ? ? ? ? ? ? ) ~ | ( || ) | ( ) ( ) ~ ; ( ) ; ( ~ 1 ~ 1 j j m j t t KL j m j j t C p t C p D t p T C I T C I t Q j j ?? ? ? ? ? ? ? ? ? ) ~ | ( || ) | ( ) ( ) ~ ( ~ j j t t KL j j t C p t C p D t p t S j j ? ? ? 10 它山之石 11 互信最大化的特征选择算法 ? 特征 与类别 之间的互信息为 ? 特征 提供的关于类别的信息为 ? 互信息最大化的特征选择的基本思想 ? 以提供类别信息的多少作为特征选择的依据 ? ? ? m j j t C I T C I 1 ) ; ( ) ; ( ? ? ? k i i j i j i j c P t c P t c P t C I 1 ) ( ) | ( log ) , ( ) ; ( T C j t 12 与传统互信息方法对比 ? 互信息最大化的特征选择 ? 传统互信
文档评论(0)