文本分类的信息论模型.ppt

下载文档 降价啦

1
0
约7.49千字
约 42页
2020-10-21 发布于天津
举报
版权申诉
保障服务

文本分类的信息论模型.ppt

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

31 第三部分文本分类的广义信息论模型文本分类的信息论模型段建国 2006-01-05 2 内容安排 ? 基于互信息最大化的特征压缩算法 ? 特征聚类 ? 特征选择 ? 文本分类的信息论模型 ? 贝叶斯分类模型 ? 基于 KL 距离的中心向量分类模型 ? 文本分类的广义信息论模型 ? 意义信息和加权熵 3 第一部分基于互信息最大化的特征压缩算法 4 互信息最大化准则 ? 离散随机变量表示原始特征，可能的取值为 ? 离散随机变量表示新的特征，可能的取值为 ? 离散随机变量表示类别，可能的取值为 ? 互信息最大化准则 ? 互信息损失最小化准则 T ~ T ? ? m t t t T , , , 2 1 ? ? ? ? k c c c C , , , 2 1 ? ? C ? ? m t t t T ? ? ~ , , ~ , ~ ~ 2 1 ? ) ~ , ( max T C I ? ? ) ~ , ( ) , ( min T C I T C I ? 5 互信息最大化的实现 ? 特征选择 ? 从一组特征中挑选出一些最有用的特征 ? 特征聚类 ? 将多个特征合并成一个新的抽象的特征 ? 聚类的算法 ? 凝聚式聚类方法 ? 迭代式聚类方法 ? 分解式聚类算法 6 参考文献 ? 凝聚式聚类算法 ? N. Slonim, N. Tishby, The power of word clusters for text classification . In 23rd European Colloquium on Information Retrieval Research (ECIR), 2001. ? 迭代式聚类算法 ? Inderjit S. Dhillon, Subramanyam Mallela, and Rahul Kumar , A Divisive Information- Theoretic Feature Clustering Algorithm for Text Classification , Journal of Machine Learning Research, 3(2003). 7 凝聚式聚类算法 ? 首先，假定每个特征为一个类 ? 然后循环选择两个类进行合并，选择的依据就是互信息损失最小化，互信息损失定义为 ? 通过推导，得出互信息损失的具体表达式 ) ~ ; ( ) ~ ; ( ) ~ , ~ ( 2 1 after before j j T C I T C I t t I ? ? ? ? ? ) ~ | ( ), ~ | ( )) ~ ( ) ~ ( ( ) ~ , ~ ( 2 1 2 1 2 1 j j j j j j t c p t c p JS t p t p t t I ? ? ? ? ? 8 迭代式聚类算法 ? 采用硬聚类方法 ? 特征聚类质量的衡量 ? 聚类中心的分布 ? ? ? ? ? ? ) ~ | ( || ) | ( ) ( ) ~ ; ( ) ; ( ~ 1 ~ 1 j j m j t t KL j m j j t C p t C p D t p T C I T C I t Q j j ?? ? ? ? ? ? ? ) | ( ) ~ ( ) ( ) ~ | ( ~ j i t t j j j i t c p t p t p t c p j j ? ? ? ? 9 分解式聚类算法 ? 再次分析特征聚类的质量 ? 每个聚类的互信息损失 ? 分解式聚类算法的基本思想。 ? 每次选择互信息损失最大的特征类进行分解。 ? ? ? ? ? ? ) ~ | ( || ) | ( ) ( ) ~ ; ( ) ; ( ~ 1 ~ 1 j j m j t t KL j m j j t C p t C p D t p T C I T C I t Q j j ?? ? ? ? ? ? ? ? ? ) ~ | ( || ) | ( ) ( ) ~ ( ~ j j t t KL j j t C p t C p D t p t S j j ? ? ? 10 它山之石 11 互信最大化的特征选择算法 ? 特征与类别之间的互信息为 ? 特征提供的关于类别的信息为 ? 互信息最大化的特征选择的基本思想 ? 以提供类别信息的多少作为特征选择的依据 ? ? ? m j j t C I T C I 1 ) ; ( ) ; ( ? ? ? k i i j i j i j c P t c P t c P t C I 1 ) ( ) | ( log ) , ( ) ; ( T C j t 12 与传统互信息方法对比 ? 互信息最大化的特征选择 ? 传统互信