文本分类的信息论模型.ppt

下载文档 降价啦

3
0
约2.78千字
约 42页
2017-12-26 发布于江西
举报
版权申诉
保障服务

文本分类的信息论模型.ppt

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本分类的信息论模型

2006-01-05 中国科学技术大学文本分类的信息论模型段建国 2006-01-05 内容安排基于互信息最大化的特征压缩算法特征聚类特征选择文本分类的信息论模型贝叶斯分类模型基于KL距离的中心向量分类模型文本分类的广义信息论模型意义信息和加权熵第一部分基于互信息最大化的特征压缩算法互信息最大化准则离散随机变量表示原始特征，可能的取值为离散随机变量表示新的特征，可能的取值为离散随机变量表示类别，可能的取值为互信息最大化准则互信息损失最小化准则互信息最大化的实现特征选择从一组特征中挑选出一些最有用的特征特征聚类将多个特征合并成一个新的抽象的特征聚类的算法凝聚式聚类方法迭代式聚类方法分解式聚类算法参考文献凝聚式聚类算法 N. Slonim, N. Tishby, The power of word clusters for text classification. In 23rd European Colloquium on Information Retrieval Research (ECIR), 2001. 迭代式聚类算法 Inderjit S. Dhillon, Subramanyam Mallela, and Rahul Kumar, A Divisive Information-Theoretic Feature Clustering Algorithm for Text Classification, Journal of Machine Learning Research, 3(2003). 凝聚式聚类算法首先，假定每个特征为一个类然后循环选择两个类进行合并，选择的依据就是互信息损失最小化，互信息损失定义为通过推导，得出互信息损失的具体表达式迭代式聚类算法采用硬聚类方法特征聚类质量的衡量聚类中心的分布分解式聚类算法再次分析特征聚类的质量每个聚类的互信息损失分解式聚类算法的基本思想。每次选择互信息损失最大的特征类进行分解。它山之石互信最大化的特征选择算法特征与类别之间的互信息为特征提供的关于类别的信息为互信息最大化的特征选择的基本思想以提供类别信息的多少作为特征选择的依据与传统互信息方法对比互信息最大化的特征选择传统互信息 “互信息的缺点是受临界特征的概率影响较大，从公式中可以看出，当特征的P(t|c)值相等时，稀有词比普通词的分值要高，因此，它造成了互信息评估函数经常倾向于选择稀有单词。然而对于文本分类而言，出现次数较多的单词比出现次数较少的单词具有更大的作用。” ——谭松波与信息增益的相似性信息增益也是一种互信息不同点：离散随机变量的定义不同互信息最大化：离散随机变量表示原始特征，可能的取值为信息增益：离散随机变量表示原始特征，可能的取值为与信息增益的相似性-2 实验结果实验结果-2 实验结果-3 实验结果-4 第二部分文本分类的信息论模型信息论基础什么是信息？信息是事物运动状态或存在方式的不确定性的描述自信息：完全消除不确定性，所需的信息信息熵：信源的总体信息测度。信息论基础-2 互信息：随机变量X和Y之间的平均互信息接收到输出符号Y后获得的关于X的信息量的平均值接收到输出符号Y后，随机变量X不确定性消除的量互信息的计算概率分布的距离 Kullback-Leibler (KL)距离 Jensen-Shannon (JS)距离其中，，，，文本分类的信息论模型信源：文本类别信道：分类器信宿：特征分类的依据：特征提供的关于各个类的信息分类器构建文本d中所有特征提供的关于各个类的信息各类别的自信息综合，得出分类依据分类器构建-2 基于信息论的文本分类模型其中，称为类别修正因子注意：p(t)的定义与传统意义不同信息论模型的性质（一）定理1 当 =0时，基于信息论的分类模型与基于KL距离的中心向量分类模型等价，即：证明：信息论模型可以转换为上式右边第二项与类别无关，对于类别来说为常数。所以信息论模型的性质（一）-2 若记，其中|d|为文本中所有特征的频数之和，则于是，得证毕信息论模型的性质（二）定理2 当 =1时，基于信息论的分类模型与朴素贝叶斯分类模型等价，即：信息论模型的性质（二）-2 证明：因为为单调递增函数