- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本分类的信息论模型
2006-01-05 中国科学技术大学 文本分类的信息论模型 段建国 2006-01-05 内容安排 基于互信息最大化的特征压缩算法 特征聚类 特征选择 文本分类的信息论模型 贝叶斯分类模型 基于KL距离的中心向量分类模型 文本分类的广义信息论模型 意义信息和加权熵 第一部分 基于互信息最大化的特征压缩算法 互信息最大化准则 离散随机变量 表示原始特征,可能的取值为 离散随机变量 表示新的特征,可能的取值为 离散随机变量 表示类别,可能的取值为 互信息最大化准则 互信息损失最小化准则 互信息最大化的实现 特征选择 从一组特征中挑选出一些最有用的特征 特征聚类 将多个特征合并成一个新的抽象的特征 聚类的算法 凝聚式聚类方法 迭代式聚类方法 分解式聚类算法 参考文献 凝聚式聚类算法 N. Slonim, N. Tishby, The power of word clusters for text classification. In 23rd European Colloquium on Information Retrieval Research (ECIR), 2001. 迭代式聚类算法 Inderjit S. Dhillon, Subramanyam Mallela, and Rahul Kumar, A Divisive Information-Theoretic Feature Clustering Algorithm for Text Classification, Journal of Machine Learning Research, 3(2003). 凝聚式聚类算法 首先,假定每个特征为一个类 然后循环选择两个类进行合并,选择的依据就是互信息损失最小化,互信息损失定义为 通过推导,得出互信息损失的具体表达式 迭代式聚类算法 采用硬聚类方法 特征聚类质量的衡量 聚类中心的分布 分解式聚类算法 再次分析特征聚类的质量 每个聚类的互信息损失 分解式聚类算法的基本思想。 每次选择互信息损失最大的特征类进行分解。 它山之石 互信最大化的特征选择算法 特征 与类别 之间的互信息为 特征 提供的关于类别的信息为 互信息最大化的特征选择的基本思想 以提供类别信息的多少作为特征选择的依据 与传统互信息方法对比 互信息最大化的特征选择 传统互信息 “互信息的缺点是受临界特征的概率影响较大,从公式中可以看出,当特征的P(t|c)值相等时,稀有词比普通词的分值要高,因此,它造成了互信息评估函数经常倾向于选择稀有单词。然而对于文本分类而言,出现次数较多的单词比出现次数较少的单词具有更大的作用。” ——谭松波 与信息增益的相似性 信息增益也是一种互信息 不同点:离散随机变量的定义不同 互信息最大化:离散随机变量 表示原始特征,可能的取值为 信息增益:离散随机变量 表示原始特征,可能的取值为 与信息增益的相似性-2 实验结果 实验结果-2 实验结果-3 实验结果-4 第二部分 文本分类的信息论模型 信息论基础 什么是信息? 信息是事物运动状态或存在方式的不确定性的描述 自信息:完全消除不确定性,所需的信息 信息熵:信源的总体信息测度。 信息论基础-2 互信息:随机变量X和Y之间的平均互信息 接收到输出符号Y后获得的关于X的信息量的平均值 接收到输出符号Y后,随机变量X不确定性消除的量 互信息的计算 概率分布的距离 Kullback-Leibler (KL)距离 Jensen-Shannon (JS)距离 其中, , , , 文本分类的信息论模型 信源:文本类别 信道:分类器 信宿:特征 分类的依据:特征提供的关于各个类的信息 分类器构建 文本d中所有特征提供的关于各个类的信息 各类别的自信息 综合,得出分类依据 分类器构建-2 基于信息论的文本分类模型 其中, 称为类别修正因子 注意:p(t)的定义与传统意义不同 信息论模型的性质(一) 定理1 当 =0时,基于信息论的分类模型与基于KL距离的中心向量分类模型等价,即: 证明:信息论模型可以转换为 上式右边第二项与类别无关,对于类别来说为常数。所以 信息论模型的性质(一)-2 若记 ,其中|d|为文本 中所有特征的频数之和,则 于是,得 证毕 信息论模型的性质(二) 定理2 当 =1时,基于信息论的分类模型与朴素贝叶斯分类模型等价,即: 信息论模型的性质(二)-2 证明:因为 为单调递增函数
您可能关注的文档
- 数学同步练习题考试题试卷教案认识人民币.doc
- 数学同步练习题考试题试卷教案除法的初步认识.doc
- 数学同步练习题考试题试卷教案高一年级数学上学期期末质量检测2.doc
- 数学同步练习题考试题试卷教案高一数学下册三月月考试卷.doc
- 数学同步练习题考试题试卷教案高一数学教案:一元二次方程实根的分布.doc
- 数学同步练习题考试题试卷教案高一数学教案:含参一元二次不等式.doc
- 数学同步练习题考试题试卷教案高一数学教案:用二分法求方程的近似解》一课的教学设计.doc
- 数学同步练习题考试题试卷教案育才中学:第2章有理数全章教案.doc
- 数学同步练习题考试题试卷教案高一必修四三角函数单元测试.doc
- 数学同步练习题考试题试卷教案高一数学新课程必修模块五结业测试卷.doc
文档评论(0)