微博汇报第四次.ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
微博汇报第四次

第四次汇报 汇报人:陈超 所看文章 主要思想:针对传统 TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的 TFIDF改进方法,该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF 特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷. 基于TFIDF文本特征加权方法的改进研究 1. 2. 3. 4. 相关工作 TFIDF方法 改进的TFIDF方法 实验结果与分析 本文的主要内容 1.相关工作 1.1引言介绍 现有的分类方法主要是基于统计理论和机器学习方法的,比较著名的文档分类方法有:1.朴素贝叶斯2.支持向量机3.K-近邻法4.神经网络 特征词权重的计算方法1.布尔权重法 2.平方根权重法 3.对数权重法 4. 基于信息熵的权重法 5. TFIDF权重法 目前,在很多分类方法中通常都要使用向量空间模型VSM,用特征项(t1,t2,t3……tn) 及相应权值 wi来表示文本的特征信息由于分类方法都建立在特征项频率统计和权重计算的基础上,因此特征权重算法的优劣将直接影响到分类的精确度 1.相关工作 1.2TF-IDF公式 传统的归一化TF-IDF: ni表示包含特征项 的ti文档数,N 表示文档集中的文本总数,分母为归一化因子 2.TFIDF方法 2.1传统TF-IDF不足 传统TF-IDF方法是将文档集作为整体来处理,特别是其中IDF的计算,并没有考虑到特征项在类间和类内的分布情况,明显存在以下两点不足: 1 如果一个特征项在一个类的文档中频繁出现,而在其他类中出现比较少,则说明该特征项能够很好代表这个类的文本的特征,这样的特征项应该赋予较高的权重,并应选作为该类文本的特征词以区别于其它类文档;如果一个特征项比较均匀地分布在各个类中,这样特征项对分类的贡献不大,即使包含特征项 的文档数 比较小, 也应该被赋予较低的权重但是式没有考虑到特征项在类间的如此分布 2 同样是集中分布于某一类别的不同特征项,类内分布相对均匀的特征项的权重应该比分布不均匀的要高,因为如果某一特征项只在某个类别的一两篇文档中大量出现,而在类内的其它文档中出现得很少,那么不排除这一两篇文档是该类别中特例的情况,因此这样的特征项不具备代表性,权重相应较低对此,传统的 算法也不能很好地处理 2.TFIDF方法 2.2举例说明传统TF-IDF不足 3.改进的TFIDF方法 3.1TF-IDF方法的改进 定义1 若给定的概率分布为P=(p1,p2,p3……pn) 则有该分布传递的信息量称为 P的熵,即: 定义2若一个文档集合 D中所有文档被分成相互独立的k类C1,C2,C3,……,Ck包含特征项 Ti的文档在每个类中的概率分布为P=(n1/N,n2/N,n3/N……,nk/N)其中 N表示包含特征项 ti的所有文档总数,ni表示类 Ci中包含特征项 ti的文档数,把 Hac(P) 记为特征项 ti的类间信息分布熵. 定义 3若一个类中有 n个文档d1,d2,d3……,dn每个文档中所包含特征项 ti的概率分布为 Q=(m1/M,m2/M,m3/M,……,mn/M),其中 M 为该类中包含特征项 ti的总数,mi为文档 di包含特征项 ti的数量把Hic(Q)记为特征项 ti的类内信息分布熵 3.改进的TFIDF方法 3.2Hac的改进 由于 Hac越大时,特征项的分类贡献就越小,所以不能直接结合 Hac,为此需对 Hac做一定的修改,变成类间信息熵因子a(Hac) ,其公式如下: max(Hac)表示特征项类间信息分布熵的最大值,系数 l是为了避免以下两种情况: 1.当k=1时,max(Hac)=0 2.当Hac=max(Hac)时,α(Hac)=0 3.改进的TFIDF方法 3.3综合TF-IDF算法 根据以上分析,最后提出一种结合特征项的类间和类内信 息分布熵的 TF-IDF特征加权方法,公式如下: 式中,α(Hac)表示特征项在类间的分布比例情况,即当某一个特征项的文档在各类分布越均匀时,该特征项类间分布熵就越大,α(Hac) 就越小,则对分类的贡献就越小; Hic表示特征项在类内的分布情况,即当某一个特征项在某一个类中的各个文档分布越均匀,其类内的分布熵 Hic就越大,则对该类的分类贡献就越大,这样就能更有效地表示特征在文本分类中的贡献 3.改进的TFIDF方法 3.4改进后的TF-IDF和改进前的简单例子的比较 4.实验结果与分析 4.1证明改进TFIDF方法的实验 R召回率P 精确度 F1评估值 虽然上述简单的例子在

文档评论(0)

a888118a + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档