词频分析法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词频分析法

一、词频    【释义】:一定范围的语言材料中词的使用频率。 TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。 原理   在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语 ti 来说,它的重要性可表示为:   以上式子中 ni,j 是该词在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。   逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到 例子   有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 9.21 ( ln(10,000,000 / 1,000) )。最后的TF-IDF的分数为0.28( 0.03 * 9.21)。 奥巴马大脑兴奋点就职演说词频分析“语言是思维的外壳,思维是语言的内核”。 从词频统计分析,奥巴马就职演说“可见一斑”——奥巴马大脑的兴奋点。 一、“范围”词频: 国家32,美国29,世界6,种族3,星球2,地球1。 二、“主体”词频: 我们119,我们的28,总统20,自己11,先辈们9,个人7,美国人6,我的3,美国总统3,美国人民3,美国国家2,美国历史1,美国政治1,美国政府1,先驱者1。 三、“社会”词频: 经济26,新22,危机15,社会9,今天9,工作8,问题8,挑战7,伟大7,自由7,信仰7,创造6,为了我们5,一代5(如这一代、下一代、一代代、一代人),市场5,选择5,生活5(如新生活,生活得更美好、生活方式),战争5,严重5,理想4,希望4,重要4,价值4,权利4,政治4,医疗4,和平4,上帝3,给与3,感谢3,失去3,必须3,服务3,作用3,追求3,承诺3,支持3,繁荣3,强大3,安全3,负责任2,改革2,富强1,能源2,严峻2,困难2,奇迹2,语言2,团结2,战斗2,战胜2,生产2,风险2,复苏2,富裕2,就业1,恐怖1,难关1,衰落1,矛盾1,生命1,学校1,教育1,文化1,战士1,英雄1,得到1,财富1,发展1,科学1,科技1,慈善1,贫富1,前进1,平等1。 四、“心理”词频: (1)“正性”心理行为相关词频: 责任7,面对6,开始6,勇气5、能力4,精神4(如坚韧精神),坚定3,自信3,忠诚2,信任2,牺牲2,行动2,命运2,力量2,更好2,目标2,雄心2,人性1,性格1,品德1,慷慨协作1,合作1,感激1,幸福1,快乐1,满足1,身份1,没有屈服1,没有逃避1,野心1,贡献1,慷慨1,勤奋1、诚实1、公平竞争1、包容1,好奇心1。 (2)“负性”心理行为相关词频: 削弱4,威胁3,冲突2,紧张2,暴力1,敌对1,侵蚀1,吞噬1,妥协1,贪婪1,不负责任1,憎恨1,仇恨1,恐惧1,(歧视0)。 顶:9

文档评论(0)

liudao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档