- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息熵 (Entropy) 实际上可能不需要5次就能猜出谁是冠军,因为一些强队得冠的可能性更高,因此第一次猜测时可以把少数几支强队分成一组,其它球队分成另一组,然后猜冠军球队是否在那几支强队中 这样,也许三次或四次就能猜出结果。因此,当每支球队夺冠的可能性(概率)不等时,这条信息的信息量比5比特少 香农指出,它的准确信息量应该是 p1,p2,...,p32分别是这32支球队夺冠概率,香农把它称作信息熵,单位为比特; 可以算出,当32支球队夺冠概率相同时,对应的信息熵为5比特。 信息熵 (Entropy) 对于任意一个随机变量X(比如夺冠球队),它的熵定义为 变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大 TF-IDF的信息论依据 衡量一个词的权重时,一个简单的办法就是用每个词的信息量作为它的权重,即 其中N是整个语料库大小,是个可以省略的常数,因此公式可简化成 TF-IDF的信息论依据 但是这个公式有个缺陷,两个词出现的频率TF相同,一个是某特定文章中的常见词,而另一个是分散在多篇文章中,显然第一个词有更高的分辨率,它的权重应更大。 更好的权重公式应反映出关键词的分辨率。 TF-IDF的信息论依据 如果做一些理想的假设, (1) 每个文献大小基本相同,均为M个词,即 (2) 一个关键词一旦在文献中出现,不论次数多少,贡献都等同,这样一个词在文献中要么出现 c(w) = TF(w) / Dw 次,要么出现零次。注意,c(w) M TF-IDF中的-是连字符, 不是代表相减。 TF-IDF的信息论依据 因为 c(w) M,因此 M/c(w) 1,故等式右边第二项大于零, 且 c(w) 越大,第二项越小,c(w) 越小,第二项越大 可以看到,一个词的信息量 I(w) 越大,TF-IDF值越大; 出现频率相同的一个词, 越分散在多篇文档中,其平均出现次数越小,第二项越大,TF-IDF值越小; 反之,越集中出现,其平均出现次数越大,第二项越小,TF-IDF值越大。 这些结论和信息论完全相符。 主要内容 文本分类及文档的特征向量 余弦相似度 使用分类算法进行文本分类 逆文档频率 TF-IDF TF-IDF的信息论依据 浅谈中文分词 分词 在对文档转化为特征向量时,需要对文档内容进行分词,将文档转化成一个个词条(token)的列表,这个过程称为词条化(tokenization) The quick brown fox jumps over the lazy dog the quick brown fox jump over the lazy dog quick brown fox jump over lazy dog 中文分词 中国航天官员应邀到美国与太空总署官员开会 中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会 ? 中文分词 最简单的办法是“查字典”:从左向右扫描句子,遇到字典里有的词就标识出来,遇到复合词就找最长匹配(如“上海大学”),遇到不认识的字串就分割成单字词(有限状态机) 中/国航天官员 中国/航天官员 中国/航/天官员 中国/航天/官员 中国/航天/官/员 中国/航天/官员/ 中文分词 这个简单的方法可以解决七八成的分词问题,但毕竟太简单,稍微复杂一点的情况就无能为力了。例如当遇到有二义性(有双重理解意思)的分割时: 发展中国家 发展/中国/家 X 上海大学城书店 上海大学/城/书店 X 北京大学生 北京大学/生 X 中文分词 能否让计算机像人类一样去理解自然语言? 例如,句子“徐志摩喜欢林徽因。”可分为主语、动词短语(即谓语)和句号三部分,对每个部分进行分析,得到如下的语法分析树(编译器) 中文分词 分析它采用的文法规则通常被计算机科学家和语言学家称为重写规则(Rewriting Rules),具体到上例,重写规则为: 句子 - 主语谓语句号 主语 - 名词 谓语 - 动词 名词短语 名词短语 - 名词 名词 - 徐志摩 动词 - 喜欢 名词 - 徐志摩 句号 - 。 中文分词 20世纪80年代以前,自然语言处理工作中的文法规则都是人写的。科学家原以为随着对自然语言语法概括得越来越全面,同时计算能力的提高,这种方法可以逐步解决自然语言理解的问题。 但这种想法很快遇到了麻烦。从前面例子中的图可看出,句法分析很啰唆:一个短短的句子居然分析出这么一个复杂的树结构,居然需要八条文法规则。 中文分词 一个更真实的句子: 美联储主席本?伯南克昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽
文档评论(0)