用Python进行自然语言处理图文教程(三).docxVIP

用Python进行自然语言处理图文教程(三).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用Python进行自然语言处理图文教程(三)

用Python进行自然语言处理(三)2014.7.302.2 条件分布概率在教程(一)中介绍了频率分布,给定某个词汇或其他项目的链表变量mylist,FreqDist(mylist)会计算链表中每个项目出现的次数。而条件频率分布是频率分布的集合,每个频率分布有一个不同的“条件”,这个条件通常是文本的类别。在上一节中,我们使用NLTK的ConditionalFreqDist数据类型实现的,FreqDist()是以一个简单的链表作为输入,ConditionalFreqDist是以一个配对的链表作为输入。 上面的例子只看两个文体:新闻和言情,对于每个文体,遍历文体中的每个词以产生文体与词的配对,通过genre_word[ ]显示出来。使用此配对链表创建一个ConditionalFreqDist,并将它保存在一个变量cfd中,通过cfd[ ]来访问这两个条件,每一个都只是一个频率分布。使用双连词生成随机文本可以使用条件频率分布创建一个双连词表,bigrams()函数接受一个词汇链表,并建立一个连续的词对链表。2.3 使用文本编辑器创建程序在Python交互式解释器中输入一条命令就执行,如果要组织多条程序,然后一次运行,,可以使用文本编辑器执行。通过“文件”菜单打开一个新的窗口,或者使用快捷键“Ctrl+N”。使用.py后缀名保存文件。函数Python语言的函数同其他语言一样,参数,返回值,局部变量等。模块随着你创建自定义的函数越多越多,有以下代码可以重复使用,定义过的函数不必重新复制,可以将它们收集在一个单独的地方,形成一个函数模块,使用的时候导入即可。From python.py(模块名) import function(函数名) 2.4 词典资源词典或词典资源是一个词和或短语以及一些相关信息的几个,如词性和词意定义等相关信息,复杂的词典资源包括字词汇项内和跨词项的复杂的结构。看一下NLTK中的一些词汇资源:词汇列表语料库NLTK包括一些仅仅包含词汇列表的语料库,被一些拼写检查程序使用,可以用它来寻找文本预料中不寻常的或拼写错误的词汇。还有一些停用词语料库,就是那些高频词汇,停用词通常没设么词汇内容,反而会使区分文本变得困难。另一个词汇列表是名字语料库,下面的例子找出同时出现在两个文件中的名字即性别暧昧的名字:如下图所示,此图显示男性和女性名字的结尾字母,大多数以a,e或i结尾的名字是女性,以h和l结尾的男性和女性同样多,以K,o,r,s和t结尾的更可能是男性。发音的词典比较词汇表格词典的另一个例子是比较词表,NLTK中包含了所谓的斯瓦迪士核心词列表,通过在entries()方法中指定一个语言链表来访问多语言中的同源词,更进一步,我们可以用函数dict()把它转换成一个简单的词典。通过添加其他源语言,我们可以让我们这个简单的翻译器更为有用,让我们使用dict()函数把德语—英语和西班牙语—英语对相互转换成一个词典,然后用这些添加的映射更新我们原来的翻译词典:词汇工具:Toolbox和Shoebox一个Toolbox文件由一个大量条目的几个组成,其中每个条目由一个或多个字段组成,大多数字段都是可选的或重复的,这意味着这个词汇资源不能作为一个表格或电子表格来处理。2.5 WordNetWordNet是面向语义的英语词典,类似于传统词典,但具有更丰富的结构,NLTK中包括英语WordNet。意义与同义词WordNe的层次结构WordNet的同义词集对应于抽象的概念,它们并不总是有对应的英语词汇,这些概念在层次结构中相互联系在一起,一些概念也很一般,如实体,状态,事件。这些被称为独一无二的根同义词集。WordNet概念层次片段,每个阶段对应一个同义词集,边表示上位词和下位词关系,即上级概念和从属概念的关系。更多的词汇关系上位词和下位词被称为词汇关系。语义相似度

文档评论(0)

tianma2015 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档