Python中文自然语言处理基础与实战(课件)第2章 语料库.pptx

Python中文自然语言处理基础与实战(课件)第2章 语料库.pptx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语料库;;语料库是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料的集合。 语料库的实质是经过科学取样和加工的大规模电子文本库。 语料作为最基本的资源,尽管在不同的NLP系统中所起到的作用不同,但是却在不同层面上共同构成了各种NLP方法赖以实现的基础。 语料库具备如下3个显著的特征。 语料库中存放的是真实出现过的语言材料。 语料库是以计算机为载体,承载语言知识的基础资源。 语料库是对真实语料进行加工、分析和处理的资源。 ;用于语言研究:语料库为语言学的研究提供了丰富真实的语言材料,在句法分析、词法分析、语言理论及语言史研究中都起到了强大的作用。 用于编纂工具参考书籍:一些对语言教学有重要影响的词典和语法书均是在语料库的基础上编写的。 用于语言教学:在语言教学中,语料库可以帮助减少课堂上学习的语言与实际使用的语言之间的差距,发现过去被忽略的语言规律,能够更准确地理解一些词语在实际交际中的意义和用法,发现学习者使用语言时的一些问题。 用于NLP:语料库按照一定的要求加工处理后可以应用到NLP的各个层面的研究中。语料库在词层面上进行分词、词性标注后,可以用于词法分析、拼写检查、全文检索、词频统计、名词短语的辩识和逐词机器翻译等。 语料库包含的语言词汇、语法结构、语义和语用信息为语言学研究和NLP研究提供了大量的资料来源。 ;;平衡结构语料库与自然随机结构语料库。 平衡结构语料库:平衡结构语料库的着重点是语料的代表性和平衡性,需要预先设计语料库中语料的类型,定义好每种类型语料所占的比例并按这种比例去采集组成语料库。 自然随机语料库:自然随机结构的语料库则是按照某个原则随机去收集组成语料。 通用语料库与专用语料库。 通用语料库:通用语料库与专用语料库是从不同的用途角度上看问题得来的结果,其中不做特殊限定。 专用语料库:专用语料库的选材可以只限于某一领域,为了某种专门的目的而采集。只采集某一特定领域、特定地区、特定时间、特定类型的语料所构成的语料??即为专用语料库。;共时语料库与历时语料库。 共时语料库:共时语料库是为了对语言进行共时研究而建立的语料库,即无论所采集语料的时间段有多长,只要研究的是一个时间平面上的元素或元素的关系,具有共时性,则是共时研究。 历时语料库:历时语料库是为了对语言进行历时研究而建立的语料库,即研究一个历时切面中元素与元素关系的演化。根据历时语料库得到的统计结果是依据时间轴的等距离抽样得到的若干频次变化形成的走势图。;代表性:样本语料尽可能多地反映无限的真实语言现象和特征。 结构性:语料集合结构包括语料库中语料记录的代码,元数据项、数据类型、数据宽度、取值范围、完整性约束。 平衡性:平衡性是指语料库中的语料要考虑不同内容的平衡性。 规模性:大规模的语料库对于语言研究特别是对NLP研究具有不可替代的作用,但随着语料库的增大,垃圾语料带来的统计垃圾问题也越来越严重。因此在使用时,应根据实际的需要来决定语料库的规模。 ;;NLTK(Natural Language Toolkit)是一个用于构建处理自然语言数据的Python应用开源平台。 NLTK提供了超过50多个素材库和词库资源的易用接口,涵盖了分词、词性标注、命名实体识别、句法分析等各项NLP领域的功能。 NLTK支持NLP和教学研究,它收集的大量公开数据集和文本处理库,可以用于给文本分类、符号化、提取词根、贴标签、解析及语义推理等。 NLTK也是当前最为流行的自然语言编程与开发工具,在进行NLP研究和应用时,利用NLTK中提供的函数可以大幅度地提高效率。;NLTK模块及功能。;进入NLP虚拟环境。 安装NLTK库。 检查是否存在nltk库。 下载NLTK数据包。 右图为下载NLTK的book数据包,如图所示。 设置环境变量。 最后检查NLTK数据包是否安装成功。 ;NLTK中基本函数的使用方法如下。 similar函数搜索相似词语。 concordance函数搜索指定内容。 collocations函数搜索搭配词语。 common_contexts函数搜索共同上下文。 len函数统计文本的长度。 ;set函数获取文本的词汇表。 sorted函数对词汇表按照英文字母排序。 FreqDist函数查询文本中的词汇频数分布。 sorted函数对词汇表中的词按照英文字母进行排序。 dispersion_plot函数可绘制出指定词的分布以及在文本中出现的位置。 fdist.plot函数可绘制指定的常用词累计频率图。 ;;nltk中定义了许多基本语料库函数,详情见下表所示。;nltk中定义了许多基本语料库函数,详情见下表所示。;在NLTK语料库中可获取的集成文本语料库如下。 古藤堡语料库。 网络聊天文本。 即时消息聊天会话

文档评论(0)

孜孜不倦 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档