Python数据分析 第3章文本基础处理.pptx

Python数据分析 第3章文本基础处理.pptx

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

文本基础处理2023/9/6

1语料库

2分词与词性标注

3命名实体识别

4关键词提取

目录

语料库概述

语料库是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具

有一定规模的语料集合。

1.语料库简介

语料库的实质是经过科学取样和加工的大规模电子文本库。语料库具备以下3个显著的特征。

·语料库中存放的是真实出现过的语言材料。

·语料库是以计算机为载体,承载语言知识的基础资源。

·语料库是对真实语料进行加工、分析和处理的资源。

语料库不仅仅是原始语料的集合,而且是有结构的并且标注了语法、语义、语音、语用等语言信息的语料

集合。

任何一个信息处理系统都离不开数据和知识库的支持,这点对于使用NLP技术的系统自然也不例外。在

NLP的实际项目中,通常要使用大量的语言数据或者语料。语料作为最基本的资源,尽管在不同的NLP系统中所起到的作用不同,但是却在不同层面上共同构成了各种NLP方法赖以实现的基础。

语料库概述

2.语料库的用途

语料库的产生起始于语言研究,,后来随着语料库功能的增强,它的用途变得越来越广,以下将从4个方面

阐述语料库的几大用途。

(1)用于语言研究

·语料库为语言学的研究提供了丰富真实的语言材料,在句法分析、词法分析、语言理论及语言史研究

中都起到了强大的作用。如今,人们对语料库内的语料进行了更深层次的加工处理,为语义学、语用学研究、会话分析、言语变体、语音科学及心理学研究等方面提供了大量支持。

语料库概述

(2)用于编纂工具参考书籍

·一些对语言教学有重要影响的词典和语法书均是在语料库的基础上编写的。例如,《朗曼当代英语词

典》第3版的编写利用了3个大型的语料库,分别是上亿词的BNC语料库、3000万词的朗曼兰开斯特语料库和朗曼学习者语料库。该词典中最常用词及频率、成语、搭配和例句等都是根据这三大语料库统计出来的。

(3)用于语言教学

·在语言教学中,语料库可以帮助减少课堂上学习的语言与实际使用的语言之间的差距,发现过去被忽

略的语言规律,能够更准确地理解一些词语在实际交际中的意义和用法,发现学习者使用语言时的一些问题。此外,语料库还可以用于语言测试、分析语言错误等用途。

语料库概述

(4)用于NLP

·语料库按照一定的要求加工处理后可以应用到NLP的各个层面的研究中。

·语料库在词层面上进行分词、词性标注后,可以用于词法分析、拼写检查、全文检索、词频统计、名词短

语的辩识和逐词机器翻译等。

·语料库在句层面上进行句法标注、语义标注后,可以用于语法检查、词义排歧、名词短语辩识的改进、机

器翻译等。

·语料库在语篇层面上进行语用层的处理后,可以用于解决指代问题、时态分析、目的识别、文本摘要和文

本生成等。

语料库概述

语料库概述

语料库包含的语言词汇、语法结构、语义和语用信息为语言学研究和NLP研究提供了大量的资料来源。

j语料库即是时代的产物1也是科技进步的成果,让处于大数据时代的人们得以拥有和享受语料库带来的便利。

产语料库的产生,既丰富了语言研究中词汇的数量、语法的形态及语句的结构,又让学习和研究语言的方式产生

了巨大的变化。各种随时代而兴起的技术也有了更为准确的语言研究基础。

语料库种类与原则

语料库的类型主要依据它的研究目的和用途进行划分。

根据不同的划分标准,语料库可以分为多种类型。

例如,按照语种划分,语料库可以分为单语种语料库和多语种语料库;按照记载媒体不同划分,语料库可

以分为单媒体语料库和多媒体语料库;按照地域区别划分,,语料库可以分为国家语料库和国际语料库等。

1.语料库种类

将语料库以语料库结构进行划分可分为平衡结构语料库与自然随机结构语料库,以语料库用途进行划分可分为

通用语料库与专用语料库,以语料选取时间进行划分可分为共时语料库与历时语料库。

(1)平衡结构语料库与自然随机结构语料库

平衡结构语料库的着重点是语料的代表性和平衡性,需要预先设计语料库中语料的类型,定义好每种类型语

料所占的比例并按这种比例去采集组成语料库。

例如,历史上第一个机读语料库布朗语料库就是一个平衡语料库的典型代表,它的语料按三层分类,严格设

计了每一类语料所占的比例。自然随机结构的语料库则是按照某个原则随机去收集组成语料,如《圣经》语料库、狄更斯著作语料库、英国著名作家作品库、北京大学开发的《人民日报》语料库等。

语料库种类与原则

(2)通用语料库与专用语料库

所谓的通用语料库与专用语料库是从不

文档评论(0)

chenzehao888 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档