- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
语料库主讲教师:王跃光
语料库概述0203语料库种类语料库构建原则0104本讲小结
0101语料库概述
语料库概述语料库的实质是经过科学取样和加工的大规模电子文本库。语料库具备以下3个特征。(1)语料库中存放的是真实出现过的语言材料。(2)语料库是以计算机为载体,承载语言知识的基础资源。(3)语料库是对真实语料进行加工、分析和处理的资源。除了是原始语料的集合,语料库还是有结构的并且标注了语法、语义、语音、语用等语言信息的语料集合。在NLP的实际项目中,通常要使用大量的语言数据或者语料。语料作为最基本的资源,尽管在不同的NLP系统中所起到的作用不同,但是却在不同层面上共同构成了各种NLP方法赖以实现的基础。1.语料库简介
语料库概述下面将从4个方面阐述语料库的用途。(1)语言研究语料库为语言学的研究提供了丰富真实的语言材料,在句法分析、词法分析、语言理论及语言史研究中都起到了强大的作用。(2)编纂工具参考书籍对语言教学有重要影响的词典和语法书大部分是在语料库的基础上编写的。例如,《朗曼当代英语词典》第3版的编写利用了3个大型的语料库,分别是上亿词的BNC语料库、3000万词的朗曼兰开斯特语枓库和朗曼学习者语料库。2.语料库的用途
语料库概述(3)语言教学在语言教学中,语料库可以帮助减少课堂上学习的语言与实际使用的语言之间的差距,发现过去被忽略的语言规律,能够更准确地理解一些词语在实际交际中的意义和用法,发现学习者使用语言时的一些问题。(4)用于NLP语料库按照一定的要求加工处理后可以应用到NLP的各个层面的研究中,例如在词层面上进行分词、词性标注,在句层面上进行句法标注、语义标注,在语篇层面上进行语用层的处理。
02语料库种类02
语料库种类根据不同的划分标准,语料库可以分为多种类型。例如,以语料库用途进行划分可分为通用语料库与专用语料库,将语料库以语料库结构进行划分可分为平衡结构语料库与自然随机结构语料库,以语料选取时间进行划分可分为共时语料库与历时语料库。1.通用语料库与专用语料库所谓的通用语料库与专用语料库是从不同的用途角度上看问题得来的结果。通用语料库不做特殊限定,专用语料库的选材可以只限于某一领域,为了某种专门的目的而采集。
语料库种类2.平衡结构语料库与自然随机结构语料库平衡结构语料库的着重点是语料的代表性和平衡性,需要预先设计语料库中语料的类型,定义好每种类型语料所占的比例并按这种比例去采集组成语料库。自然随机结构的语料库则是按照某个原则随机去收集组成语料。3.共时语料库与历时语料库共时语料库是为了对语言进行共时研究而建立的语料库,即无论所采集语料的时间段有多长,只要研究的是一个时间平面上的元素或元素的关系,则是共时研究。历时语料库是为了对语言进行历时研究而建立的语料库,即研究一个历时切面中元素与元素关系的演化。
03语料库构建原则03
语料库构建原则建设语料库的时候,一般需要保证语料库具有以下4个特性。1.代表性:在一定的抽样框架范围内采集的样本语料尽可能多地反映无限的真实语言现象和特征。2.结构性:收集的语料必须是计算机可读的电子文本形式的语料集合。语料集合结构包括语料库中语料记录的代码、元数据项、数据类型、数据宽度、取值范围、完整性约束。3.平衡性:语料库中的语料要考虑不同内容或指标的平衡性,如年代、地域、学科、使用者的年龄、性别、文化背景、阅历等指标。一般建立语料库时,需要根据实际情况选取其中的一个或者几个重要的指标作为平衡因子。
语料库构建原则4.规模性:大规模的语料库对于语言研究特别是对NLP研究具有不可替代的作用,但随着语料库的增大,垃圾语料带来的统计垃圾问题也越来越严重。而且当语料库达到一定的规模后,语料库的功能不能随之增长。因此在使用时,应根据实际的需要决定语料库的规模。
04本讲小结04
本讲小结本节主要介绍一些与语料库相关的知识。首先介绍了语料库的基本概念和用途;其次介绍了语料库的种类;最后介绍了语料库构建原则。
语料库主讲教师:王跃光
您可能关注的文档
最近下载
- 2026年春人教版新版八年级下册英语单词表(每日背默共22天).pdf VIP
- 中考生物总复习题型突破1识图题.pptx VIP
- 浅谈火场供水存在的主要问题及对策.doc VIP
- 中考生物总复习(冀少版)精品:重要题型突破 题型:识图题.ppt VIP
- 中考生物总复习(冀少版)精品:重要题型突破 题型:实验探究题.ppt VIP
- 兴国宾馆深度能源审计综合报告.pdf VIP
- 第二章 生物的遗传和变异(章末复习课件)-八年级生物下册(冀少版).pptx VIP
- 2020-2024伊利集团四大能力(指标细化)配套word15页7114字数.docx VIP
- 电费电价培训.pptx
- 初三化学2025年上学期期末综合试卷(含答案).docx VIP
原创力文档


文档评论(0)