第七讲中文语料库.pptVIP

下载本文档

18
0
约2.12千字
约 17页
2017-08-17 发布于重庆
举报
版权申诉

第七讲中文语料库.ppt

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第七讲中文语料库.ppt

衡阳师院中文系古代汉语教研室 * 第六章中文语料库一、什么是语料库? 语料库通常指为语言研究收集的、用电子形式保存的语言材料，由自然出现的书面语或口语的样本汇集而成，用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实，分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。二、语料库产生的原因：（1）传统语言学研究方法的落后性是语料库语言学产生的内在动力。任何一项科学研究都是建立在大量资料之上的。资料占有的完备性、取样的准确性和使用的有效性是科学研究的一个基本条件和前提条件。语言学研究也必须建立在大量的语料基础之上。而传统语言学研究方法在搜集、处理语料方面有很大的局限性，表现在以下几个方面：一是语料的主观性强。传统语言学的研究方法是“内省”、“举例”方法，这种方法在很大程度上依赖于语言学家的主观经验。用带有浓厚主观色彩的语言事实作为立论的根据，往往是靠不住的。最原始、最可靠的语言证据只能来自使用中的客观语言材料。二是语料占有量小，覆盖面窄，代表性差。通过手工获得的语料从数量上不能得到充分的保证，致使其覆盖面不够大，自然代表性就差，由此得出的结论的科学性令人怀疑。三是语料整理工作量大，共享性不够，效率低。比如编一本《牛津英语词典》需要准备近500万张卡片，编《现代汉语词典》这样一部中型词典，资料卡片超过100万张。工作量之大可想而知。而且每一张卡片都是就某一项特定的要求制作的，不能移作他用，使用效率很低。而现代语料库存储的语料量大，具有充分代表性，而且存贮在磁盘上，并附有多功能检索系统，可根据多种不同的需要，从不同的角度，对语料进行重组，提高了语料的共享性。四是知识问题。一般语法著作和词典提供了语言知识。但是就汉语词典来看，没有哪一本大型汉语词典是带有词性标注的用法解释的。像英语的朗文词典和牛津词典那样的专门为外国人学习语言而编纂的详解词典，在国内还没有见到。这就给计算机进行汉语信息处理带来不便，迫切需要带有词性标记的语料库作基础，并进一步形成一个供计算机使用的语言知识库。（2）计算机的运算速度和存贮容量的大幅度增长是语料库得以发展的物质基础。计算机的运算速度快使得计算机语料库具有建库快、使用方便的优点。计算机语料库容量大使得计算机语料库具有占用空间小、成本低的优点。如果一个卡片盒装2000张卡片，编《现代汉语词典》的100万卡片需要500个卡片盒才能装下，而用30张5·25英寸盘则可全部装下，仅占1／3抽屉的面积。而且成本低，如果一张卡片1分钱，100万张卡片需要1万元，如果用磁盘存贮，每张磁盘7元钱，30张磁盘只需要210元。用其他介质则更优势明显。（3）语言信息处理的进一步发展，是语料库语言学产生的学科需要。从自然语言系统所需装备的语言知识来看，其数量之浩大和颗粒度之精细都是以往的系统所远远不及的。而且，随着系统拥有的知识在数量和精细程度上发生的巨大变化，系统在如何获取、表示和管理知识等依靠传统的研究是不能解决问题的，需要大规模真实文本语料库的支持。三、语料库的类型语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型：（1）异质的：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的：只收集同一类内容的语料；（3）系统的：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的：只收集用于某一特定用途的语料。除此之外，按照语料的语种，语料库也可以分成单语的、双语的和多语的。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。四、中文语料库的应用简介我国语料库的建设始于80年代，当时的主要目标是汉语词汇统计研究。进入90年代以后，语料库方法在自然语言信息处理领域得到了广泛的应用，建立了各种类型的语料库，研究的内容涉及语料库建设中的各个问题。 90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期，除了语言信息处理和言语工程领域以外，语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候，在自然语言理解和生成、机器翻译等研究中，分析语言的主要方法是基于规则的。对于用规则无法表达或不能