- 1、本文档共83页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语料库的设计与开发
第二讲 语料库的设计和开发 统计的一些基本概念 语料库的设计与开发 语料库设计与编纂 建设一个语料库 语料库的类型 国外语料库介绍 汉语语料库介绍 从事语料库语言学研究的人员首先面临的任务是建立语料库。他们必须对语料库应该包含哪些语料以及如何组织这些语料等问题作出决定,并且能够控制以后在使用语料库的过程中将要发生的事情。语言学家则要能够处理语料中的任何语言实例。 语料库设计与编纂中的问题 出发点是:如何使得在其基础上开展的语言调查是合理的和可靠的。 Kennedy(1998)指出了语料库设计师所面临的最基本问题:这个语料库所采集的语言数据是否真正代表了某种期望的语言或语体。语料库的建设与编纂过程中应考虑的问题包括: 1) 语料库是语言的静态样本还是动态样本? 2) 多大程度上可以成为语言或语体的代表? 3) 为了满足某种研究目的,语料库规模应该多大? 4) 应该包含多少个样本,每个样本应该多大? 静态与动态 (1) 一个语料库可以是以某种方式采集的文本的静态集合,其目的是成为整个语言或在某一特定时期语言的一个代表。 例如,SEU语料库试图以静态方式在不同使用领域的口语和书面语材料中选择英国英语的样本,使语料库可以作为英语共时的代表。设计这样的语料库,需小心处理如下问题:特定的体裁、特定的样本规模等 1985年夸克(Quirk)出版的英语语法大全是以SEU为基础编撰的。他认为SEU语料库是英国英语的一种快照,语料库象一幅风景照,目的是抓住风景的主要特征。只收集主要的体裁,并非所有语言现象。 设计者采用固定数目的样本和文本类型加以构造,样本语料库可以方便地同其他构造相似的语料库进行对比。 静态与动态(2) 动态的(监督的 monitor)语料库象一部动画,而不是一幅快照。因为它提供了一种方法来观察语言用法模式随时间变异的情况。大量收集某一时期内的文本,然后通过软件在这些文本中找出与描写目的有关的统计信息,进而对观察的语言现象作出总结。 例如,新的结构或词型的出现,或者老词型的用法或搭配发生了改变等。 动态文本集,将随着新文本的加入而不断增容和变化。因此不适宜在不同语料库之间进行对比研究。 数据的收集通常是随遇的,不一定“平衡”,对文本数量的关注取代了采样计划的精心设计。其中包括文本的收集、存储和处理等。 代表性与平衡(1) 选择什么样的文本进行语料库才能达到合理性和可靠性的要求?目前还没有公认答案! 里奇(1991)曾指出,一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。 早期Brown和LOB语料库分别视为美国英语和英国英语在特定时期的代表 语料库究竟是“什么的代表”?尽管一个样本不足以代表一种特定的体裁或主题,而有大量各类样本组成的一个语料库可以成为一种语言的代表。 代表性与平衡(2) 在一个语料库中,如何达到不同部分之间的平衡? 书面语和口语的平衡 体裁的比例平衡 语料库中,平衡不能简单解释为文本的不同来源,比如说让口语与书面语的文本总数相等 辛克莱(1991)建议对一个一般的书面语语料库,在选择文本方面的最低准则至少应区别小说和非小说;书本、期刊或报纸等等 代表性与平衡(3) 萨默斯(1991)总结了一些选择书面语的方法,实际采用这些方法的某种组合,用流通度和影响力等来指导 基于学术价值或“影响力” 随机采样 作品流通度或文本被阅读的广泛程度 人们阅读习惯的统计采样 依据语言说明进行文本选择的经验等 指定年度或期限来选择文本 汉语语料库的建设者大部分采用的是按题材和体裁来进行 规模(1) 规模和代表性代表了语料库的合法性和可靠性,但需要强调指出,语料库不管多大,同语言的总体相比仍是微不足道的。 辛克莱(1991)建议,1000-2000万词次可以构造一个有用的、小型语料库,但若要对语言总体做出可靠的描述,这样的规模仍嫌太小。 即使构造出十亿词次的语料库,对于一个大型词表中的大多数词型来说,仍然会显示出相当严重的稀疏信息。 语料并非越多越好 规模(2) 齐夫(Zipf’s)律,若按照词频f由高到低的排列顺序给语料库中每个词指派一个由小到大的整数秩(rank),则f与r近似成反比,即 f * r = k 极少数高频次的出现次数已经覆盖了语料库总词次数的绝大部分,而词(型)总数中大约一半的词在这个语料库中却只出现一次。 齐夫律不仅适用于一种语言的词汇分布,也反映了句法规则的分布状态。极少数常用句法规则覆盖了语料库中绝大多数的句法结构现象,而很多规则只出现一次。并且,语料库规模的扩大,句法规则的数目也不断增长,与乔姆斯基的著名假设—句法规则数目的有限性和句子数目的无限性,提出了挑战。 规模(3) 对一个语言项来说,为了达到描写的充分性,究竟
您可能关注的文档
- 认识亿级与万级的数.ppt
- 计算机网络与Internet的基础知识.ppt
- 计量仪器管理与校准培训与相关制度.ppt
- 认真学习宣传与....ppt
- 认识含有万级与个级的数.ppt
- 认识物体与图形_00002.ppt
- 认识厘米与米第一课时.ppt
- 认识厘米与用厘米量课件.ppt
- 认识整千数与一万.ppt
- 认识身体部位-头肩膀膝盖与脚趾.pptx
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
最近下载
- 2024年河北省高考英语试卷(含答案解析).docx
- 特色办学建设规划及实施方案.doc VIP
- 惠州市2024届高三第三次调研考试(三调)语文试卷(含答案).pdf
- 2021年农产品商贸流通专业群人才培养方案(高职).pdf
- 热血三国秒墙计算器.pdf VIP
- 教育调查与研究报告大学.docx VIP
- 《急诊与灾难医学》第十章 急性中毒.pptx
- 2024年高考真题和模拟题英语分类汇编:专题10 完形埴空(新高考15空) (原卷版) (全国通用).docx VIP
- 大唐国际胜利东二号露天煤矿采场边坡稳定性分析-采矿工程专业论文.docx
- 2024年新入职护士培训考试题库资料800题(含答案).pdf
文档评论(0)