刘春阳 语料库研究方法概要.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章 语料库研究方法概要 1. 语料库研究方法简介 语料库语言学是20世纪50年代就流行的,以实证和统计为主要手段的研究方法 根据研究中对语料库依赖程度的不同,分为: 1)语料库指导的方法(corpus-informed approach) 2)基于语料库的方法(corpus-based approach) 3)语料库驱动的方法(corpus-driven approach) 1)语料库指导的方法(corpus-informed approach) Michael McCarthy在多年编写教学材料过程中,倡导:对语料库进行分析,得到各种词语、搭配和结构在预料库中的出现频率、使用场合、语体等信息,然后在这些信息的指导下编写合适的教学材料。 2)基于语料库的方法(corpus-based approach) 由研究者根据以往的语言研究成果或对语言的认识,首先提出假设,然后到语料库中去验证假设。 假设是否成立取决于语料库中的语言实例 一些传统的概念和理论被进一步验证或延伸 以概率为基础,是统计学和实证研究方法在语料库语言学领域的具体应用 验证假设法(hypothesis-testing) 3)语料库驱动的方法(corpus-driven approach) 对语料库进行分析之前无任何假设 对语料库中的所有例证进行穷尽性分析和归类,得出有关语言使用情况的假设乃至结论。 基本程序“观察—假设—归纳—理论整合” 探索/描述法(exploratory/descriptive) 2)基于语料库的方法(corpus-based approach) 提出研究假设 确定可靠的分类体系和操作方案 选定或建立合适的语料库 选定合适的语料库处理工具 相关语言特征的标注和提取 统计分析 数据的解释 得出结论 A. 提出研究假设 研究假设:是对有关自变量(independent variable)和因变量(dependent variable)之间关系的一种预测(prediction) 例: 假设一:被动语态是学术英语的重要特征; 假设二:被动语态的使用频率与学习者作文的质量有关 B. 确定可靠的分类体系和操作方案 分类:同样的事物可以采用不同的分类方法 操作化:选择合适的方式对某种概念性的东西进行测量,进行量化研究。适用于大多数实证研究。 例: 被动态可分为长被动结构(带by+施动者)和短被动结构 也可以按其中的助动词是否有be动词来分 The road is being repaired. He got injured in an accident. C. 选定或建立合适的语料库 中国英语学习者语料库 英国国家语料库 比较:观察语料库(observed corpus) 参照语料库(reference corpus) *用于比较的两个语料库应该在尽可能多的维度上具有一致性。(中国学生的英语作文与美国英语口语×) D. 选定合适的语料库处理工具 通用语料库处理工具:功能全面,处理纯文本(AntConc, WordSmith Tools) 专用语料库处理工具:处理特定格式的语料库(如XML格式) 自行开发的专用语料库工具:特定研究目的 E. 相关语言特征的标注和提取 生文本(词汇、搭配、语义韵等) 自动或手工标注(词性标注、句法标注、错误标注等) 标注之后,提取相关特征所出现的频数、语境等相关信息。频数分析是进一步分析的基础。 F. 统计分析 卡方检验(不需标准化,也可比较) 对数似然率(不需标准化,也可比较) 相关性分析 频数标准化处理(normalization),得到标准化频率,然后进一步比较和分析 聚类分析(cluster analysis) 对应分析(correspondence analysis) 相关分析(correlation analysis) 多元回归(multiple regression) G. 数据的解释 统计分析后,可以发现两个语料库之间存在显著差异或某种相关性 结合理论和前人的相关研究成果,对所得数据作出解释 对于同样的数据,不同的研究者基于不同的理论对数据作出不同的解释,重在自圆其说。 H. 得出结论 结论一般只有两种可能性 假设成立或不成立 2. 语料库研究方法的局限性及研究创新 1)学科属性及定位问题 人文学科 or 自然科学 是否已达到独立学科的地位 2)语料库驱动方法 or 基于语料库的方法 以往语言学研究模式:我的思想、我的框架、我的例子(例子为理论服务,甚至临时想出来一个) Sinclair主张“干净文本原则”,对语料附码不以为然 Tognini-Bonelli提出语料库驱动这一主张,排斥使用先验的理论和分类框架进行语料库研究的

文档评论(0)

一天一点 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档