语料库语言学ppt语料库语学ppt言学ppt.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语料库语言学ppt语料库语学ppt语料库语言学ppt语料库语言学ppt

语料库语言学 Corpus Linguistics 张凤云 语料库语言学的定义 什么是语料库? 语料库(corpus,复数形式corpora)顾名思义就是存放语言材料的仓库(或数据库)。现指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的文本。 什么是语料库语言学? 作为一个学科的名称 “语料库语言学”与“语法学”或“语义学”不同,它不属于语言自身某个侧面的研究,而是一种以语料库为基础的语言研究方法。它实际上包括两方面的内容:一是对自然语料进行加工、标注;二是用已经标注好的语料进行语言研究和应用开发。 语料库语言学的发展史 一般以乔姆斯基(N.Chomsky)转换生成语法的兴衰史为参照点,将语料库语言学的发展史大致分为三个时期: 早期的语料库语言学 乔姆斯基的转换生成语法时期 语料库语言学的复苏时期 早期的语料库语言学 早期的语料库语言学是指20世纪50年代中期以前,即以乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。在50年代,语料库语言学曾被广泛使用,主要集中体现在以下几个方面: 1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究 乔姆斯基的转换生成语法时期 1957年乔姆斯基《句法理论》及其以后一系列论著的发表,根本改变了语料库语言学的早期发展状况。在这段时期中,笛卡尔的理性主义占据主导地位,经验主义几乎无立足之地,被视为经验主义产物的各种语料库自然被完全否定。 语料库语言学的复苏时期 80年代以来,语料库语言学在相对沉寂了近20年后,开始复苏,并得到迅速发展。主要表现在下面两方面。 (1)第二代语料库的相继建成。 1)LOB 2)TLF 3)赫尔辛基历史英语语料库 4)ICE (2)基于语料库的研究项目增多。 1959-1991年语料库研究项目统计表 语料库语言学的主要研究内容 语料库的建设与编纂 语料库的加工和管理技术 语言研究中语料库的使用 语料库在计算语言学中的应用 语料库设计和编纂中的问题 语料库设计和编纂的出发点是:如何使得在其基础上开展的语言调查是合理的和可靠的。因此Kennedy(1998)指出了语料库设计师所面临的最基本问题:这个语料库所采集的语言数据是否真正代表了某种期望的语言或语体。在语料库的建设和编纂过程中应考虑的问题包括: (1)静态与动态 (2)代表性和平衡 (3)规模 语料库的加工和管理技术 主要是指用于语料分析、标注、维护和检索软件的工具。语料库不仅仅是文本的集合,它应该具有良好的存取性能,一边是各种研究人员都能从中检索出自己需要的信息。因此语料的检索是其中一项重要的工作。 目前普遍使用的检索技术: 1)逐词索引(concordance) 2)词簇(cluster) 3)搭配(collacates) 4) 词表(word list) 5)关键词表(keyword list)27 语言研究中语料库的使用 1.言语研究: (1)语言学理论 。 (2)语言史研究。 (3)句法、词法及自动语法分析。 2.词汇研究: 编纂词典及工具参考书。 3.语义学 4.语用学和话语分析(很少) 4.社会语言学 5.心理语言学 6.外语教学 语料库语言学在计算语言学中的应用 20世纪90年代以来在自然语言处理(NLP)和计算语言学的研究中,语料库方法和统计语言模型迅速崛起,成为主流技术。主要用法如下: 1)汉语文本中交集型切分歧义的研究 2)汉语基本名词短语识别研究 3)基于结构词义空间的汉语词义排歧模型 语料库的分类 按应用取向分为:通用型和专用型语料库 按信道分为:笔语和口语语料库 按语言属性分为:单语、双语、多语语料库 按语言变体分为:本族语、译语、学习者语料库 按时间分为:共时和历时语料库 按语料状态分为:静态和监控语料库 国外语料库的介绍 国内语料库介绍 汉语现代文学作品语料库(1979年),527万字,武汉大学 现代汉语语料库(1983年),2000万字,北京航空航天大学 现代汉语词频统计语料库(1983年),182万字,北京语言大学 台湾中央研究院平衡语料库,500万词,是世界上第一个带有完整词类标记的汉语平衡语料库。 中文五地区共时语料库(1995年),香港城市大学 汉语精加

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档