英国国家语料库简介.pptVIP

  • 20
  • 0
  • 约小于1千字
  • 约 9页
  • 2017-11-05 发布于江苏
  • 举报
英国国家语料库简介

英国国家语料库 British National Corpus 综述 1.语料搜集来源广泛 2.集口语和书面语为一体 3.20世纪后期英式英语的一个横截面 4.收词量—1亿 5.版本—BNC XML版,2007年 性质 1.系统性 2.单语 3.共时性 4.静态 5.异质 6.抽样搜集 语料分布 书面语(90%): 1.地方和全国性报纸 2.专业杂志和期刊 3.学术专著和通俗小说 4.发表和未发表的信件和备忘录 5.学院和综合性大学的论文 6.许多其他类型的文本 口语(10%): 1.经过正确转写的非正式谈话 2在不同语境中收集的口语语言 语料加工 标注 1.作者信息 2.停顿等外部信息 whether or not we fill those (pause) and transfer 3.语言本体,如词和句的处理通过颜色对词性以及句子成分进行标注 检索方法 1.单个单词检索直接输入单词原形,如want-want。 2.若加上“[]”、“*”、“﹖”、“=”等符号,则检索出单词其他各种形式和相关词。*代表任意多个字母,?代表一个字母。如:un*ly检索出的内容为un*ly unlikely, unusually 3.不同词性和词形有不同表示方法,如: vvg表示动词-ing形式,v表示动词,vvd表示各种动词的过去式 4.若word(s)和collocates一起检索,则word(s)里输入检索的单词,而collocates中的三项,第一项输入需要检索的项目,如词性。二三项的数字表示所需检索的项目的数目。如图: 检索项目: 检索结果: 优点及缺陷 1.该语料库对语料的标注采用的是国际通用标准化标注体系SGML,这种方法使标注错误率由3%减少到1%。 2.基于该语料库所做的研究所得的数据可靠性大。 3.然而标注的程度不够深,只进行简单和外部的标注。

文档评论(0)

1亿VIP精品文档

相关文档