英国国家语料库简介.pptVIP

下载本文档

20
0
约小于1千字
约 9页
2017-11-05 发布于江苏
举报

英国国家语料库简介.ppt

英国国家语料库简介

英国国家语料库 British National Corpus 综述 1.语料搜集来源广泛 2.集口语和书面语为一体 3.20世纪后期英式英语的一个横截面 4.收词量—1亿 5.版本—BNC XML版，2007年性质 1.系统性 2.单语 3.共时性 4.静态 5.异质 6.抽样搜集语料分布书面语（90%）： 1.地方和全国性报纸 2.专业杂志和期刊 3.学术专著和通俗小说 4.发表和未发表的信件和备忘录 5.学院和综合性大学的论文 6.许多其他类型的文本口语（10%）: 1.经过正确转写的非正式谈话 2在不同语境中收集的口语语言语料加工标注 1.作者信息 2.停顿等外部信息 whether or not we fill those (pause) and transfer 3.语言本体，如词和句的处理通过颜色对词性以及句子成分进行标注检索方法 1.单个单词检索直接输入单词原形，如want-want。 2.若加上“[]”、“*”、“﹖”、“=”等符号，则检索出单词其他各种形式和相关词。*代表任意多个字母，？代表一个字母。如：un*ly检索出的内容为un*ly unlikely, unusually 3.不同词性和词形有不同表示方法，如： vvg表示动词-ing形式，v表示动词，vvd表示各种动词的过去式 4.若word（s）和collocates一起检索，则word（s）里输入检索的单词，而collocates中的三项，第一项输入需要检索的项目，如词性。二三项的数字表示所需检索的项目的数目。如图：检索项目：检索结果：优点及缺陷 1.该语料库对语料的标注采用的是国际通用标准化标注体系SGML，这种方法使标注错误率由3%减少到1%。 2.基于该语料库所做的研究所得的数据可靠性大。 3.然而标注的程度不够深，只进行简单和外部的标注。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

英国国家语料库简介.pptVIP