- 20
- 0
- 约小于1千字
- 约 9页
- 2017-11-05 发布于江苏
- 举报
英国国家语料库简介
英国国家语料库
British National Corpus
综述
1.语料搜集来源广泛
2.集口语和书面语为一体
3.20世纪后期英式英语的一个横截面
4.收词量—1亿
5.版本—BNC XML版,2007年
性质
1.系统性
2.单语
3.共时性
4.静态
5.异质
6.抽样搜集
语料分布
书面语(90%):
1.地方和全国性报纸
2.专业杂志和期刊
3.学术专著和通俗小说
4.发表和未发表的信件和备忘录
5.学院和综合性大学的论文
6.许多其他类型的文本
口语(10%):
1.经过正确转写的非正式谈话
2在不同语境中收集的口语语言
语料加工
标注
1.作者信息
2.停顿等外部信息
whether or not we fill those (pause) and transfer
3.语言本体,如词和句的处理通过颜色对词性以及句子成分进行标注
检索方法
1.单个单词检索直接输入单词原形,如want-want。
2.若加上“[]”、“*”、“﹖”、“=”等符号,则检索出单词其他各种形式和相关词。*代表任意多个字母,?代表一个字母。如:un*ly检索出的内容为un*ly unlikely, unusually
3.不同词性和词形有不同表示方法,如:
vvg表示动词-ing形式,v表示动词,vvd表示各种动词的过去式
4.若word(s)和collocates一起检索,则word(s)里输入检索的单词,而collocates中的三项,第一项输入需要检索的项目,如词性。二三项的数字表示所需检索的项目的数目。如图:
检索项目:
检索结果:
优点及缺陷
1.该语料库对语料的标注采用的是国际通用标准化标注体系SGML,这种方法使标注错误率由3%减少到1%。
2.基于该语料库所做的研究所得的数据可靠性大。
3.然而标注的程度不够深,只进行简单和外部的标注。
原创力文档

文档评论(0)