- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
“兰卡斯特汉语语料库”介绍1
许家金
(北京外国语大学中国外语教育研究中心,北京100089,北京)
提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概
况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语
对比研究,同时也适合汉语研究。
关键词:汉语语料库;LCMC;对比研究
1.0前言
“兰卡斯特汉语语料库”(TheLancasterCorpusofMandarinChinese,简称LCMC)
系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB
(Freiburg-LOBCorpusofBritishEnglish)模式编制,它的建成有助于开展基于语料库的
汉语单语或汉英(英汉)双语对比研究及汉语研究。
2.0LCMC语料库概况
LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉
语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目
ContrastingTenseandAspectinEnglishandChinese的部分成果。肖忠华最初的设想是
要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个
动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语
语料库2。
2.1取样模式与文本收集
考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象。一
方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同
LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最
后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于
同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可与美国英语
进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型(见表1)中
选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。
LCMC的筹建基本上是严格按照FLOB的取样模式进行,只在两个方面做了微调。
第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武
侠小说”。一方面由于中国没有所谓的“西部小说”,另一方面,“武侠小说”和“西部和历险小说”
从内容性质上同属一类,且在中国这一类小说中数量众多,因此有充足理由将其收入LCMC
中。
表1:LCMC取样范畴表
代码取样类型代码取样类型
A新闻报道J学术、科技
B社论K一般小说
C新闻评论L侦探小说
1
D宗教M科幻小说
E技术、商贸N武侠小说
F通俗社会生活P爱情小说
G传记和杂文R幽默
H其他:报告和公文等
第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991年前后各两年
(即1989到1993年)的跨度范围(详见表2)。他认为前后两年的幅度并不会影响整个
语料的同质性。为保证取样内容的同质性,LCMC中选取的都是
文档评论(0)