兰开斯特汉语语料库介绍.docVIP

下载本文档

16
0
约4.76千字
约 4页
2015-08-09 发布于湖北
举报
版权申诉

兰开斯特汉语语料库介绍.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

兰开斯特汉语语料库介绍.doc

兰开斯特汉语语料库介绍北京外国语大学许家金 1.0 前言兰开斯特汉语语料库（The Lancaster Corpus of Mandarin Chinese，简称LCMC）是在Tony McEnery教授指导下，由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担，由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOB Corpus of British English（即FLOB）模式编制的汉语书面语语料库，它的建成有助于我们从事基于语料库的汉语单语或汉英（英汉）双语的对比研究。 2.0 LCMC语料库概况 LCMC是一个100万词次（按每1.6个汉字对应一个英文单词折算）的现代汉语书面语平衡语料库。起先建立时它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是：尽管已经有很多汉语语料库存在（Yang 2003），但却没有一个完全免费对公众开放的平衡的汉语语料库。 2.1 取样模式与文本收集考虑到该语料库将来主要是要作对比研究之用，于是一开始就必须确定将来对比的对象。一方面，在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面，要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是，最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在，LCMC建成以后也可以与美国英语进行比较。最后，确定下来的方案是按FLOB的构建模式，从15个文体类型中选取500篇2,000词左右的样本。样本的出版日期基本是1991年。 LCMC的筹建基本上是严格按照FLOB的取样模式来操作的，只是在两个方面做了微调。第一、FLOB的取样范畴中，肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”；另一方面，“武侠小说”和“西部和历险小说”从内容性质上同属一类，且在中国影响甚巨。有充足的理由将其收入LCMC中。表1：LCMC取样范畴表代码取样类型代码取样类型 A 新闻报道 J 学术、科技 B 社论 K 一般小说 C 新闻评论 L 侦探小说 D 宗教 M 科幻小说 E 技术、商贸 N 武侠小说 F 通俗社会生活 P 爱情小说 G 传记和杂文 R 幽默 H 其他：报告和公文等第二、由于受到文本来源的制约，肖忠华将样本的出版年代扩大至1991年前后各两年（即1989到1993年）的跨度范围。他认为前后两年的幅度并不会影响整个语料的同质性。为了保证取样内容的同质性，LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库，选取文本时碰到图表一般使用gap来代替。为了保证所选文字是原汁原味的汉语，如果在选文中遇到较长的译文或不是1989到1992年期间的引文，也采用gap来替代，以避免翻译腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网，其他大部分语料取自超星图书馆（）。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件，由此产生的1-3%的识别错误率再经过人工校对加以弥补。超星图书馆是一个巨大的电子书库，但是却很少包含新闻报刊。因此，LCMC中新闻文体有三分之一的内容用的是新华社新闻（取自Guo Jin编写的PH语料库）。表2：LCMC的取样时间跨度取样类型 1989 1990 1991 1992 1993 A --- 22.7% 72.7% 2.3% 2.3% B 7.4% 14.8% 51.9% 3.70% 22.2% C --- 5.9% 88.2% 5.9% --- D 5.9% 17.6% 41.2% 11.8% 23.5% E --- 23.7% 44.7% 10.5% 21.1% F 6.8% 25% 29.5 13.6% 25% G 1.3% 10.4% 64.9% 16.9% 6.5% H --- --- 100% --- --- J 1.2% 7.5% 72.5% 17.5% 1.3% K --- --- 79.3% 13.8% 6.9% L --- 8.3% 62.5% 16.7% 12.5% M --- --- 100% --- --- N 3.4% 13.8% 48.3% 31.1% 3.4% P 10.3% 6.9% 55.2% 20.7% 6