兰开斯特汉语语料库介绍.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
兰开斯特汉语语料库介绍.doc

兰开斯特汉语语料库介绍 北京外国语大学 许家金 1.0 前言 兰开斯特汉语语料库(The Lancaster Corpus of Mandarin Chinese,简称LCMC)是在Tony McEnery教授指导下,由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担,由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOB Corpus of British English(即FLOB)模式编制的汉语书面语语料库,它的建成有助于我们从事基于语料库的汉语单语或汉英(英汉)双语的对比研究。 2.0 LCMC语料库概况 LCMC是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语平衡语料库。起先建立时它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是:尽管已经有很多汉语语料库存在(Yang 2003),但却没有一个完全免费对公众开放的平衡的汉语语料库。 2.1 取样模式与文本收集 考虑到该语料库将来主要是要作对比研究之用,于是一开始就必须确定将来对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可以与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型中选取500篇2,000词左右的样本。样本的出版日期基本是1991年。 LCMC的筹建基本上是严格按照FLOB的取样模式来操作的,只是在两个方面做了微调。第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”;另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国影响甚巨。有充足的理由将其收入LCMC中。 表1:LCMC取样范畴表 代码 取样类型 代码 取样类型 A 新闻报道 J 学术、科技 B 社论 K 一般小说 C 新闻评论 L 侦探小说 D 宗教 M 科幻小说 E 技术、商贸 N 武侠小说 F 通俗社会生活 P 爱情小说 G 传记和杂文 R 幽默 H 其他:报告和公文等 第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991年前后各两年(即1989到1993年)的跨度范围。他认为前后两年的幅度并不会影响整个语料的同质性。 为了保证取样内容的同质性,LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库,选取文本时碰到图表一般使用gap来代替。为了保证所选文字是原汁原味的汉语,如果在选文中遇到较长的译文或不是1989到1992年期间的引文,也采用gap来替代,以避免翻译腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网,其他大部分语料取自超星图书馆()。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件,由此产生的1-3%的识别错误率再经过人工校对加以弥补。超星图书馆是一个巨大的电子书库,但是却很少包含新闻报刊。因此,LCMC中新闻文体有三分之一的内容用的是新华社新闻(取自Guo Jin编写的PH语料库)。 表2:LCMC的取样时间跨度 取样类型 1989 1990 1991 1992 1993 A --- 22.7% 72.7% 2.3% 2.3% B 7.4% 14.8% 51.9% 3.70% 22.2% C --- 5.9% 88.2% 5.9% --- D 5.9% 17.6% 41.2% 11.8% 23.5% E --- 23.7% 44.7% 10.5% 21.1% F 6.8% 25% 29.5 13.6% 25% G 1.3% 10.4% 64.9% 16.9% 6.5% H --- --- 100% --- --- J 1.2% 7.5% 72.5% 17.5% 1.3% K --- --- 79.3% 13.8% 6.9% L --- 8.3% 62.5% 16.7% 12.5% M --- --- 100% --- --- N 3.4% 13.8% 48.3% 31.1% 3.4% P 10.3% 6.9% 55.2% 20.7% 6

文档评论(0)

000 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档