- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
兰开斯特汉语语料库介绍.doc
兰开斯特汉语语料库介绍
北京外国语大学 许家金
1.0 前言
兰开斯特汉语语料库(The Lancaster Corpus of Mandarin Chinese,简称LCMC)是在Tony McEnery教授指导下,由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担,由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOB Corpus of British English(即FLOB)模式编制的汉语书面语语料库,它的建成有助于我们从事基于语料库的汉语单语或汉英(英汉)双语的对比研究。
2.0 LCMC语料库概况
LCMC是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语平衡语料库。起先建立时它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是:尽管已经有很多汉语语料库存在(Yang 2003),但却没有一个完全免费对公众开放的平衡的汉语语料库。
2.1 取样模式与文本收集
考虑到该语料库将来主要是要作对比研究之用,于是一开始就必须确定将来对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可以与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型中选取500篇2,000词左右的样本。样本的出版日期基本是1991年。
LCMC的筹建基本上是严格按照FLOB的取样模式来操作的,只是在两个方面做了微调。第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”;另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国影响甚巨。有充足的理由将其收入LCMC中。
表1:LCMC取样范畴表
代码 取样类型 代码 取样类型 A 新闻报道 J 学术、科技 B 社论 K 一般小说 C 新闻评论 L 侦探小说 D 宗教 M 科幻小说 E 技术、商贸 N 武侠小说 F 通俗社会生活 P 爱情小说 G 传记和杂文 R 幽默 H 其他:报告和公文等
第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991年前后各两年(即1989到1993年)的跨度范围。他认为前后两年的幅度并不会影响整个语料的同质性。
为了保证取样内容的同质性,LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库,选取文本时碰到图表一般使用gap来代替。为了保证所选文字是原汁原味的汉语,如果在选文中遇到较长的译文或不是1989到1992年期间的引文,也采用gap来替代,以避免翻译腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网,其他大部分语料取自超星图书馆()。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件,由此产生的1-3%的识别错误率再经过人工校对加以弥补。超星图书馆是一个巨大的电子书库,但是却很少包含新闻报刊。因此,LCMC中新闻文体有三分之一的内容用的是新华社新闻(取自Guo Jin编写的PH语料库)。
表2:LCMC的取样时间跨度
取样类型 1989 1990 1991 1992 1993 A --- 22.7% 72.7% 2.3% 2.3% B 7.4% 14.8% 51.9% 3.70% 22.2% C --- 5.9% 88.2% 5.9% --- D 5.9% 17.6% 41.2% 11.8% 23.5% E --- 23.7% 44.7% 10.5% 21.1% F 6.8% 25% 29.5 13.6% 25% G 1.3% 10.4% 64.9% 16.9% 6.5% H --- --- 100% --- --- J 1.2% 7.5% 72.5% 17.5% 1.3% K --- --- 79.3% 13.8% 6.9% L --- 8.3% 62.5% 16.7% 12.5% M --- --- 100% --- --- N 3.4% 13.8% 48.3% 31.1% 3.4% P 10.3% 6.9% 55.2% 20.7% 6
您可能关注的文档
- 全国高中数学竞赛安徽初赛试题及答案.doc
- 全国高中数学联赛竞赛大纲修订稿及部分定理内容.doc
- 全国高中数学联赛试题新规则.doc
- 全国高效课堂九大“教学范式”之郑州市第中学网络环境下自主课堂实践.doc
- 全国高校计算机等级考试.doc
- 全国高校计算机等级考试二级C.doc
- 全国高校计算机等级考试广西考区一级笔试.doc
- 全国高校计算机等级考试广西考区一级笔试模拟题.doc
- 全国高校计算机联合考试广西考区一级笔试试题卷月日A.doc
- 全国高校部标代码表.doc
- 液冷数据中心液冷系统维护保养手册.docx
- 废旧手机电池回收利用2025年技术挑战与市场潜力报告.docx
- 数字化转型中职业技能认证的生态体系建设研究.docx
- 工业互联网平台入侵检测系统安全漏洞分析与防护优化报告.docx
- 2025年餐饮业供应链协同优化及成本控制策略分析报告.docx
- 2025年高净值客户财富管理需求变化与综合金融服务报告.docx
- 2025年文化娱乐市场细分消费者行为与产业生态优化实践案例深度报告分析.docx
- 数字化转型中职业教育教师信息技术应用能力提升策略报告.docx
- 统计学SPSS、Excel操作指导.docx
- 电商行业流量转化数据分析报告:2025年行业洞察.docx
文档评论(0)