基于语料库国内外主要新闻语料库综述.docVIP

下载本文档

514
0
约4.57千字
约 10页
2018-08-30 发布于福建
举报
版权申诉

基于语料库国内外主要新闻语料库综述.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语料库国内外主要新闻语料库综述

基于语料库国内外主要新闻语料库综述　　摘要：语料库语言学作为语言学科中发展的最快学科之一，已经应用到外语教学和研究的多学科领域。而以报刊英语为主干的新闻英语已经成为一个热门教学课程并且有十分广阔的发展前景。国内外很多研究机构和学者充分地依托语料库并建立新闻语料库，本文主要罗列出国内外一些机构和学者合建或自建的新闻语料库，并对它们的构成、语料采样、标注等进行了主要概述。　　关键词：语料库　新闻　报刊英语　　中图分类号：G642　文献标识码：A　文章编号：1672-1578(2011)05-0089-02 　　　　1、引言　　　　语料库语言学是基于大量机读文本数据。采用定性和定量分析相结合的方法，对语言的形态、意义和功能进行系统分析的新兴学科。在过去的二十多年，语料库越来越受到语言学界的重视，成为语言研究的一个重要方法论，它所带来的影响已经涉及到外语教学和研究的各个学科领域。在外语教学界，作为新闻英语主干的报刊英语已经成为一个热门教学课程并孕育着十分广阔的发展前景。国内外不少的机构和研究者早已充分认识到这一最能体现时代特色的新闻语言，纷纷依据语料库语言学理论、统计学理论和新闻学理论来建立新闻类语言语料库，并对新闻类语言展开广泛研究，同时这些新闻类语料库的建设成功也为相关研究者提供了研究便利，提供了新的研究视角。　　　　2、国外建成的针对不同研究用途的新闻英语语料库　　　　2.1路透社语料库　　路透社语料库(Reuters Corpus)(第一版)由英国路透社在2000年开发完成，收集了1996年8月20日至1997年8月19日路透社发布的新闻语篇样本806791篇。包含了9822391个自然段语句，规模达2亿词次。路透社语料库存储在两张CD上发行，分为365个压缩包存放，分别每天一个压缩包，解压缩后需要2.5G的磁盘空间。　　该语料库采用目前国际流行的扩展标记语言XML，具有扩展性、开放性、结构化、互操作性和支持多国语言的特点。文本类型从三个方面进行了赋码界定：国家码(country code)、产业码(industry code)和主题码(topic code)。路透社语料库的创建为英国通讯社语言的学术研究提供了参照。　　　　2.2北美新闻文本语料库　　美国宾州大学的语言数据协会(Linguistic Data Consortium)的David Graff于1995年组织开发完成了北美新闻文本语料库(North American News Text Corpus)，该语料库主要应用于信息检索和语言建模两方面。该库的标注采用标准通用置标语言SGML，规模达350万词次。其采样来源如下表：　　　　北美新闻文本语料库分为两张CD发布，CDl上四个文件夹latwp，reute，reuff,wsj中分别存储了Los Angeles Times/The Washin$on Post，Reuters General News，Reuters FinancialNews，The Wall Street Journal四个来源的库文本资料。CD2上只有一个文件夹nyt，全部是《纽约时报》辛迪加的样本资料。　　　　2.3罗斯托克英语报刊历史语料库　　德国罗斯托克大学的Kristina Schneider组织开发的罗斯托克英语报刊历史语料库(Rostock Historical English NewspaperCorpus)主要用于新闻业的研究，如英语报刊、新闻写作方式的历时演变。该库样本全部来源于60家英国报纸。从1700年至2000年，以大约相隔一代人的时间(30年)为间隔进行等距抽样，因为报刊语言同语言总体一样，在一代人的时间段之内发生变化不大。库的结构分布以两条通俗报轴线(popular line)即低端市场报纸(down-market papers)和中端市场报纸(mid-marketpapers)和一条大报轴线(quality line)即高端市场报纸(up-market papers)为标准，每条轴线上的每个时期分布20000词次的样本，全库规模达600000词次。　　　　2.4苏黎世英文报纸语料库　　苏黎世英文报纸语料库(Zurich English Newspaper Corpus，ZEN)是个历时语料库，采样于1671年至1791年共120年间的英国报纸文本，总词次达120万。该语料库建设工程巨大，没有采取计算机扫描识别的捷径，每家报纸以10年的时间间隔抽取10份，除了股市报道、彩票抽奖、长名单和诗歌四个板块，所采样的349份报纸的所有版面内容全部都一字不落地手工输入到语料库中。报纸收藏爱好者如获至宝的《泰晤士报