- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语体标记研究专用语料库设计.doc
汉语体标记研究专用语料库设计
摘要:本文设计了研究汉语体标记“着”“了”“过”的专用语料库,具体论述了该库构建的理论背景,构建原则,总体框架,语料来源及分布,语料的标注和该语料库的应用等问题。
关键词:汉语;体标记;语料库;设计
中图分类号:H0-0 文献标识码:A文章编号:1005-5312(2011)26-0175-02
语料库与语言学研究相结合是现代语言学发展的新趋势。除了利用现有语料库,自建专用语料库也是一种非常有效的研究方法。
本文欲设计一个专门研究汉语体标记“着,了,过”的语料库,以配合辅助汉语体标记的研究。
一、文献研究
黎锦熙在《新著国语文法》里最早提出 “了”表完成,“着”等表持续,不过并未建立起明确的汉语动词体的语法范畴。20世纪40年代,王力、吕叔湘、高名凯等分别提出“情貌”和“动相”的概念,构建出了汉语动词体范畴体系的雏形。上世纪80年代至今,体研究越来越受语法学界的青睐,在借鉴西方理论的基础上也有了更多突破与成果,比如戴耀晶的《现代汉语时体系统研究》采用语义分析法,详细讨论了完成体和非完成体两大类中的六种体,是深入考察汉语体系统的重要专著。可惜纵观前人对汉语体系统的研究,绝大多数都是建立在语法学家主观语感和少量的由学者手工收集的语料上,这样的研究在现在看来不够科学和客观。
相比国内体研究方法的滞后性,国外已经早有学者通过建小型语料库调研汉语体系统的先例,如Richard Xiao与Tony McEnery自建语料库对比了汉英体系统。但是Xiao等人的研究有几点不足。第一,库容量小,仅包含了《南方周末》一年的语料,涉及范围不够大。第二,他们建立的只是一个普通语料集合而成的语料库,从中根据关键词提取他们需要的语料来完成研究,并不是建立一个收录汉语中表达“体”的语句的专门语料库。
我们认为,今后的体问题研究也可以参考Xiao等人的做法,通过自建小型语料库进行。但是设计的时候可以让语料涉及面更广,设计一个更为全面客观的专用汉语体研究语料库。下面就具体阐述一下建库的设想。
二、汉语体标记“着、了、过”研究专用语料库设计
(一)研究对象
本专用语料库的服务对象是汉语体标记 “着”“了”“过”。我们知道,建立一个语料库,一般要遵循“通用性”“描述性”“实用性”“代表性”“平衡性”等原则。本语料库在遵循这些一般原则的基础上还有一些自己的特点。由于是为特定研究对象设计的专用型语料库,最后创建出来的语料库不宜像通用型语料库那样尽可能地穷尽所有语料,这样反而不方便研究进行。我们认为在大小上应该是“精简型”,仅包含与研究相关的语料,摒弃无关语料。但是语料所涵盖的范围应该要广泛,不管是内容还是语体都要尽可能的全面,以保证该语料库的代表性。因此,我们想要先建立一个包罗万象的母语料库,然后从中抽取含“着”“了”“过”的语料单独组建成我们的目标语料库。即母语料库是一种全文语料库,而目标语料库是一个句子语料库。
综上,我们把汉语体标记研究专用语料库定性为:共时的,小型的,专用语料库。它的建立应包括两大步骤:母语料库的建立和目标语料库的建立。
(二)母语料库的创建
1.总体框架
为保证语料涉及面的广泛性,我们设计的母语料库中包含书面语和口语两大类语料。其中书面语语料又分为新闻,文学,学术,法律文书五大类。由于真实口语的收集难度较大,所以我们选用的口语语料主要是一些影视台词,演说词,及以书面形式存在的对话等准口语语料。每一类语料在母语料库中所占比例设置如下:
新闻类语料 20%
文学类语料 20%
学术类语料 15%
法律文书类语料 15%
准口语语料30%
在这里需对此比例划分做一点补充说明:
a.从理想的平衡性来看,书面语语料和口语语料应对半分,但考虑到准口语语料数量没那么多,采集也不是太方便,所以只定在30%,剩下70%都是书面语语料。
b.在书面语语料中,普通民众接触比较多的是新闻类语料和文学类语料,相比之下学术类语料和法律文书类语料专业性较强,使用率相对较低,所以在比例设置时略低于前二种语料。
2.语料选取来源
下面是对每一类语料的内部构成和选取来源的设定
a.新闻类语料
这里的新闻类语料主要选自《人民日报》《南方周末》两份报纸。人民日报是中国最具权威性、最有影响力的全国性报纸,所用语言是标准的现代汉语书面语代表,内容涉及面也较广,但时政、经济类的语料还是占主导。此外,作为中央报刊,它的内容和语言都过于正统,中规中矩,虽然是大报,但实际阅读人群可能不大。《南方周末》据称曾是中国大陆地区发行量最大的周报,最高发行量达到130万份。目前分为新闻、经济、文化、时局和评
原创力文档


文档评论(0)