基于语料库有标并列短语语体适应性考察.docVIP

基于语料库有标并列短语语体适应性考察.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语料库有标并列短语语体适应性考察

基于语料库有标并列短语语体适应性考察摘要:本文通过一个多语体小型语料库,考察现代汉语有标并列短语的语体适应性,发现不同语体在有标并列短语的出现频率、标记类型、并列项类型及多项式选择等方面都有显著差异,得出一些具体结论:有标并列短语语体分布的优选序列为“口述体<对话体<操作体<新闻体<法规体”,不同标记类型有所差别;并列项的优选序列为“数量短语/代词<形容词<异类<动词<名词”,但口述体、对话体中异类词、代词更为优选;多项式优选序列为“口述体<对话体<新闻体<操作体/法规体”。本文的结论将为并列短语的自然语言识别和处理提供参考性帮助。 关键词:现代汉语;有标并列短语;语体适应性;计量分析 中图分类号:H146 文献标识码:A 文章编号:1006-723X(2012)05-0150-06 一、引言 在不同的语体中语法现象的分布存在着差异,语法规律的适用性也有差别,语法具有明显的语体特征,称之为 “语体语法”(Style Grammar)。语体语法存在于各种语法现象中,各种语言材料也因进入不同语体而分化[1](P34-40),这其中自然包括汉语基本结构类型的并列结构。并列短语一直很受汉语研究者的重视,有从并列项语序关系角度研究的[2](P151-160),有从并列项属性角度研究的[3](P211-219),有从语言类型角度研究的[4](P121-135),还有从中文信息处理角度研究的[5](P1-55),成果颇丰。但这些研究都没有充分重视语体因素对并列短语用法的影响与作用,有鉴于此,本文力图细致地考察并列短语在具体语体中的分布情况和语体适应性差异,并对相关情况进行解释,以便更好地为语言应用服务。出于可行性的考虑,我们把考察的范围限定为有标并列短语,即用“和、与、同、跟、(以)及、或(者)、并、又、而(又)、(并/而)且”10个(类)连词联结的并列短语。我们设定了一个小型的语料库,包括操作、法规、新闻、对话、口述五种语体(各14万字语料),选择这几种语体主要考虑到语体分布的广度。通过这个小型语料库,我们主要考察以下方面的内容:有标并列短语的语体分布情况,不同性质并列项的语体分布特征,多项式并列短语的语体分布规律;还会具体考察不同标记并列短语在以上方面的差异。 二、有标并列短语在不同语体中的分布特征 通过对小型语料库中五种语体中有标并列短语穷尽性的搜索及统计,得出有标并列短语在不同语体中的分布情况如表1。 表1 各类有标并列短语在不同语体中分布情况 语体标记 口语 书面语 口述 对话 新闻 法规 操作 数量 并 0 1 14 35 42 92 (而/并)且 0 0 0 0 12 12 而(又) 0 0 2 1 5 8 又 3 11 3 1 23 41 或(者) 5 5 31 926 110 1077 (以)及 0 2 73 139 193 407 跟 38 33 0 0 0 71 与 0 3 83 82 58 226 同 0 0 3 6 0 9 和 12 62 631 711 298 1714 总数 58 117 840 1901 741 3657 从表1中,我们发现: 有标并列短语适应各种语体的优选序列(“<”前面的语体出现频率低于后面出现的语体,下同):“口述<对话<操作<新闻<法规”,这个序列主要反映了口语、书面语使用有标并列短语的倾向性,非常明显,书面语体比口语体更多地使用有标并列短语。 不同标记并列短语语体适应性的优选序列(“/”表示出现频率相同或相近,下同):“而(又)/同/(而/并)且<又/跟/并<与/(以)及<或(者)<和”,这个序列主要反映了现代汉语并列连词的常用性:“和”最为常用,也通适于各类语体;而“或(者)”的位置比较靠前,主要与它在法规体中的高频使用有关;“而(又)”的位置靠后,与它们主要表转折关系、出现功能分化有关。 这个表格反映的有标并列短语语体适应性的具体情况是:书面语倾向的“并”类、“(而/并)且”类、“而(又)”类、“(以)及”类、“与”类、“同”类并列短语。 “并”类并列短语适应书面语体,从我们的调查来看,口述体没有用例,对话体只出现1例,新闻体出现带“并”字并列短语的都是书面语特征明显的,而在法规、操作语体中,“并”类并列短语的出现频率比较高。例如: (1)女:我劝你们不要把这件事儿当成儿戏。我们这次来啊,就是要告诉你们,你们《人间指南》编辑部已经侵犯了法律,触犯了我们《大众生活》的名称权。所以你们现在必须立即停止侵犯,公开道歉并赔偿我们的一切损失。我们将向法院起诉你们的侵权行为。(对话) (2)索斯科韦茨还说,俄政府将利用一切可能的手段来促使企业提高生产效率并扩大销售

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档