基于标注语料库的现代汉语句型句模对应关系研究.doc

基于标注语料库的现代汉语句型句模对应关系研究.doc

  1. 1、本文档共110页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于标注语料库的现代汉语句型句模对应关系研究.doc

单位代码 10451 学 号 200202007 分 类 号 H146 烟台师范学院 硕士研究生毕业(学位)论文 论文题目 基于标注语料库的现代汉语 句型句模对应关系研究 毕业研究生姓名 孙道功 学科专业名称 汉语言文字学 指导教师姓名 亢世勇教授 张绍麒教授 论文提交日期 二○○五年四月 前 言 本课题是国家973项目“面向大规模真实文本的汉语计算理论、方法和工具”的子课题 ——“汉语句子语义结构语料库开发和应用”的内容之一。整个工作是在清华大学计算机与技术系孙茂松教授指导下、烟台师范学院汉语言文学院亢世勇教授的主持下进行的,语料库的标注工作是由2002级、2003级中文信息处理方向的研究生以及汉语言文学院的2001级本科班的十几位同学花费了半年多的时间完成的,并由专人进行了最后的校对工作。句型和句模的抽取工作是由清华大学计算机与技术系的计算语言学专业研究生张正操帮助完成的。 句型和句模的对应关系研究已有的研究成果很少,本课题的研究力求在理论和实践方面有所突破。理论方面,在标注语料库的基础上初步建立起现代汉语句型和句模的对应体系,深化对现代汉语句法语义关系的研究,丰富三个平面的语法理论,并为全面建立现代汉语句系提供理论基础。实践方面,通过定量统计,了解常用句干的使用频度情况,找出现代汉语的高频句干(句型句模结合体)形式,作为句子教学中择句的标准和依据,减少句子选择的主观性和任意性,推动对外汉语教学中的句子教学;同时,高频的句干模型成为计算机理解自然语言和机器翻译的优先选择模式,对提高计算机的语义理解、机器翻译的准确度也有所帮助。 目 录 摘 要 II Abstract IV 第一章 绪论 1 第一节 句型和句模对应关系的研究现状分析 1 第二节 句型和句模对应关系研究的意义价值 9 第三节 句型和句模对应关系的研究思路和方法 10 第二章 语料库的标注原则及方法 12 第一节 句法成分、语义成分的标注思想 12 第二节 句法成分、语义成分的标记及其含义 13 第三节 句法成分、语义成分的标注对象及方法 15 第三章 句型和句模的对应体系 17 第一节 句型和句模对应关系的分类 17 第二节 单句形式的对应关系 19 第三节 复句形式的对应关系 39 第四节 句型和句模对应关系的主要特点 54 第四章 句型和句模对应关系的频度研究 57 第一节 单句形式的对应关系的使用频度统计分析 57 第二节 现代汉语常用的100个高频句干 75 第三节 句型频度统计对确定现代汉语语序类型的影响 80 第四节 高频句型和高频句模的对应关系 82 第五章 特殊句式的句型和句模对应关系分析 84 — 兼语句的再认识 84 第六章 余论 93 [参考文献] 95 附录 100个句干表 98 后 记 101 摘 要 现代汉语句型和句模的对应关系已有的研究成果很少。在标注语料库的基础上初步建立起现代汉语句型和句模的对应体系,对深化现代汉语句法语义关系的研究,丰富三个平面的语法理论,推动对外汉语教学中的句子教学,提高计算机的语义理解、机器翻译的准确度,都有着重要的意义和价值。 现代汉语句型和句模对应体系的建立,仅凭内省式的简单枚举法是不能完成的。在大规模的标注语料库的基础上进行句型句模对应关系的研究成为一种必然。我们在已有的研究成果的基础上首先确定了句法成分和语义成分以及标注对象。句法成分主要包括主语语块、谓语语块、宾语语块、状语语块、补语语块、兼语语块、独立语块七大类型,语义成分共分出23类,分别是施事、当事、 受事、客事、共事、系事、结果、数量、范围等。语义成分标注对象主要是谓语动词和处于主宾语或状语位置上与谓语动词发生语义关系的体词性成分。并分别为句法成分和语义成分制定了两套标注标记,然后在试标注的基础上制定句法成分和语义成分的标注规范。在此基础上进行句型和句模的分类抽取、频度统计等研究工作,考察句型和句模对应关系。 本文在标注语料库的基础上,以三个平面的语法理论为指导思想,着重讨论了句型句模的对应体系、使用频度等几个问题。我们以句型为出发点考察句型句模的对应关系,因为句型的数量要比句模少得多。根据句型的特点区分为单句形式的对应关系和复句形式的对应关系。在单句形式的对应关系中,讨论了主谓句和非主谓句两种形式的对应关系,共包括了394种句子类型,占语料库句子总量的61.981%。主谓句又分成谓词性谓语句、体词性谓语句、主谓谓语句三种,其中谓词性谓语句是我们研究的重点。在谓词性谓语

文档评论(0)

zhangningclb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档