汉语篇章修辞结构标注研究.docVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语篇章修辞结构标注研究

汉语篇章修辞结构标注研究   摘要:汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetor-iCal StruCtureTheory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。   关键词:计算机应用;中文信息处理;汉语语料库;篇章标注;修辞结构理论   中图分类号:TP391 文献标识码:A      1 研究背景      篇章标注是国际语言工程和资源建设的一个前沿内容。以修辞结构理论(RhetoriCal StruCtureTheory,RST)为指导的篇章修辞层级标注在最近几年取得了显著的成绩。英语RST篇章树库选用宾州树库的文章,由专业人员以小句为基本篇章单元(Elementary DisCourse Unit,EDU)构建二叉修辞结构树,最后完成了385篇文章的标注,于2003年公布后供学术团体使用。正在建设中的德语PCC语料库也完成了170多篇新闻评论的修辞结构标注。   利用篇章修辞结构树库以及语料上所附注的其他语言学信息,研究人员在自动文摘、机器翻译、自动阅卷等方面取得了突破性的进展。   目前尚未知有与英语RST树库可比的汉语篇章修辞结构树库建成。事实上应用RST理论进行汉语篇章分析的成果也不多见。由于没有一定规模的高质量的RST标注语料库作基础,一些应用RST的中文文本自动处理模型无法进行进一步的统计学习和规则改进。因此,建设汉语篇章修辞结构树库对发展基于RST的中文篇章处理技术具有实践意义。      2 具体建库工作      2.1 语料的选择和构成   CJPL项目选用的语料为2005年4月12日在人民网①《主要媒体财经评论》栏目上转载的全部400篇文章中排版质量较好的395篇,共计785 045字。文章的出版时间跨度为2003年中到2005年初两年;题材包括社会问题、财经政策、证券、汇率、国际贸易、会议导报、上市公司年报分析等;体裁包括财经消息、内外刊文章编译、杂文、社评、学术论文摘要、访谈综述、述评等;共涉及69家大陆媒体和数百名作者和编译者。   我们认为,这些长短不一、由众多专业人员为汉语读者撰写的财经评论文章能代表汉语新闻评论语篇的一般情况,并与英语RST篇章树库所用的《华尔街日报》文章及德语PCC语料库所用的财经评论文章具有较好的可比性。      2.2 语料的处理   在大量先导研究的基础上,我们为树库建设工作制定了60页的标注手册,具体内容包括:基本分析单元的定义和切分、标记集的内容和定义、标记问优先选用协议、特殊现象处理守则、标注人员的培训和标注工作守则、质量控制方法等。下面是标注手册的主要内容。   2.2.1 基本篇章分析单元的定义、切分和合并   切分在修辞结构树库项目中就是要获取有篇章修辞结构意义、连续但又互不重叠的文字串作为标注的基本篇章单元(EDU)。由于C3PL语料的句子很长(平均句长为51.8字),而小句在汉语语法研究中还没有总结出较好的形式标记,因此在对语料进行探索性分析后(详见文献),我们把汉语篇章的EDU定义为由句号、问号、叹号、分号、冒号、破折号、省略号以及段落结束标记所分隔的文字串。由程序完成自动切分。切分完成后,CJPL语料EDU文字串的平均长度为40.0字。对自动切分获得的一小部分篇章功能不完整的文字串,我们在标注阶段使用同一单元(SAME-UNIT)伪关系来进行合并(见图1财经评论篇章子树标注实例)。同一单元伪关系使用的比例占所有修辞关系的0.5%。      我们把段落结束标记也算作EDU的右边界符号的原因,是因为新闻语篇中有不少标题和小标题,其结尾处没有一般所谓的标点符号。而我们没有把逗号选作EDU的右边界符号的原因,是因为统计分析发现,占CJPL全部标点符号比例近40%的逗号中有27.5%分割了小句的主谓结构。在这种情况下,如果把逗号也作为EDU的右边界,将会产生大量篇章功能不完整的文字串,在标注阶段就需要频繁使用同一单元(SAME-UNIT)伪关系,不利于修辞标注工作的展开。   2.2.2 现代汉语RST关系标记集   汉语修辞关系集以RSTTool V3.41软件上的Extended-MT版本为基础,同时参考了汉语复句、句群和文章学研究的一些分类体系。该关系集也是我们在大量的先导研究、语料预标注及一

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档