网站大量收购独家精品文档,联系QQ:2885784924

中文篇章中的关联词语和其引导的句子关系的自动标注——面向话语分析的中文篇章语料库的开发.pdfVIP

中文篇章中的关联词语和其引导的句子关系的自动标注——面向话语分析的中文篇章语料库的开发.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文篇章中的关联词语及其引导的句子关系的自动标注 一一面向话语分析的中文篇章语料库的开发 邹嘉彦,连兴隆,高维君 黎邦洋,何庆昌 香港城市大学语言资讯研究中。 香港九龙达之路83号 rlbtsou@cpccuxO.cityu.edu.hk 摘要:以前,关于汉语关联词语和复句的研究主要是基于研究者的汉语知识、直觉或少量 的例子。而我们现在的研究则希望通过基丁1语料库的途径,去挖掘语篇中话题的连贯与关 联词语的使用之间的关系。为了进行此项研究,必须对语料库中出现的关联词语的用法的 有关属性进行标注。因此,本文定义了关联词语的加标方式,并给出了一个机械的自动加 标算法。为了评价加标算法的性能,我们用40篇社论对自动标注系统进行了测试。 关键词:关联词语复旬/句群关系 语料标注话语分析 一、 简介 语言学家用话语(discourse)这个术语来描述由多个句子组成的、任何形式的语言交 组成的线形序列。语言学家认为可以把这些小句和句子划分成不同的单元,即语段(discourse segment),因此,对于一篇话语而言,小句、句子、语段和话语构成了一个层次结构。对 言处理领域,语法层和语义层的处理一般将句子看成是独立的、相互无关的单元。话语分 析则超越了这两个层次而进行语用层的处理。 话语分析的目的是希望通过将语篇划分为一系列语段,并构造语篇的话语分析结构, 来识别作者的意图。话语分析的结果可以用来解决很多重要的自然语言处理问题,例如: 指代[Hirst et el,al,86,Limaanet.al,90], 81]问题、时态分析[Hwanga1.92】、目的识lJO[Grosz et.a1.94,T’sou 等等。另外,话语分析还可以直接应用于文本摘要[Ono et.a1.96]}n文本生 成【McKeown85,Linet.a1.911等重要的自然语言处理的应用领域。 在各种类型的可以在话语中得到的信息中,关联词语(discourseconnective)——在 有的语言中也称为线索词语(clueword/cue 78,Groszet.al86】.被看成 phrase)【Reichman 是作者构造~篇话语的主要的语言标志和线索。 在汉语中关联词语(关联词/芙联短语)并不是一个基本词类的名称,而是指那些在复 句或句群、语段间起话题连接或承上启下作用的词和短语的集合。句群是由多个单句或复 句组成,复句又分为单层复句和多层复句。有关单句、复句、句群的区分以及单层复句与 多层复句的概念可以参看[刘跃池等97]。关联词语的使用可以使复句中删势旬(或小句、 288 子句)之间的逻辑语义关系以及句群中的分句之间的逻辑语义关系更为明显。在后面的讨 论中我们习惯上将复句或句群关系称为复句关系。 作为关联词的词可能是连词、介词、副词或动词【张宝林95,李泉95,赵淑华95】以 及名词(如r结果,他没有来’中的‘结果’)和数词(如‘第一…第一=..’)等等。 我们所感兴趣的关联词语的范围比[王起澜89】更广些,甚至比【魏为真等91]还要多 一些。在我们的研究中,我们把关联词语分为两种不同的类型: 1.第一类(Primary):这一类关联词语主要由连词、介词、副词和动词组成,其主要 功能是引导单层复句或多层复句(参见表1)。在我们的研究中的这类关联词语主 et.a1.96]。 要来源于[王起澜等89]}11我们以前的研究工作[T’SOU 成,其主要功能是在句群间起话题连接或转移作用(参见表1)。在我们的研究中 e

文档评论(0)

july77 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档