语段处理中非小句逗号的模糊消解.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语段处理中非小句逗号的模糊消解.pdf

语段处理中非小句逗号的模糊消解① 韦向峰 中国科学院声学研究所 北京 100080 weixiangfeng@tsinghua.org.cn 摘要:语段是以句号、问号和叹号分隔的文本片段。语段处理以语串处理为 基础,语串则是语段内部用逗号或分号分隔的文字串。被逗号分隔的语串可以是 句子、语义块、语习概念、句闻逻辑概念等多种语义角色,因此按语串角色对语 段中的逗号进行功能分析时存在模糊,需要在语段范围的处理中消除这种模糊。 逗号连接的语串可以是小句也可以是非小句,非小句逗号可能会被误识为小句逗 号。本文分析了非小句逗号误识为小句逗号的原因,对出现这种误识的语段进行 了归类分析,并给出相应的对策。非小句逗号的模糊消解对复杂语义块的构成分 析、句群中句间关系的处理都是非常重要的。 关键词:语段处理,语串,非小句逗号,模糊消解 一,前言 语段是计算机处理文本时的一种切分单位,是以“句号、问号、感叹号”为结 束标记切出的语言文本片段,并且这些结束标记不在配对型标号之内(如括号、书 名号等)。一般情况下,一个语段对应一个单句或复句;在特殊情况下,一个语段 可以是一个词或短语、也可以是一个特殊的句群。这里的单句对应到语言概念空 间是一个句类表示式,而复句则对应为多个句类表示式。因此语段处理的基础是 句类分析,句类分析得到语段中各小句的句类表示式及其语义块构成,从而为分 析处理多个语段构成的句群提供基础。 语段内部的处理单位是语串。语串是语段内以“逗号、分号、冒号、破折号” 为结束标记切出的文字串。语段内部最常见的语串结束标记是逗号,逗号将语段 学研究所知识创新工程项目资助。 分隔为两个或两个以上语串。如果逗号连接的两个语串都是句子,则称该逗号为 “小句逗号”。如果连接的两个语串中有一个不是句子,则称该逗号为“非小句逗 号”。 语串处理是语段处理的基础。一个语串经过句类分析之后,可以是一个句类 表示式或其部分、一个语义块或其部分、句间逻辑概念、语习类概念等;也可以 是两个或两个以上句类表示式,但这种情况并不常见。如果逗号连接的两个语串 中有一个是完整的句类表示式,另一个是部分句类表示式,那么该逗号可能是“小 句逗号”,也可能是“非小句逗号”,这时就出现了小句逗号和tP4,句逗号之间的模 糊。例如: 例l: ①我们Il开创了II建设有中国特色社会主义事业,+为(实现中华民族的伟大 复兴)~0开创了II正确道路。(小句) ②{我国处在社会主义初级阶段}II,是0邓小平和中国共产党对当代中国 基本国情的科学判断。(非小句) 例2: ①失去了0资金支持和自己的专利,+\{特斯拉发展无线电)的梦想/Il终止 了。(小句) ②当年22岁的特斯拉lI告诉|I他的老师0,E#他可以从根本上改进这种发电 机笨拙的设计#]。(非小句) 在例l①中,逗号连接的是两个小句,第一个小句是一个完整的句类表示式, 第二个小句共享了前面小句的“我们”,所以承前省略,变成了句类表示式的一部 分。而在例1②中,两个语串独立分析后分别是一个完整的句类表示式和一个部分 句类表示式,和例1①的形式结构相同。但实际上,例1②的整个语段对应于一个 句类表示式(是否判断句:jDJ—DB+jD+DC),其中第一个小句是一个原型句蜕, 充当句类表示式中的DB。例2①和例2②的情况类似,不同在于:例2①中语段 的第一个语串是部分句类表示式,例2②中整个语段是一个信息转移句(即T3J— TA+T3+TB+T3C),第二个小句充当句类表示式的块扩部分T3C。 可见,在语段处理中,如果只考虑语串独立分析的结果,那么某些“非小句逗 号”将被错误地判定为“小句逗号”。这种错误在复杂的是否判断句、含复杂块扩的 语句和语义块含复杂句蜕的语句中也会经常出现。究其原因,是由于一个语句中 嵌套了另一个复杂“语句”,这时需要在语义块之间或语义块内部的语句之间加上 逗号,利用逗号停顿功能和联接功能来降低整个语句的复杂度。 本文首先对逗号的功能进行归类分析,然后分析了造成“非小句逗号”与“小句 逗号”模糊的原因,最后分类考察了实际语料中出现的非小句逗号模糊的情况,提 出了在语段处理中消解这种模糊的方法。 二、非小句逗号的功能 标点符号用法国家标准(GB/T15834—1995)根据传统语法知识对逗号的用法作 了归纳。逗号用法共有四种:(1)句子内部主语与谓语之间如需停顿,用逗号I (2)句子内部动词与宾语之间如需停顿,用逗号;(3)句子内部状语后边如需停顿,

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档