- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语段处理中非小句逗号的模糊消解.pdf
语段处理中非小句逗号的模糊消解①
韦向峰
中国科学院声学研究所 北京 100080
weixiangfeng@tsinghua.org.cn
摘要:语段是以句号、问号和叹号分隔的文本片段。语段处理以语串处理为
基础,语串则是语段内部用逗号或分号分隔的文字串。被逗号分隔的语串可以是
句子、语义块、语习概念、句闻逻辑概念等多种语义角色,因此按语串角色对语
段中的逗号进行功能分析时存在模糊,需要在语段范围的处理中消除这种模糊。
逗号连接的语串可以是小句也可以是非小句,非小句逗号可能会被误识为小句逗
号。本文分析了非小句逗号误识为小句逗号的原因,对出现这种误识的语段进行
了归类分析,并给出相应的对策。非小句逗号的模糊消解对复杂语义块的构成分
析、句群中句间关系的处理都是非常重要的。
关键词:语段处理,语串,非小句逗号,模糊消解
一,前言
语段是计算机处理文本时的一种切分单位,是以“句号、问号、感叹号”为结
束标记切出的语言文本片段,并且这些结束标记不在配对型标号之内(如括号、书
名号等)。一般情况下,一个语段对应一个单句或复句;在特殊情况下,一个语段
可以是一个词或短语、也可以是一个特殊的句群。这里的单句对应到语言概念空
间是一个句类表示式,而复句则对应为多个句类表示式。因此语段处理的基础是
句类分析,句类分析得到语段中各小句的句类表示式及其语义块构成,从而为分
析处理多个语段构成的句群提供基础。
语段内部的处理单位是语串。语串是语段内以“逗号、分号、冒号、破折号”
为结束标记切出的文字串。语段内部最常见的语串结束标记是逗号,逗号将语段
学研究所知识创新工程项目资助。
分隔为两个或两个以上语串。如果逗号连接的两个语串都是句子,则称该逗号为
“小句逗号”。如果连接的两个语串中有一个不是句子,则称该逗号为“非小句逗
号”。
语串处理是语段处理的基础。一个语串经过句类分析之后,可以是一个句类
表示式或其部分、一个语义块或其部分、句间逻辑概念、语习类概念等;也可以
是两个或两个以上句类表示式,但这种情况并不常见。如果逗号连接的两个语串
中有一个是完整的句类表示式,另一个是部分句类表示式,那么该逗号可能是“小
句逗号”,也可能是“非小句逗号”,这时就出现了小句逗号和tP4,句逗号之间的模
糊。例如:
例l:
①我们Il开创了II建设有中国特色社会主义事业,+为(实现中华民族的伟大
复兴)~0开创了II正确道路。(小句)
②{我国处在社会主义初级阶段}II,是0邓小平和中国共产党对当代中国
基本国情的科学判断。(非小句)
例2:
①失去了0资金支持和自己的专利,+\{特斯拉发展无线电)的梦想/Il终止
了。(小句)
②当年22岁的特斯拉lI告诉|I他的老师0,E#他可以从根本上改进这种发电
机笨拙的设计#]。(非小句)
在例l①中,逗号连接的是两个小句,第一个小句是一个完整的句类表示式,
第二个小句共享了前面小句的“我们”,所以承前省略,变成了句类表示式的一部
分。而在例1②中,两个语串独立分析后分别是一个完整的句类表示式和一个部分
句类表示式,和例1①的形式结构相同。但实际上,例1②的整个语段对应于一个
句类表示式(是否判断句:jDJ—DB+jD+DC),其中第一个小句是一个原型句蜕,
充当句类表示式中的DB。例2①和例2②的情况类似,不同在于:例2①中语段
的第一个语串是部分句类表示式,例2②中整个语段是一个信息转移句(即T3J—
TA+T3+TB+T3C),第二个小句充当句类表示式的块扩部分T3C。
可见,在语段处理中,如果只考虑语串独立分析的结果,那么某些“非小句逗
号”将被错误地判定为“小句逗号”。这种错误在复杂的是否判断句、含复杂块扩的
语句和语义块含复杂句蜕的语句中也会经常出现。究其原因,是由于一个语句中
嵌套了另一个复杂“语句”,这时需要在语义块之间或语义块内部的语句之间加上
逗号,利用逗号停顿功能和联接功能来降低整个语句的复杂度。
本文首先对逗号的功能进行归类分析,然后分析了造成“非小句逗号”与“小句
逗号”模糊的原因,最后分类考察了实际语料中出现的非小句逗号模糊的情况,提
出了在语段处理中消解这种模糊的方法。
二、非小句逗号的功能
标点符号用法国家标准(GB/T15834—1995)根据传统语法知识对逗号的用法作
了归纳。逗号用法共有四种:(1)句子内部主语与谓语之间如需停顿,用逗号I
(2)句子内部动词与宾语之间如需停顿,用逗号;(3)句子内部状语后边如需停顿,
您可能关注的文档
最近下载
- 科室全成本核算.ppt VIP
- (完整版)幼儿园五年发展规划【可编辑版】.docx VIP
- 福克纳 A Rose for Emily 献给艾米丽的玫瑰 (英文原文+译文).pdf VIP
- 高考数学总复习《函数性质》专项测试卷及答案.pdf VIP
- 课题申报书:核心素养引领下的小学数学课堂教学方式的转变研究.docx VIP
- 人教版数学五年级上册第七单元教案(含单元备课).pdf VIP
- 湖北省武汉2025届高三上学期10月月考物理试题含答案.docx VIP
- 2025年秋期部编人教版六年级上册语文全册核心素养教案(教学反思有内容+二次备课版).docx
- 初中整本书阅读系列之《红星照耀中国》第8-9篇 同红军在一起PPT课件.pptx VIP
- 2024年初级会计职称《经济法基础》精讲课件.pptx VIP
文档评论(0)