- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自动分词中的单字虚词处理
李小明 1 王亚莉 2 易立夫 杨 静 孙金城
(中国科学院声学研究所讯飞语音实验室,北京,100080)
1 清华大学热能系,北京,100084)
(
2
(北京大学中文系,北京,100871)
摘 要
文语转换系统中自动分词的理想结果是和人朗读习惯相符合的韵律词。在利用词库切分
文本之后,处理语句中残留的大量单字虚词就成了完善切分结果的重要步骤。本文主要探讨
在汉语自动分词中如何对虚词进行处理,尝试利用词性和词长等因素对特定的虚词制定一些
规则,从而在实际应用时系统可以根据这些规则来确定虚词与前后字或词组的归属与结构。
引 言
一般认为汉语虚词中包括五类:副词、介词、连词、助词和语气词。据统计,常用的单
字虚词有 300 个左右,且这些字的出现概率相当高。这些虚词虽然在文本中以单字形式出现,
但人们实际朗读时往往会或是与前面的结构连读,或是与后面的结构连读,或是通过该虚词
把前后结构联系在一起。
如果在分词后不对这些虚词进行处理,就会造成分词后句子中残留大量的单字词,这不
仅跟人们的朗读习惯不符,也给后端的语音学的韵律处理带来麻烦,会直接影响到合成语言
的自然度。
本文主要探讨在汉语自动分词中如何对虚词进行处理,尝试利用词性和词长等因素对特
定的虚词制定一些规则,从而在实际应用时系统可以根据这些规则来确定虚词与前后字或词
组的归属与结构。对加上虚词规则的文语转换系统的测试证明,经过这样的处理后,句子中
基本上不再存在单字词结构,句子划分更有组织,也更接近常人的朗读习惯,提高了合成语
音的自然度。
1 单字虚词处理前的自动分词
据笔者统计,句子中出现单字虚词的概率差不多在 90%以上,这些句子由于单字虚词的
存在,自动分词后整个句子的结构仍然是支离破碎。
表一:词性对应的标记
词性 副词 连词 介词 助词
标记 d c p u
336
下面我们举几个单字虚词处理前的自动分词结果和相应的理想的韵律分词结果:
1a.妹妹 / 不(d) / 想 / 理会 / 那个 / 小孩。
1b.妹妹 / 不想 / 理会 / 那个 / 小孩。
2a.他 / 从(p) / 篮子 / 里 / 掏 / 出 / 手枪。
2b.他 / 从篮子里 / 掏出 / 手枪。
3a.老鹰 / 能够 / 飞 / 得(u) / 很(d) / 高。
3b.老鹰 / 能够 / 飞得很高。
4a.那个 / 村庄 / 远 / 虽(c) / 远,却(d) / 是 / 离 / 我们 / 最(d) / 近 /
的(u) / 一个。
4b.那个 / 村庄 / 远虽远,却是 / 离我们 / 最近的 / 一个。
从上面几个例句可以看出,自动分词结果和理想的韵律分词结果的差距主要就在于其中
一些单字虚词的处理。所以说,在自动分词完成后,单字虚词的处理就显得必不可少。
2 规则的考虑因素
虚词虽然比实词少得多,但是虚词的意义比实词虚得多,不易捉摸,虚词的用法相当复
杂,而且个性很强。从语法意义上来说,副词修饰动词和形容词,但是应用到分词时并不能
这样简单的应用。比如说“他的话我一点都听不懂”这一句,利用简单的副词修饰动词、形
容词的规则划分出的结果肯定是不对的,分词要做到的理想结果是把“听不懂”作为一个韵
律词。虚词的个性要强于共性,这就要求我们为一些常见的单字虚词逐一制定规则。
虚词中的语气词与其他四种词相比,其共性是主导因素。语气词主
文档评论(0)