基于最大熵模型的多音字消歧.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于最大熵模型的多音字消歧.PDF

NCMMSC2007 基于最大熵模型的多音字消歧* 1 2 1 刘方舟 ,施勤 ,陶建华 (1. 中国科学院自动化研究所,模式识别国家重点实验室,100080 ;2. IBM 中国研究中心,100083) 文 摘: 字音转换是语音合成系统必不可少的模块,而多音字消歧则是字音转换的核心问题。本文选择了33 个 常见常错的多音字作为研究对象,使用最大熵模型来辨析多音字的读音。在特征选择方面,本文比较了不同领域 的多种关键词选择的方法,采用似然比来提取关键词。本文还对比了最大熵模型与决策树算法在多音字消歧上的 表现,实验结果表明,最大熵模型的性能要优于决策树算法。 关键词: 字音转换;多音字;最大熵模型;决策树 中图分类号: TP391 1 引言 字音转换是语音合成系统(TTS)必不可少的模 对每个多音字抽取字词、词性等上下文信息,通过 块,其正确率直接影响语音合成系统的可懂度。在 机器学习的方法完成多音字消歧。 汉语语音合成系统中,字音转换的任务就是将文字 最初绝大多数语音合成系统都是采取手工规 序列转换为对应的拼音序列。大多数情况下,字音 则的方法来进行多音字消歧。然而随着规则数目的 转换都是在词典中检索当前词,配以对应的拼音。 增加,某一个多音字的上下文环境可能被多条规则 然而,汉语中有的字对应多个拼音。如“干”字在 所匹配,这就产生了规则冲突,这是基于规则的方 “干衣服”中读“gan1 ”,而在“干重活”中读“gan4 ”。 法难以解决的问题之一。随着大语料库在语音合成 字音转换的关键和难点就是如何解决这种一字多 研究领域的蓬勃发展,很多研究者着手用统计方法 音的问题。汉语中常见的多音字有“为、长、重” 来进行多音字消歧。Yarowsky[1]使用似然比选择对 等。除去多音字,汉语中还有少量多音词,如“教 多音字读音有辨析作用的上下文特征,然后用统计 授(jiao4shou4 或jiao1shou4) 、朝阳(chao2yang2 或 决策列表对多音字进行消歧,取得了很好的效果。 zhao1yang2) ”等。本文的研究目标就是根据上下文 Wang[2] 比较了互信息、似然比等多种选择关键词的 信息自动的辨析多音字的读音。 方法,并采用决策树对多音字的读音进行分类。 一般认为多音字的读音是跟语义和语言习惯 Zhang[3]采用基于扩展的随机复杂度的随机决策列 相关的,比如“还”表示“归还”时读“huan2 ”, 表来自动提取多音字的读音规则。Zhen[4]将错误驱 表示“仍然”时读“hai2 ”。但按照现在的自然语言 动的基于转换的规则学习方法(TBL)应用到多音字 处理水平,从语义层面上来解决多音字问题还不太 消歧的问题上,获得了比决策树更高的准确率。 可能。对多音字的读音进行消歧通常有两种主流方 最大熵模型[5]是近年来在自然语言处理中广 法: 泛使用的统计分类模型。它在估计概率分布时,除 1) 基于手工规则的方法:由语言专家总结出 了使之满足约束条件外,不做任何假设,即选取熵 多音字消歧的规律,并将这些规律写成计算机可以 最大的概率分布。该模型已经成功的应用于自然语 理解的规则形式,且仅涉及计算机可以获取的信 言处理的各个领域,如分词[6]、词性标注[7]、语义 息。计算机发现多音字时就按规则逐条进行条件匹 消歧[8]等。本文尝试用最大熵模型来解决多音字消 配和消歧处理。

文档评论(0)

sunyangbill + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档