少数民族青年自然语言处理技术研究和进展.docVIP

少数民族青年自然语言处理技术研究和进展.doc

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集》2010年 加入收藏获取最新 维吾尔语多音词的统计分析 姑丽加玛丽·麦麦提艾力 ?艾斯卡尔·肉孜 ?艾斯卡尔·艾木都拉 ? 【摘要】:维吾尔语语音合成研究方面,多音词的研究甚少是影响进一步提高合成性能的重要原因之一。本文深入研究维吾尔语中的多音词现象,从包括13,607,507个单词的708,322个句子文本中统计出了多音词在维吾尔语中的出现频率和不同读音的使用频率,通过分析统计结果并根据多音词本身的特征对它们进行分类。从而为进一步研究维吾尔语多音词自动注音方法打好了基础。 【作者单位】:新疆多语种信息技术重点实验室新疆大学信息科学与工程学院新疆多语种信息技术重点实验室新疆大学数学与系统科学学院 【关键词】:多音词维吾尔语统计分类 【分类号】:H215 【正文快照】: 1引言维吾尔语语音合成印TTS)系统中维吾尔语基础语言处理方面的研究甚少是一直以来影响合成效果的主要原因。其中在字音转换过程中多音词的自动注音是影响合成结果的重要原因之一。以前在维吾尔语语音合成方面,一直认为维吾尔语中多音词(形同音不同的单词)占的比例不大,对 张子荣 ?初敏 ? 【摘要】:字 -音转换是语音合成系统中的一个重要模块 ,其中多音词和以单字词形式存在的多音字读音的确定一直是个没有很好解决的问题。本文通过对大量标注有正确拼音的语料的统计 ,指出着重解决 4 1个重点多音字和 2 2个重点多音词就可基本解决字 -音转换的问题。本文采用基于扩展的随机复杂度的随机决策列表方法自动提取多音字 (词 )的读音规则 ,将字 -音转换的错误率由 8 8‰降低到 4 4‰。规则的训练和测试的材料的标注是一个耗费人力和时间的工作 ,而训练材料的数量和质量又直接影响最终的结果。本文提出一种半自动的语料标注流程 ,可以节省将近一半的人工和时间 【作者单位】: 北京理工大学计算机科学与工程系 北京理工大学微软亚洲研究院 【关键词】: 基于扩展的随机复杂度的随机决策列表 字-音转换 多音字 多音词 【分类号】:TN912.3 【正文快照】: 一、引言字 -音转换是文语转换系统 (TTS)中一个不可缺少的模块。其正确率直接影响合成语音的可懂度和自然度。针对字母书写系统的语言的字 -音转换的研究已有不少。主要是通过专家总结的拼读规则[1] 或用数据驱动方法[2~ 4] 得到的字母序列和音标序列的对应关系 ,从而确

文档评论(0)

feiyang66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档