国际语音合成大赛“九连冠”是怎样炼成的.docxVIP

  • 2
  • 0
  • 约2.58千字
  • 约 5页
  • 2017-04-10 发布于四川
  • 举报

国际语音合成大赛“九连冠”是怎样炼成的.docx

国际语音合成大赛“九连冠”是怎样炼成的

国际语音合成大赛“九连冠”是怎样炼成的 2014-08-07?科大讯飞畅言服务 Blizzard Challenge是由美国和日本联合发起的国际上规模最大、最具影响力的语音合成大赛,自2005年起,历届大赛吸引了美国卡耐基-梅隆大学、英国爱丁堡大学、日本名古屋工业大学、IBM研究院、微软亚洲研究院等语音技术领域的世界一流科研机构参加。 而在这样高手云集的国际顶级赛事上,连续9年在多项指标中获得冠军的却是一支来自中国的队伍——科大讯飞研发团队。 1999年以前,中文语音产业基本上控制在国外IT巨头手中。微软、IBM、Intel等纷纷在在中国设立语音研究基地,国内语音专业优秀毕业生基本上全部外流,中文语音产业被国外掐住了“咽喉”。 怀抱着“中文语音技术应当由中国人做到全球最好,中文语音产业应当掌握在中国人自己手中”的信念,1999年,以刘庆峰为首的18名在校大学生创立了科大讯飞,并不断通过产学研合作的创新机制有效整合语音技术源头资源,将中文语音技术做到了全球最高水平。 2004年,科大讯飞在国家863中文语音合成评测中囊括所有指标第一。在此之后,我们开始将目光投向国际赛场。2005年,在了解到第一届Blizzard Challenge的情况之后,讯飞首席科学家王仁华教授提出,“现在,我们已经把中文语音合成做到了世界领先,明年我们是不是去国际比赛中试一试?” 团队成员们也都跃跃欲试,希望得到向世界一流科研机构与高校学习的机会,“那时没有想过参赛能获得什么名次,只是期待能到国际舞台上‘亮剑’,衡量我们真实水平,大家当时都卯足了一股劲。”当时的团队成员江源回忆道。 2006年,科大讯飞代表大中华区参加Blizzard Challenge。参赛前,时任中国科学院院长的路甬祥恰好来公司进行视察,了解到科大讯飞要参加国际比赛的事情,“这是你们第一次参加世界性大赛,如果能获得前三名就已经很不错了。” 当年的比赛规则要求在规定时间内搭建出基于1000句和5000句两个不同规模音库的英文合成系统,主办方从可懂度和自然度两个方面分别测试各个团队的语音合成效果。一般来说,从零开始搭建一个基于5000句规模音库的高质量语音合成系统需要至少半年以上的时间。而留给参赛者的时间只有一个月,按时完成的难度非常大。 讯飞研发团队克服了音库规模大和时间紧的压力,采用当时国际上最先进的基于统计声学建模的参数语音合成方法完成了两个参数系统的构建,并在模型训练、参数生成等方面进行了创新性的改进,系统优化的工作一直持续到了规定提交的最后时刻! 结果,讯飞提交的参赛系统一举获得了小库可懂度和自然度两个指标双料第一,大库可懂度第一、自然度第二的优异成绩!成为当年大赛最大的“黑马”,震惊了国际语音学界。因为,中国人不仅将中文语音技术做到了全球最好,而且可以将非母语的英文语音技术做到了全球最好! 世界知名语音研究机构纷纷主动与讯飞建立联系。大赛组织者,国际知名语音学家、IEEE院士德田惠一教授还特地不远万里的来到到讯飞参观、交流。科大讯飞成功地在世界舞台上发出了自己的声音。 此后,从2006年至今连续9年的时间里,科大讯飞一路高歌猛进,在Blizzard Challenge中连续夺冠。这意味着中国人在语音合成技术上牢牢树立了国际领先的地位! 回顾9年征程,这是科大讯飞核心技术的卫冕之路,更是超越之路,创新之路!讯飞的研发团队通过比赛不断开拓研究方向、提升国际化视野,有力地推动了我国乃至国际智能语音技术与产业持续的向前发展。 下面就让我们一起回顾科大讯飞语音合成研发团队在历届Blizzard Challenge中的精彩表现吧! ? 2006年,首次参加Blizzard Challenge,科大讯飞即获得可懂度和自然度两个指标双料第一。 ? 2007年,测试音库规模相较2006年扩大了一倍,并新增相似度测试。科大讯飞的系统包揽自然度、相似度、可懂度全部第一。其中讯飞原创的基于统计声学模型的单元挑选语音合成算法更是得到了语音合成研究领域的广泛关注。 ? 2008年,参赛成员增加到20家,包括爱丁堡大学、卡内基梅隆大学、IBM、东芝等国际一流高校和机构,面对强有力的竞争对手的挑战,科大讯飞一举包揽了英文大库、小库自然度和相似度的第一。这是业界首次在自然度测试中获得超出普通人说话水平的4.1分。 ? 2009年,比赛增加了三个可选项目:音色转换合成、复杂信道合成、人机对话合成。这意味着对合成的效果提出了更高的要求。这一年,科大讯飞继续获得大库相似度、自然度、可懂度测试指标的第一名,在小库和三个可选项目上也都取得了各项测试指标前两名的优异成绩。 ? 2010年,除了传统合成项目持续领先,科大讯飞在新增的可选项目中继续取得好成绩。极小规模音库合成获得自然度第一、相似度可懂度第二,加噪语音合成

文档评论(0)

1亿VIP精品文档

相关文档