- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中英双语混合语音识别研究
张晴晴,潘接林,颜永红
(中国科学院声学研究所中科信利实验室,北京100080)
摘要:介绍了针对歌曲检索中出现的中英混合现象所开发的中英双语识别系统。在双语混合语音识别中,主要 而临的2个问题:①在保证双语识别率的前提下控制系统的复杂度;②有效处理插入语中原用语引起的非母语匚 音现彖。为了解决双语混合现彖以及减少统计建模所需的数据量,通过音索混合聚类方法建立起一个统一的双谁 识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音索聚类算法(TOVI ),并将该方法与基于声学他 然度准则的聚类方法进行了比较。实验结果表明:利用TCM进行音索聚类的识别性能优丁?基丁?声学似然度音索 聚类的性能,故终得到的中英双语识别系统在纯英文测试集上的短语错误率(PER)相对基线单英文识别系统下降 7. 19%;在双语混合测试集上PER相对基线混合模型下降13 78%;同时在纯中文测试集上保持了基线单中文认 别系统的性能。
关键词:双语识別;聚类算法;口适应
中图分类号:1N93 文献标识码:A 文章编号:1673囚25X(2008)041)3912)6
Developm ent of a Mandarh English bilhgual speech recogn it bn system
ZHANG Qingming, FAN J ie 21 in, VAN Yong2hong
(TliinkrT Speech Labora^iy\ Institute of Acoustics of Chinese Academy of Sciences, Beijing 100080, R R. China)
Abstract: The Mandarin2English bilingual speech recognitbn system which has been devebped for the Mandarin2English phenanenon in song retrieval is introduced The main diiliculties t) handle the bilingual speech recognitfon for real world applicatbn are focused on fcvo ajpects: the first is k) balance the peiibimance on inter and intni ? sentential language ?vitc2 hing and lo reduce the comp lexity of the bilingual speech recogn itbn system; the second is lo e flee lively deal with the ma2 trix language accents in embedded language In oixler lo process the intra2sentential language avitching and reduce the a2 mount of data required io lobustly estinate statistical models, instead of using bvo separate monolingual models idr each lan2 guage, a compact single set of bilingual acoustic model derived by phone set merging and clustering is devebped Hence, a iK)ve 1 IVvo 巾 a ss p lione c lu ste ring m e Ihod ba sed on Confu sbn Matrix (TCM) is pre sen ted and can pa red w ith the bg21ike 11 hood measure method Experments testify that TCM can achieve belter perfbimance The phrase erior rate (PER) oi M ESRS ibr English utterances was reduced by 7. 19% iv la lively compared Id the ba sc line mono lingua 1 English system \vh ik the PER on Mandarin utterances was canparab
文档评论(0)