- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
西班牙语发音词典构建及标注研究
作者:赵皎谷马延周周默草
来源:《电脑知识与技术》2020年第34期
摘要:西班牙语发音词典是西班牙语语音识别系统及语音合成系统的重要基础资源,由于
目前公开来源的西班牙语发音词典资源稀缺,构建西班牙语发音词典对于西班牙语语音处理工
作具有重要意义。该文通过分析西班牙语的发音特点,制订西班牙语发音音素集,广泛收集各
个领域的西班牙语词汇,利用音素集人工标注并核对,构建了一个涵盖9万多词条的西班牙语
发音词典,对于西班牙语语音智能处理研究领域能够起到一个基础支撑作用。
关键词:西班牙语;发音词典;标音方法;语音识别
中图分类号:TP182文献标识码:A
文章编号:1009-3044(2020)34-0249-05
Abstract:TheSpanishpronunciationdictionaryisanimportantbasicresourcefortheSpanish
speechrecognitionsystemandthespeechsynthesissystem.DuetothescarcityofSpanish
pronunciationdictionaryresourcesthatarepubliclyavailable,theconstructionofaSpanish
thepronunciationcharacteristicsofSpanish,developsaSpanishpronunciationphonemeset,
collectsSpanishvocabularyinvariousfields,usesthephonemesettomanuallymarkandcheck,
andbuildsaSpanishpronunciationdictionarycoveringmorethan90,000entriesthatcanplaya
basicsupportingroleintheresearchfieldofSpanishspeechintelligentprocessing.
Keywords:Spanish;pronunciationdictionary;labelingmethod;speechrecognition
引言1
发音词典是语音识别、语音合成等技术实现的基础,是自然语言处理中的基础资源建设工
作,在整个语音识别系统以及语音合成系统中起到关键作用。西班牙语属于屈折型语言,依靠
词形变化体现不同的人称、时态、语态、单复数以及词性等等。西班牙语中存在大量的变位现
象,使得语音智能处理过程中的待识别词汇数量剧增,因此西班牙语发音词典的准确性以及规
模大小都尤为重要。
本文通过研究西班牙语的发音规律,制订合理的西班牙语音素集,利用音素集对大量的西
班牙语词汇进行标注,构建一个西班牙语发音词典。发音词典的词汇将涵盖各个领域,即制作
一个通用型西班牙语发音词典。在此基础之上,后期进行具体的语音处理工作时,就可以根据
需要添加新的词汇以及外来词;如果需要专业领域性很强的发音词典,则可以依据原本的通用
型发音词典通过建模自动预测特定领域的词汇,帮助实现专业领域发音词典的快速构建。
发音词典在西班牙语语音识别系统中的作用2与地位
语音识别以语音为研究对象,通过语音信号处理和模式识别让计算机自动识别和理解人类
所讲的语言。简单来说,就是机器自动将一段语音信号转换成相对应的文本信息。语音识别的
流程如图1所示。
语音识别流程可以分为前端处理和后端处理两大部分,前端处理部分包括语音的输入、预
处理以及特征的提取,后端处理部分是一个数据库的搜索过程,分为训练和识别。训练是对
所建的模型进行评估、匹配、优化,获得最终的模型参数,识别则是在数据库中进行搜索,
获取前端数值后,在声学模型、语言模型和发音词典的共同作用下,完成语音识别任务。[1]
可见,发音词典在语音识别系统中是不可或缺且十分重要的,是语音识别技术的重要基础资
源,发音词典的准确性和规模大小会影响语音识别结果的优劣。
制作发音词典,需要首先制订音素集。音素集是发音词典的基础,音素集的合理性和准确
性直接影响发音词典的准确性,制订音素集时要充分考虑制作语种的独特性,根
您可能关注的文档
- 设备主管岗位职责模板 .pdf
- 论星级酒店公关 .pdf
- 认识糖和盐幼儿教案6篇 .pdf
- 计算机软件资产的会计处理 .pdf
- 计算机网络技术教学指南 .pdf
- 计算机系 高校网络教学资源管理系统的设计与实现 毕业设计(论文)毕业.pdf
- 计算机技术在网络教学管理中的应用 .pdf
- 计算机应用教学策略 .pdf
- 计算机创新创业项目点子 .pdf
- 计算机专业毕业论文 .pdf
- 湖南省湖湘C13教育联盟2023-2024学年九年级上学期第三次月考语文试题(解析版).docx
- 河南省项城市第三高级中学2024-2025学年高三上学期第二次考试(期中)历史试题(原卷版).docx
- 湖南省岳阳市岳阳县岳阳经济技术开发区长岭中学2023-2024学年九年级上学期12月月考语文试题(解析版).docx
- 河南省安阳市林州市2024-2025学年八年级上学期期中历史试题.docx
- 河南省郑州市宇华实验学校2024-2025学年高三上学期11月期中考试政治试题(原卷版).docx
- 独山中学2024~2025学年度第一学期高三第三次阶段性考试政治参考答案.docx
- 河南省新乡市部分学校2024-2025学年高三上学期期中联考政治试题(解析版).docx
- 河南省新乡市部分学校2024-2025学年高三上学期期中联考政治试题(原卷版).docx
- 河南省鹤壁市联考2024-2025学年九年级上学期11月期中考试英语试题.docx
- 河南省商丘市实验中学2023-2024学年九年级上学期12月月考语文试题(解析版).docx
文档评论(0)