- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主题语言模型於大词汇连续语音辨识之研究OntheUseofTopic
主題語言模型於大詞彙連續語音辨識之研究
On the Use of Topic Models for Large-Vocabulary Continuous
Speech Recognition
陳冠孙 Kuan-Yu Chen
國立臺灣師範大學資訊工程學系
Department of Computer Science and Information Engineering
National Taiwan Normal University
696470203@.tw
陳柏琳 Berlin Chen
國立臺灣師範大學資訊工程學系
Department of Computer Science and Information Engineering
National Taiwan Normal University
berlin@.tw
摘要
本論文研究使用主題資訊之語言模型(Language Model) 。當語言模型用於大詞彙連續語
音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能
性。傳統的N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距
離的詞彙接連資訊 ,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多
研究學者陸續提出各式主題模型(Topic Model) ,包括討論文件與詞之關係的機率式潛藏
語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent
Dirichlet Allocation, LDA) ,以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic
Model, WTM) 。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者
詞虛擬文件與詞之間的關係,用以擷取出歷史詞序列長距離的潛藏語意資訊。本論文提
出一種新的主題模型,稱之為詞相鄰模型(Word Vicinity Model, WVM) ,它直接地基於
語言中詞與詞相互關聯資訊以建構一個機率式的潛藏主題空間,並且透過線性模型結合
的方式建立歷史詞序列之主題模型來預測下一個候選詞出現的可能性,藉此輔助傳統N
連語言模型。實驗結果顯示本論文所提出的詞相鄰模型不僅相較大部分主題模型具有較
低的模型參數量,同時能對於僅使用三連語言模型的基礎大詞彙連續語音辨識系統也有
相當程度的語音辨識率提升。
關鍵詞:主題模型、機率式潛藏語意分析、潛藏狄利克里分配、詞主題模型、詞相鄰模
型、大詞彙連續語音辨識。
179
一、緒論
語言是人與人之間最自然且有效率的溝通方式,不需透過其他的手勢或是動作,就
可以讓對方了解我們想要表達的意思。正因為如此,長久以來我們希望能讓機器聽懂人
類的語言、直接與人類對話溝通,開啟了語音辨識的研究。在進行語音辨識時,我們以
人類發聲的特性以及考量人耳聽覺感知為基礎,將數位語音訊號轉換成易於電腦處理的
聲學特徵向量(Acoustic Feature Vector)序列。接著,利用機率模型對於所收集到的訓練
語音聲學特徵向量建立起聲學模型(Acoustic Model)藉此在測試階段比對測試語句聲之
學特徵向量序列,判斷語句中所有可能的音素或詞段落。最後,使用語言模型(Language
Model)來估測自然語言中每一個詞彙基於不同上下文之所可能出現的機率分布,用以解
決聲學模型的混淆、限制辨識的搜尋空間和評估各個候選詞序列在自然語言中的合理性,
因而輸出最有可能之候選詞序列。
當語言模型實際運用於語音辨識時,最主要的方式是從已解碼之歷史詞序列擷取短
距離的詞彙接連資訊、或是長距離的語意資訊
您可能关注的文档
- 三峡水库运行后涪陵河段河床演变试验研究+-重庆大学学报.PDF
- 三峡库区紫色岩小流域土壤侵蚀强度动态监测.PDF
- 三江平原典型小叶樟湿地土壤氮的垂直分布特征-机构知识库-中国.PDF
- 三宅岛-东京都地质调査业协会.PDF
- 三江源区高寒草甸土壤与草地退化关系冗余分析-生态科学.PDF
- 三种百合鳞茎提取物的抑茵作用-广西植物.PDF
- 三种森林生物量估测模型的比较分析.PDF
- 三峡与清江梯级水电站群联合调度补偿效益分析-长江科学院院报.PDF
- 三塘湖盆地二叠系芦草沟组油页岩微量元素和稀土元素地球化学特征.PDF
- 三级基准面旋回内三角洲砂体骨架模型的建立-沉积学报.PDF
- 2025年医师三基口腔科基础知识(牙周病学与口腔黏膜病学)模拟试卷2(题.pdf
- 2025年医师三基基本理论(医学微生物学与免疫学)模拟试卷1(题后含答案及解析).pdf
- 2025年财务管理实训报告范文.pdf
- 2025年调研报告:深入挖掘历史文化资源,促进文化旅游产业发展.pdf
- 2025年印度运营商行业报告.pptx
- 2025年医学高级职称考试《中医肛肠》精选习题(必考).pdf
- 2025年医生医务人员个人年度工作总结(精选8篇).pdf
- 2025年医学高级(中医内科学)-习题 (案例分析题 2).pdf
- 2025年医师专业知识习题库及参考答案.pdf
- 2025年调整心态的句子经典.pdf
最近下载
- 智能电网设备状态监测:基于深度学习的风机叶片覆冰早期识别技术研究.docx VIP
- 2025年高考英语二轮复习(新高考通用)专题04读后续写精彩结尾及主题升华仿写(讲义)学生版+解析.docx VIP
- 基于卷积神经网络的设备健康状态评估方法研究.docx VIP
- 基于声纹特征的风机设备健康状态监测系统研究.pdf VIP
- 风机在线状态监测与故障诊断系统研究.pdf VIP
- 机械设备状态监测与故障诊断技术概述振动监测课件.pptx VIP
- 苏州日月新半导体有限公司IC产品封装测试生产扩建项目 环评报告书.pdf VIP
- 《电气设备状态监测与故障诊断技术》复习提纲(附答案).pdf VIP
- 设备状态监测与故障诊断技术题库(完全版) .pdf VIP
- 实测实量记录表格.docx VIP
原创力文档


文档评论(0)