汉语语言模型研究及其在音转换中的应用.ppt

下载文档 降价啦

1
0
约8.42千字
约 85页
2018-06-24 发布于浙江
举报
版权申诉
保障服务

汉语语言模型研究及其在音转换中的应用.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

汉语语言模型研究及其在音转换中的应用

汉语语言模型研究及其在音字转换中的应用计算机科学与技术学院语言技术研究中心刘秉权 2003年5月28日 1 绪论本文研究的目的和意义计算语言学概述相关领域研究与发展综述统计语言建模技术基于统计的计算语言模型给定所有可能的句子，统计语言模型就是一个概率分布：条件概率形式： N-gram模型：统计语言模型的作用信源－信道模型 : I:语言文本；O:声音信号、字符图像信号、拼音输入等。语言模型：统计语言模型建模方法极大似然方法语言建模贝叶斯方法统计语言模型的评价标准熵(Entropy) 交叉熵(Cross Entropy) 复杂度(Perplexity) 参数学习和数据平滑参数学习有指导学习--基于完全数据的最大可能性估计无指导学习—(针对不完全数据的)具有隐含变量的参数训练过程—EM算法数据平滑--Good-Turing估计、回退平滑和线性插值技术；变长N-gram模型、网格方法、压缩模型当前主要语言模型 N-gram模型决策树模型指数模型（最大熵模型）整句模型文法模型概率上下文无关文法链文法概率依存文法自适应模型统计语言模型存在的不足之处最成功的统计语言建模技术很少使用真实的语言知识跨领域的适应能力差不能有效处理长距离语言约束：为保证可行性，所有现有的语言模型都在文本的不同部分之间作了独立假设。汉语语言模型的独特问题本文的目标本文主要工作汉语统计语言模型参数训练的优化基于语言元素的汉语统计模型汉语语言模型的自适应方法面向手机类设备的智能拼音汉字输入方法 2 汉语统计语言模型参数训练的优化问题的分析汉语统计模型的准确构建和优化涉及到以下几个问题：词表的确定（生词识别）分词参数估计三者存在因果关系词表←→分词分词←→参数估计（模型）参数估计（模型）←→词表优化分词-生词识别-参数估计迭代算法的提出非迭代过程的缺点：几个过程不能相互作用，相互促进迭代过程的优点：对分词的影响：更好地解决分词歧义问题，提高分词精度对生词识别的影响：减少不合理的候选生词排除伪生词，生词自动消歧，减少后处理过程对模型的影响：逐步优化词表、提高参数估计精度、提高音字转换正确率基于N-gram信息的生词获取基本思想：N元对→词频过滤→互信息过滤→校正→生词获取词频互信息（Mutual Information）词频与互信息的关系候选生词的校正基于N-gram信息的生词获取结果分析 MI因素：准确率随着互信息值的升高而升高，但抽取出的元组的数量也随之减少； WF因素：准确率随着词频值的升高而降低，抽取出的元组数量也随之减少。影响结果的其他因素分词错误：“不容\易”、“和服\务” 量词：“个百分点”、“集电视连续剧”、“届世乒赛” 姓氏：“新华社记者刘”、“新华社记者王” 基于统计和规则方法的中文人名识别问题的提出主要方法规则方法：准确；规则库冲突、复杂、庞大统计方法：资源少、效率高；准确率低混合方法：取长补短本文方法：先规则，后统计；充分利用各种资源；采用分词预处理基于统计和规则方法的中文人名识别中文姓名用字特点（82年人口普查结果） 729个姓氏用字姓氏分布很不均匀，但相对集中有些姓氏可用作单字词名字用字分布较姓氏要平缓、分散名字用字涉及范围广某些汉字既可用作姓氏，又可用作名字用字人名识别系统知识库姓氏用字频率库和名字用字频率库：653个单姓氏，15个复姓，1894个名字用字人名识别系统知识库名字常用词表人名识别系统知识库称谓库三种类型只能用于姓名之前，如：战士、歌星、演员等；只能用于姓名之后，如：阁下、之流等；姓名前后皆可，如：先生、主席、市长等。称谓前缀表：“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等人名识别系统知识库简单上下文指界词表：约110个词动词：说、是、指出、认为、表示、参加等；介词：在、之、的、被、以等；正在、今天、本人、先后等。标点符号集人名出现在句首或句尾（包括分句）的机会比较大，标点符号可用来帮助判断人名的边界。顿号一边是人名时，另一边的候选人名的可靠性高。人名识别系统知识库非名字用词表：有些双字词，如：时间、奖励、纬度等不作名字用词，但因为组成它们的单字可作为名字用字，如果跟在姓氏后面，往往会将其与可作姓氏的字一起误判为姓名。例： “做\这\件\事\花\了\我们\一\段\时间\。\” 中文人名识别过程人名识别的具体实现 →姓氏判别 →名字识