- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语语言模型研究及其在音转换中的应用
汉语语言模型研究及其在音字转换中的应用 计算机科学与技术学院 语言技术研究中心 刘秉权 2003年5月28日 1 绪论 本文研究的目的和意义 计算语言学概述 相关领域研究与发展综述 统计语言建模技术 基于统计的计算语言模型 给定所有可能的句子,统计语言模型就是一个概率分布 : 条件概率形式: N-gram模型: 统计语言模型的作用 信源-信道模型 : I:语言文本;O:声音信号、字符图像信号、拼音输入等。 语言模型: 统计语言模型建模方法 极大似然方法语言建模 贝叶斯方法 统计语言模型的评价标准 熵(Entropy) 交叉熵(Cross Entropy) 复杂度(Perplexity) 参数学习和数据平滑 参数学习 有指导学习--基于完全数据的最大可能性估计 无指导学习—(针对不完全数据的)具有隐含变量的参数训练过程—EM算法 数据平滑--Good-Turing估计 、回退平滑和线性插值技术;变长N-gram模型、网格方法、压缩模型 当前主要语言模型 N-gram模型 决策树模型 指数模型(最大熵模型) 整句模型 文法模型 概率上下文无关文法 链文法 概率依存文法 自适应模型 统计语言模型存在的不足之处 最成功的统计语言建模技术很少使用真实的语言知识 跨领域的适应能力差 不能有效处理长距离语言约束:为保证可行性,所有现有的语言模型都在文本的不同部分之间作了独立假设。 汉语语言模型的独特问题 本文的目标 本文主要工作 汉语统计语言模型参数训练的优化 基于语言元素的汉语统计模型 汉语语言模型的自适应方法 面向手机类设备的智能拼音汉字输入方法 2 汉语统计语言模型参数训练的优化 问题的分析 汉语统计模型的准确构建和优化涉及到以下几个问题 : 词表的确定(生词识别) 分词 参数估计 三者存在因果关系 词表←→分词 分词←→参数估计(模型) 参数估计(模型)←→词表优化 分词-生词识别-参数估计迭代算法的提出 非迭代过程的缺点:几个过程不能相互作用,相互促进 迭代过程的优点: 对分词的影响:更好地解决分词歧义问题,提高分词精度 对生词识别的影响: 减少不合理的候选生词 排除伪生词,生词自动消歧,减少后处理过程 对模型的影响:逐步优化词表、提高参数估计精度、提高音字转换正确率 基于N-gram信息的生词获取 基本思想:N元对→词频过滤→互信息过滤→校正→生词获取 词频 互信息(Mutual Information) 词频与互信息的关系 候选生词的校正 基于N-gram信息的生词获取 结果分析 MI因素:准确率随着互信息值的升高而升高,但抽取出的元组的数量也随之减少 ; WF因素:准确率随着词频值的升高而降低,抽取出的元组数量也随之减少。 影响结果的其他因素 分词错误:“不容\易”、“和服\务” 量词:“个百分点”、“集电视连续剧”、“届世乒赛” 姓氏:“新华社记者刘”、“新华社记者王” 基于统计和规则方法的中文人名识别 问题的提出 主要方法 规则方法:准确;规则库冲突、复杂、庞大 统计方法:资源少、效率高;准确率低 混合方法:取长补短 本文方法:先规则,后统计;充分利用各种资源;采用分词预处理 基于统计和规则方法的中文人名识别 中文姓名用字特点(82年人口普查结果) 729个姓氏用字 姓氏分布很不均匀,但相对集中 有些姓氏可用作单字词 名字用字分布较姓氏要平缓、分散 名字用字涉及范围广 某些汉字既可用作姓氏,又可用作名字用字 人名识别系统知识库 姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字 人名识别系统知识库 名字常用词表 人名识别系统知识库 称谓库 三种类型 只能用于姓名之前,如:战士、歌星、演员等; 只能用于姓名之后,如:阁下、之流等; 姓名前后皆可,如:先生、主席、市长等。 称谓前缀表:“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等 人名识别系统知识库 简单上下文 指界词表:约110个词 动词:说、是、指出、认为、表示、参加等; 介词:在、之、的、被 、以等; 正在、今天、本人、先后等。 标点符号集 人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。 顿号一边是人名时,另一边的候选人名的可靠性高。 人名识别系统知识库 非名字用词表:有些双字词,如:时间、奖励、纬度等不作名字用词,但因为组成它们的单字可作为名字用字,如果跟在姓氏后面,往往会将其与可作姓氏的字一起误判为姓名。 例: “做\这\件\事\花\了\我们\一\段\时间\。\” 中文人名识别过程 人名识别的具体实现 →姓氏判别 →名字识
您可能关注的文档
最近下载
- 联想超融合AIO H1000 V4.5.0 产品白皮书 R1.0 2020.08.14.pdf VIP
- 2026研究生考试复习必背考研英语单词表5500(精校打印).pdf VIP
- 《民法典》买卖合同讲解PPT课件.pptx
- 新版《河北省安全生产条例》宣贯培训.pptx VIP
- (高清版)DB43∕T 150-2022 棉胎 地标.pdf VIP
- QC080000有害物质管理体系培训.pptx VIP
- 房建给排水工程监理实施细则.doc VIP
- AI大模型训练大规模智算中心建设方案【239页WORD】.docx VIP
- 检查检验分级管理制度.docx VIP
- 翻转课堂联合TBL教学模式在耳鼻喉科护理教学中的效果评价.docx VIP
文档评论(0)