汉语统计语言模型的n值分析-中文信息学报.pdfVIP

下载本文档

5
0
约1.25万字
约 7页
2017-11-25 发布于天津
举报
版权申诉

汉语统计语言模型的n值分析-中文信息学报.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉语统计语言模型的n值分析-中文信息学报

中　文　信　息　学　报第 12 卷第 1 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo1. 12 No. 1 汉语统计语言模型的N 值分析①② 张树武　黄泰翼中科院自动化所模式识别实验室 ,北京 2728 信箱 100080 ( ) 【摘要】　N 元语言模型 n - gram 作为统计语言处理的主要方法 , 目前在汉语语言处 ( ) 理词性标注、字符识别、语音识别等中已得到广泛的应用。但是 ,具体 N 取何值为较优 , 目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发 ,综合比较和分析了基于汉语词的N 元语言模型中N 值的选择。并得出结论 :对于基于真实词的汉语 N 元语言模型 ,N 的取值范围应介于 3 至 6 之间 ,且 N = 4 为较优。这一结论将有助于汉语统计语言处理的发展。【关键词】计算语言学、语言模型、语音识别一、引　论 N 元语言模型作为统计语言处理的主流技术已被广泛应用于语音识别、词性标注、文字识别等实际的语言处理应用中。对于汉语言的处理 ,近几年来国内也有许多研究者采用和实验了各种模式的N 元语言模型去处理语言研究中的一些实际问题并取得了较好的效果。然而 ,对于 N 值的评价 , 目前尚没有一致的评判准则。从理论上分析 ,N 值愈大 ,所反映的语序愈逼近真实的句法模式 ,因而会有更佳的语法匹配效果。但是从实际应用的角度考虑 ,N 值的增大又会带来存储资源的急剧扩张和因统计数据稀疏而造成的评估误差。事实上 ,对于 N 元语法的N 值确定 ,可以在语句模式的近似表示和计算可行性之间找到一个有效的折衷。许多实验表明 ,N 值的不断变大对实际系统性能的改善并非成正比关 ( ) 系 ,而是随 N 值的增大逐渐呈平稳趋势如图 1 所示。关键在于寻找一个较优的N 值或 N 取值范围。图 1N 值对系统性能影响示意 ① 国家自然科学基金资助。项目批准号 :695750 18 ② 本文 1997 年 5 月 6 日收到 35 ) 　　对于汉语语言处理 ,N 元语言模型的功能可归结为以下三个方面。1 对汉语语句模式的近似表示 ;2) 依联接概率自动求解生词能力 ;3) 对应用系统性能的实际改善。结合汉语音文转换系统的构造 ,本文从以上三方面综合分析基于词的汉语 N 元语言模型 N 值范围的较优取值。二、N 元统计模型对汉语言语法模式的逼近 ( ) N 元语言模型的一般可以用 N 阶马尔可夫链模型来表征如式 2 - 1 所示。 n - 1 N P ( W) = P ( W / W …W ) × P ( W / W …W ) 式 2 - 1 i 1 i - 1 i i - n +1 i - 1 i = 1