网站大量收购闲置独家精品文档,联系QQ:2885784924

李楠数理统计大作业.doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言中困惑度问题的统计分析 姓名:李楠 学号:20120102015 专业方向:计算机应用技术 2012年11月2日 摘 要 数理统计学是研究随机现象统计规律性的一门数学学科,它以概率论为基础,研究如何收集、整理和分析带有误差的随机数据,建立适当的随机数学模型,并在此基础上对随机现象的本质规律性给出推断和预测,为决策提供科学依据。 本文依据数理统计学的知识,通过测试一百多篇语料的困惑度,得出110个样本数据,通过对困惑度样本数据加工处理和汇总后,给出矩估计和极大似然估计、给出参数估计区间、给出参数的检验和检验,进行非参数拟合优度检验,从而得出相应的结论,即判断一个语言模型的好坏。 关键词:困惑度;数理统计;参数估计;假设检验 目录 前言 3 一、采集样本及数据整理 4 1、数据的搜集方法及说明 2、数据整理:给出频数、频率分布表及说明 3、画出直方图和折线图并给出说明 4、画出经验分布函数 二、假定总体服从正态分布,给出,的估计 10 1、矩估计法 2、极大似然估计 3、若总体不是正态分布请探求其参数估计,并写出方案 三、参数区间估计 12 1、方差未知,求数学期望的置信区间 12 2、数学期望,均未知,求方差的置信区间 13 注:可先假设总体是正态时进行讨论,若总体不是正态的要给出探求方案 四、 参数的假设检验 14 1. 样本统计数据的t检验 14 2. 样本统计数据的检验 15 五、非参数假设检验(拟合优度检验或K—S检验) 17 1、拟合优度检验或K—S检验检验 2、当上述检验被接受或被拒绝时,请结合实际问题给出说明 六、结论 20 总结、评述和体会 参考文献 21 前 言 自然语言处理是一项十分庞大而繁复的工程,它是自然科学和社会科学交叉的学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科学,而且对人知语言学,心理学,以及对国民经济和社会的发展都会起到推动作用。 近几年来,全球范围内的自然语言处理学界兴起了对大规模语料库的研究兴趣。这主要是因为计算机产业和信息处理的迅速发展,计算机的存储能力和运算速度大大提高,使得在计算机中存储大量的文本和文本方便快速地扫描,检索成为可能;因特网上的电子文本数量与日俱增,可以比较容易地获得大量语料。另外语音识别领域在20世纪70年代开始逐渐采用概率模型替代原来的基于规则的识别手段,概率模型的参数是通过大量语料经过统计训练得来的。概率模型的识别效果大大优于使用规则的方法,这给自然语言处理领域对文本语料的研究提供了有益的效果。 语言模型在自然语言处理中占有重要的地位,尤其在基于统计模型的语音识别、机器翻译、句法分析、短语识别、词性标注、手写体识别和拼写纠错等相关研究中得到了广泛应用。 其中,在设计语言模型时,我们通常用困惑度来衡量语言模型的好坏。在语言模型中,它的困惑度越小,说明它越接近真实语言的情况。本实验通过对110篇语料的测量,得出110个困惑度样本的值,对他们进行加工处理,给出关于样本的参数和的极大似然估计,参数区间估计,参数检验和检验以及利用拟合优度检验进行的非参数检验。从而来判断一个语言模型的好坏,为设计语言模型提供依据。 采集样本及数据整理 数据的搜集方法及说明 本实验通过利用CMU—剑桥统计语言模型工具包对110篇语料进行处理,得出他们的困惑度值,如表1.1所示。 表1.1 110篇语料困惑度样本值 189.41 169.17 199.90 179.31 205.47 183.34 178.96 179.81 189.92 159.31 216.81 188.42 221.34 168.47 159.36 211.46 194.03 198.75 190.37 205.18 187.23 191.39 198.65 193.24 199.05 176.82 188.36 183.09 197.51 197.36 199.64 194.93 192.31 172.84 181.42 188.01 196.54 194.17 194.00 183.06 186.97 209.15 172.45 177.42 173.18 164.58 180.42 190.63 175.43 175.24 177.36 184.69 188.67 187.95 165.85 182.31 194.76 196.52 202.66 181.53 185.67 176.82 194.63 194.67 220.81 184.16 192.15 180.23 196.34 179.19 196.31 1

文档评论(0)

ktj823 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档