基于C语言模型计算工具.docVIP

下载本文档

7
0
约3.81千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于C语言模型计算工具.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于C语言模型计算工具

基于C语言模型计算工具　　摘要：由于SRILM语言模型计算工具包需要把全部模型数据载入内存，有些语言模型为几百兆或几千兆，对于个人计算机来说，每一次启动应用程序要载入几百兆的数据不仅耗内存，也很耗时，SRILM不适合于面向个人计算机的软件。该文中，为了解决面向个人用户的汉维机器翻译语言模型的计算问题，在SRILM基础上，实现了基于C#的即需即载数据的语言模型计算工具，数据用二分查找进行检索。　　关键词：维吾尔语；语言模型；二分查找；C# 　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2013）33-7590-03 　　自然语言处理技术的普及与广泛应用很大程度上得益于统计语言模型的发展[1]。统计语言模型是关于自然语言的统计数学模型，它主要用来归纳、发现和获取自然语言在统计和结构方面的内在规律。　　统计语言模型通常使用概率和分布函数来描述词、词组及句子等自然语言基本单位的性质和关系，它体现了自然语言中存在的基于统计原理的生成和处理规则[1]。上世纪70年代末，J.K.Bake和F.Jelinek首次将隐马尔可夫模型（Hidden Markov Model：HMM）应用于语音识别领域[1]。　　在此之后，统计语言模型得到了进一步的发展，出现了不少新的模型，逐渐深入渗透到了自然语言处理的各个层面，并且在很多其他的应用领域都取得了极大的成功：　　在机器翻译领域，1990年，来自IBM公司的Peter Brown等人提出了统计机器翻译模型。他们使用一种噪声信道模型，把机器翻译看成是一个信息传输的过程。在模型中，他们用N-gram统计语言模型描述了目标语言文本出现的概率。通过估计目标语言翻译成源语言的条件概率，来寻找最优的译文。在此之后，Och等人在IBM模型的基础上，提出了基于最大熵的统计机器翻译方法。在信息检索领域，1998年，Pnoet和Corft首次将统计语言模型应用到信息检索中。在手写汉字识别领域，模板匹配方法是一种基于统计模型的模式识别方法。此外，还有基于HMM的识别方法。1992年，Srihari等人将统计模型和句法信息结合在一起进行手写汉字识别[1]。　　1 统计语言模型　　简单地说，语言模型就是用来计算一个序列概率的模型，即[P（W1，W2，...，Wk）]。利用语言模型，可以确定哪个序列的可能性更大，或者给定若干个成员，可以预测下一个最可能出现的成员。再举一个机器翻译的例子，给定一个汉语句子为艾山在公司里看电影，可以翻译为Ai shan is watching Movie at Company、Ai shan at Company is watching Movie等等，同样根据语言模型，我们知道前者的概率大于后者，所以翻译成前者比较合理。序列[S=W1，W2，...，Wk]，它的概率可以表示为：　　由于上式中的参数过多，因此需要近似的计算方法。常见的算法有n-gram模型方法、决策树、最大熵模型、最大熵马尔科夫模型、条件随机场、神经网络等方法。　　1.1 n-gram语言模型　　n-gram模型也称为n-1阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前面n-1个词相关。因此（1）式可以近似为：　　当n取1、2、3时，n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率[P（Wi|Wi-n+1，...，Wi-1）]。假设词表的大小为100，000，那么n-gram模型的参数数量为1000，000n。n越大，模型越准确，也越复杂，需要的计算量越大。最常用的是bigram，其次是unigram和trigram，n取≥4的情况较少。　　1.2 n-gram模型的参数估计　　模型的参数估计也称为模型的训练，一般采用最大似然估计（Maximum Likelihood Estimation，MLE）的方法对模型的参数进行估计：　　C（X）表示X在训练语料中出现的次数，训练语料的规模越大，参数估计的结果越可靠。但即使训练数据的规模很大，如若干GB，还是会有很多语言现象在训练语料中没有出现过，这就会导致很多参数（某n元对的概率）为0。举个例子来说明一下，IBM Brown利用366M英语语料训练trigram，结果在测试语料中，有14.7%的trigram和2.2%的bigram在训练中没有出现；根据博士期间所在的实验室统计结果，利用500万字人民日报训练bigram模型，用150万字人民日报作为测试语料，结果有23.12%的bigram没有出现。　　这种问题也被称为数据稀疏（Data Sparseness），解决该问题可以通过数据平滑（Data Smoothing）