- 51
- 0
- 约6.12千字
- 约 8页
- 2017-11-23 发布于贵州
- 举报
自然语言概率语法模型(N-gram)的研究
自然语言概率语法模型(N-gram)的研究
摘要:本文主要介绍了基于语料库的自然语言处理技术,即语料库语言模型中常用的统计语言模型N-gram的研究,及其在语料库自然语言处理中的应用。对语料库的概率统计及在这过程中出现的一些问题的解决方法进行了比较系统的讨论,使读者对N-gram模型及其应用得到初步的理解。
关键词:马尔可夫模型;N-gram模型;复杂度(困惑度);平滑算法;后继统计训练算法。
1、引言
自然语言处理是一项十分龙大而繁复的工程,它是自然科学和社会科学交叉的学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的研究具有很强的生命力,是当代科学新的生长点,这不仅对信息科学,而且对人知语言学,心理学,以及对国民经济和社会的发展都会起到推动作用。
近几年来,全球范围内的自然语言处理学界兴起了对大规模语料库的研究兴趣。这主要是因为计算机产业和信息处理的迅速发展,计算机的存储能力和运算速度大大提高,使得在计算机中存储大量的文本和文本方便快速地扫描,检索成为可能;因特网上的电子文本数量与日俱增,可以比较容易地获得大量语料。另外语音识别领域在20世界70年代开始逐渐采用概率模型替代原来的基于规则的识别手段,概率模型的参数是通过大量语声语料经行统计顺练得来的。概率模型的识别效果大大优于使用规则的方法,这给自然语言处理领域对文本语料的 研究提供了有益的借鉴。
2、
原创力文档

文档评论(0)