汉语词与句子切技术及机器翻译评估方法研究.pdf

汉语词与句子切技术及机器翻译评估方法研究.pdf

汉语词与句子切技术及机器翻译评估方法研究

摘要 本论文以统计模型为基础,在参考了大量前人工作的基础上,对汉语词法分 析、口语句子切分和机器翻译评估进行了较为深入的探讨和研究。汉语词法分 析是大部分中文处理的第一步,其重要性不言而喻;句子切分是语音翻译中连 接语音识别和文本翻译的桥梁,无论语音识别和文本翻译单独的效果有多么好, 这座桥没搭好,综合的性能依然无法提高;机器翻译的自动评估是构建机器翻 译系统中很重要的辅助工作,其可以加速翻译系统的开发速度,缩短其开发周 期。简言之,这三方面同属于自然语言处理的基础的研究领域,其效果直接影 响到高层应用的水平。 在词法分析上,我们茅4用隐马尔可夫模型(m心Ⅱ)提出了一种融和了分词、 词性标注和命名实体识别的一体化诃法分析方法。最初我们用基于类别的 HMM,其优点是对词的覆盖面广,系统开销小;缺点是不能精确地预测词的出 现概率。为了提升模型的准确率,我们引入基于词汇的}IMM,并将两者有机地 结合,并用一个“词到字”的概率平滑方法对基于词的HMM进行平滑。实验 结果显示,我们的混合模型由于综合考虑到了字、词、词性以及命名实体的知 识,在切分的准确率和召回率上都明显优于单纯基于类别或者基于词的HMM。 此外在分词系统的实现上,我们借助对通用分词系统APCWS的整体框架和各功

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档