- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要本论文以统计模型为基础,在参考了大量前人工作的基础上,对汉语词法分
摘要
本论文以统计模型为基础,在参考了大量前人工作的基础上,对汉语词法分 析、口语句子切分和机器翻译评估进行了较为深入的探讨和研究。汉语词法分 析是大部分中文处理的第一步,其重要性不言而喻;句子切分是语音翻译中连 接语音识别和文本翻译的桥梁,无论语音识别和文本翻译单独的效果有多么好, 这座桥没搭好,综合的性能依然无法提高;机器翻译的自动评估是构建机器翻 译系统中很重要的辅助工作,其可以加速翻译系统的开发速度,缩短其开发周 期。简言之,这三方面同属于自然语言处理的基础的研究领域,其效果直接影 响到高层应用的水平。
在词法分析上,我们茅4用隐马尔可夫模型(m心Ⅱ)提出了一种融和了分词、
词性标注和命名实体识别的一体化诃法分析方法。最初我们用基于类别的 HMM,其优点是对词的覆盖面广,系统开销小;缺点是不能精确地预测词的出 现概率。为了提升模型的准确率,我们引入基于词汇的}IMM,并将两者有机地 结合,并用一个“词到字”的概率平滑方法对基于词的HMM进行平滑。实验 结果显示,我们的混合模型由于综合考虑到了字、词、词性以及命名实体的知 识,在切分的准确率和召回率上都明显优于单纯基于类别或者基于词的HMM。 此外在分词系统的实现上,我们借助对通用分词系统APCWS的整体框架和各功 能模块的介绍,讨论了如何有效地存储和加载数据等一些技术细节问题。
在口语句子切分上,我们提出了基于双向N元模型和最大熵模型的句子切分 算法,这种算法由于通过最大熵有机地将正、逆向N元切分结合起来,综合考 虑到了切分点左、右的上下文,从而得到了很好的切分效果。我们在中、英文 语料上训练我们的模型并作铡试,结果显示其在性能上明显优于基本的正向N 元切分。在此基础上,我们分析并对比了各模型的切分结果,从而验证了我们 当初对于模型的预计:其一方面保存了正向N元算法的正确切分,一方面用逆 向N元算法有效地避免了正向算法的错误切分。
在机器翻译的自动评估上,我们首先介绍了两种常用的基于参考译文的评估 算法BLEU和NIST,然后给出了一种基于N元模型的句子流畅度评估方法E3。
这种方法不需要借助任何参考译文,它通过区别地对待句子中不同的词的转移 概率,达到了很好的评估效果。
综上所述,本文针对汉语词法分析、口语句子切分和机器翻译评估提出了以 统计模型为基础的创新方法,它们不仅仅在科学方法上有重要的参考价值,对 于实际应用中也有重要意义。
ABSTRACTThiS
ABSTRACT
ThiS thesiS proposed our novel statistical approaches On Chinese word analysiS,utterance segmentation and automatic evaluation of machine translation(MT).Word analysiS iS the first step for most application based on Chinese language technologies:utterance segmentation iS the bridge which connects speech recognition and text translation in a speech translation system:automatic evaluation of machine translation(MT) system can speed the research and development of a MT system,reduce its developing cost.In short,the three aspects all belong to the basiC research area of Natural Language Processing(NLP)and have Significant meaning to many important appl ications such as text translation,speech trans】atj on and SO on.
In Chinese word analysiS,we proposed a novel unified approach based on HMM,which efficiently combine word segmentation,Part of Speech(POS) tagging and Named Entity(NE)recognition.Our first model is a
您可能关注的文档
- 国有中小企业扭亏增盈策略研究与实践-工业工程专业论文.docx
- 规整填料在多种压力条件下混合特性的实验研究-化学工程专业论文.docx
- 广州市林业信息工程构架分析-森林经理学专业论文.docx
- 贵州经济景气监测预警系统研究-控制工程专业论文.docx
- 国内下一代证 券交易系统研究及实践-软件工程专业论文.docx
- 关于在英语课堂上语言迁移策略的使用-外国语言学及应用语言学专业论文.docx
- 关于我国证 券投资基金治理结构研究-会计学专业论文.docx
- 关于SM2快速标量乘法协处理器的研究-信息安全专业论文.docx
- 关于中国汽车工业供应链管理的设想-工商管理专业论文.docx
- 郭熙“三远”之美学解析-文艺学·美学专业论文.docx
最近下载
- 《供求关系解析》课件.ppt VIP
- TB 10420-2018铁路电力工程施工质量验收标准_(高清-无水印).pdf VIP
- 2023年资料员资格考试题库附参考答案(完整版).docx
- 标准图集-22ZTJ012 2H全效凝胶隔热保温墙体及隔声楼板构造.pdf VIP
- 母婴保健助产技术考试试卷.doc VIP
- 水头损失计算.xls VIP
- 公共建筑设计原理 配套课件.pptx
- 医务工作者医德医风培训专题课件——恪守医者初心 筑牢医德防线.pptx VIP
- (正式版)D-L∕T 5783-2019 水电水利地下工程地质超前预报技术规程.docx VIP
- 污水处理厂安全生产培训资料课件.pptx VIP
原创力文档


文档评论(0)