- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多民族语言农业生产管理专家系统与决策支持解决方案
针对民族地区群众在应用农业信息技术过程中的特殊性和薄弱性,通过模块构件集成应用,利用农业领域翻译模板抽取技术、汉民语料库技术、即时翻译技术、翻译模型构造技术、语言模型训练即时、统计机器翻译的编/解码器技术、民族语言显示和编码转换技术、软件工程技术、多民族语言知识获取与推理技术等,对现有“农业信息处理与知识管理平台”进行多民族语言知识获取、多语言文字适应、系统强壮性、平台可扩展性等几个方面的改造和提高,构建了多民族语言农业智能信息处理系统。本文以汉/蒙、汉/藏、汉/傣、汉/维和汉
/彝双语农业智能信息专家系统为例,介绍具体实现与应用,获得构建多民族语言农业智能信息专家系统的一般方法。
多民族语言智慧农业即时翻译系统结构
针对民族地区对民语即时翻译的需求,考虑到多种民族语言的不同特点,采用了“有限词汇”和“动态翻译”的技术路线,以基于统计的机器翻译方法,开放性的结构设计思想研制了多民族语言即时翻译系统。开放结构分为三个部分:一是将“有限”范围限制在农业领域内,建立多民族平行专业词典和语料骨架,供不同民族语言的使用者进行对应翻译,作为基础语料使用;二是在知识获取阶段,采用统计机器翻译思想,利用不同民族地区的农业知识库构造了语言模型部分、翻译模型以及解码器;三是在知识推理阶段,首先对每一条汉语 语句进行断句、分词处理,然后通过解码器对应民族语言进行翻译处理,最后显示处理,针对未被翻译的词条进行未登陆词学习。
多民族语言智慧农业即时翻译系统结构如图3-3所示,系统由六个模块组成,各个模块及其功能如下:
(1)显示界面模块,利用网页中表格设置的技术,分别显示汉语和民族语言的推理结果。其中民族语言的结果按民族语言的显示习惯以弹出对话框的形式出现。
(2)推理机模块,釆用Agent技术基于模型知识表示和案例推理的方法,把用户在多种编辑器下写好的专业领域知识(也称知识库)
“转变”成计算机应用软件,这个应用软件将模拟专家思维过程,提出专家咨询意见。
(3)翻译请求模块,利用客户机服务器技术,主要是完成翻译的前期工作和后期的多语言显示可能需要的工作。前期工作主要是对源语言(汉语)进行文本断句,然后进行汉语分词,再进行相应的预处理,把结果发送给服务模块。
(4)翻译服务模块,利用客户机服务器技术,主要完成解码的工作,由解码器构成。解码器就是把客户端发送来的预处理的结果进行解码,解码成所需的目标语言。
(5)多民族语言显示模块,根据各个民族语言的特点并以网页的形式显示其推理结果。
(6)知识库模块,主要存储农业领域的专家知识。
图 3-3 多民族语言智慧农业即时翻译系统结构图
多民族语言农业智能信息处理系统机器翻译流程
农业智能信息处理系统知识推理过程中的汉/民机器即时翻译, 釆用改进的基于短语的统计机器翻译方法。
翻译请求模块
发送请求
民族语言转换
接受端
推理结果结果界面民族语言显示汉语分词文本断句
推理结果
结果界面
民族语言显示
汉语分词
文本断句
客户端
翻译服务器端
如图3-4所示,翻译流程主要可分为以下六个步骤:
(1)首先把咨询工作中所用的汉语知识进行文本断句;
(2)把进行文本断句的结果进行汉语分词;
(3)分词后的结果交给发送请求模块,然后发送请求模块对分词后的结果进行打包。建立客户端,通过客户端向翻译服务模块发送要翻译的文件;
(4)翻译服务器端响应翻译请求,把应答的结果返回给接收端。应答的结果即为翻译后的拉丁转写形式的民族语言;
(5)接收端接收到翻译后的结果进行民族语言的编码转换,即把民族语言拉丁转写形式转化成民族语言传统的书写形式;
(6)民族语言转换后以网页的形式显示在推理机界面上,获得推理后的最终咨询结果。
多民族语言农业信息平台中的翻译关键技术
农业领域翻译模板抽取技术
以农业术语为枢纽,借鉴土耳其Bilkent大学GuvenirCicekli的TTL(Translation Template Learner)启发式方法,从两对互译的汉民双语对齐实例中,通过比较两个实例句子中的相同部分和不同部分,将相同部分作为常量,不同部分作为变量,再建立源语言和目标语言变量之间的对应关系,构建农业领域词汇的短语模板。
翻译模型构造技术
在知识获取阶段,增加语言模型构造部分,利用统计机器翻译思想,对不同民族农业语料库对齐训练以及语言翻译模型的构造;配套开发了词语对齐的提炼工具、词语评分工具、短语抽取和短语评分工具。
语言模型训练
采用统计机器翻译领域公认的成熟开源语言模型训练工具
SRILM进行N-gram语言模型的训练;训练开始时选择了各种不同的平滑算法,这样训练结束后,就可以生成不同的语言模型;同时训练开始时还选择了生成的目标语言模型的文本和二进制文件两种格式。
基于统计机
原创力文档


文档评论(0)