- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
智能科学的机制主义“信息一知识一智能转换”理论的提出使得与这一
理论相关的许多基本概念和基本关系得到了初步的澄清,这不仅仅是一个
理论研究的命题,它已经在许多应用研究中取得了可喜的进展。本文就“信
息一知识一智能转换”理论在自然处理中的应用进行了下面的研究。
(1)作者参与了北京邮电大学智能研究中心在国家教育部“语信司”项
目《民文语料库建设规范标准及工具软件》中承担的汉语资源库建设工具
软件的开发。关于语料库的研究可以分成3个方面:工具软件的开发、语
料库的标注、基于语料库的语言分析方法。采集到以后未经处理的生语料
不能直接提供有关语言的各种知识,只有通过词法、句法、语义、甚至语
用等多层次的加工才能使知识获取成为可能。加工的方式就是在语料中标
注各种记号,标注的内容包括每个词的词性、语义项、短语结构、句型和
句间关系等。这种标注的方法可以认为就是“信息一知识一智能转换”理论
中“信息一知识转换”的具体实现。随着标注程度的加深语料库逐渐熟化,
成为一个分布的、统计意义上的知识源。利用这个知识源可以进行许多语
言分析工作,如根据从已标注语料中总结出的频度规律可以给新文本逐词
标注词性,划分句子成分等。
(2)作者提出了一种汉F1机器翻译的方法,这个基于实例的汉日机器翻
译系统包括翻译记忆、词表层EBMT和模板层EBMT3个引擎。从“信息一知
识一智能转换”理论的观点考察,EBMT(基于实例的机器翻译)的工作原理
是:“先把输入的信息进行分析,得到适当的单元(词语、短语或语句),
将它们同原先已经积累的实例单元进行比较,通过类比获得翻译的知识,
从而完成翻译的智能操作”。自上世纪40年代有电子计算机那天,人们就
丌始了对机器翻译的探索。但是50多年过去了,对于真实文本而占,其精
确度仍在50、60%之间,难度是很大的。特别是汉同机器翻译系统,问题更
大。汉R是两种分属不同语系的语言。汉语属于汉减语系,而同语的谱系
分类,一般来说,普遍认为至今还没有确定。汉语被认为是世界上最难学
-I.
习的语言(其次是匈牙利语,第三是芬兰语)。所以可以这样理解,汉只的
机器翻译的研究将给我们带柬重大的挑战。
(3)提出了一种基于实例的机器辅助写作翻译方法,设计并实现了这个
系统,用以辅助写作翻译过程,规范人与计算机的分工与协作。本系统已
经在网上正式发布,投入了试用。该系统可以对单词、词组、以及词的搭
配给出更精确的翻译解释。实际应用的结果也表明,它能有效地帮助中/英
文用户更流畅地书写和翻译英/中文,保证写作翻译的效率和质量。此系统
具有文本搜索、对应片段搜索和翻译记忆管理工具,文本搜索工具允许用
户查询已经翻译好的文本或参考文档;对应片段搜索工具帮助用户检索出
一个单词或一种表达方式在源语言和目标语言中的对应翻译结果;翻译记
忆管理工具保存了文本片段的在源语言和目标语言中的对应关系。从“信
息一知识一智能转换”理论的观点看,“基于实例的机器辅助写作翻译系统”
和“基于实例的机器翻译”在工作原理上有异曲同工之妙:它们所利用的
“信息一知识一智能转换”的原理颇为相似,但一个注重于写作外文,一个
注重于翻译外文。
关键词:语料库,基于实例的机器翻译,机器辅助翻译,双语语料库,翻
译记忆,搭配,实例
Abstract
transformis themechanism
Information-Knowledge.Intelligence
ofartificial isthelawa of
approach intelligence.Notonly subject
extensivetheoretical it has
also excelledin
study,but maior
in research.Thisstudiesthe
文档评论(0)