- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
德汉机词典的设计器宝陈勋计算中心
德 汉 机 器 词 典 的设 计
计算 中心 谢谢佥佥宝宝 陈陈 勋勋 郭 蔽蔽 ‘i
摘 要
本文主要叙述德 汉机器翻译 系统 (DEMTS)中的机器词典设计。 内容包 括 机
器词典 的规模、结构,存取方式和管理工具 。
一
、 概 述
木
机器翻译系统的质量好坏,速度快慢,很大程度上取决于机器词典的设计。对机器词典
的访 问贯穿于整个翻译过程 无论在词法分析 、句法分析、语义分析或转换生成过程 中都要
访 问词典。机器词典与翻译系统的关系如图 1所示。
刁
《
寸
德 图 I 机器词典和翻译系统的关系
?、
机器词典的设计涉及诸多因素。一般需考虑词典规模,词典结构,存取方式和词典管理
, 工具等因素。下面就正在研制的德汉机器翻译系统 (DHMTS)中的机器词典的设计展 开 一
渤 些讨论。
i
二、词典规模
L
词典规模或容量的设计应兼顾需要和可能两种情况。所谓需要是指翻译系统为保证翻译
质量对词典规模的要求。一般地说,词典中词条愈多,信息愈完善,则翻译质量愈高。然而,
词典规模愈大,需要的计算机资源也愈大。另外,建立一部大的词典,涉及的人力和物力也
是相 当可观的,因此,词典柏规模应综合考虑上面两个方面。一般情况下,建立一个包罗万
象韵机器词典是没有必要的,建立适用于某一个或若干个领域的词典是可行的。从 目前国际
上一些商用化的机译系统看,其机器词典被划分为基本词典和专业词典,有的还建立有用户
词典,允许用户 自己扩充,这种方法是可取的 考察一下国际上一些商用机译系统的机器词
典规模也许是有益的。表 1是部分结果。
初次设计词典时,规模可小一些,因为词典结构尚需与算法匹配。此外,词典的信息也
需要修正和完善。因此,开始时,规模小一些,有利于词典的结构调整和信息完善。
根据METAL德英机译系统的经验,5000条单词可 覆盖g0 的科技文献。我们的主 要
目标是翻译科技文献,而不是文学作品。在调查研究的基础上,DHMTS德汉机译系统 将 建
立2000条词汇的基本词典和3000条词汇的专用词典。
袭 l 国际上一些商用化机译系统的词典规横
机 译 系 统 语 种 基率词典 专墨词典 厢户词典 备 注
Bravicel Pak 日 英 40000 由用户建立
— —
ATLAS I型 英 日 5300 25oo00
ATLAS Ⅱ型 英 丑 5000 25Oooo
MELTRAN— I门 日 英 5OOo0 300o0
HICATs/E 日 奠
文档评论(0)