机器辅助翻译系统用词典的构造与管理.pdfVIP

机器辅助翻译系统用词典的构造与管理.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器辅助翻译系统用词典的构造与管理 曾华琳 李堂秋 曹冬林 厦门大学计算机科学系,厦门,361004 摘 要 本文从一个机器辅助翻译系统出发,采用分层次的多级索引结构,构造了一个具有综合 作用的词典,由系统词典和用户词典组成,该词典的使用穿插于整个系统的使用,在实际的使用过 程中发挥了较高的效率。文章详细阐述了构造词典的整个过程。 关键词 人工智能,机器翻译,词典,索引 1 泣I--- 1 〕 .t三 机器翻译的各个过程均需要频繁地访间词典,词典的结构及词条的义项直接影响整个机 器翻译系统的效率和翻译质量;辅助翻译系统不仅仅要考虑词典的构造方式,更重要的是组织 管理词典。根据大量统计资料得出的结果[[1],在英文词典中,2万个最常用的英文单词对普通 用户已经足够。但是对于机器辅助翻译系统来说,这是远远不够的。在我们的系统中,英汉词 典拥有51,1713词条,内容涵盖生物、化学、数学、计算机等多个领域相关词汇。汉英词典拥用 词条11,7910条。系统还要提供给用户自定义的词典,用于收集具有用户风格的词条。系统必 须提供用户相应的词典管理功能。 2 词典的组织结构 考察常见的词典组织结构,从其存储形式来看,可分为定长字段型,变长字段型和定长字 段变长字段混合型三种;从数据组织形式来看,可分为无索引型,一级索引型,二级索引型和多 级索引型等四种C[z]0 2.1系统词典的组织结构 对于系统词典,采用二级索引方式;由于词典词条数巨大,简单的二级索引方式也会造成 索引表过大,但是如果单纯的减小索引表的规模,将会降低搜索效率。考察词典的组成,其中单 字词条的数量占总数的35.84 ,于是,将单字词条单独做一个词典,二字以上短语做一个词 典,分别做出各自的索引,再融合到统一的一级索引文件中去,实践证明,这样的做法大大提高 了词典的搜索效率。具体结构如下: (1)变长方式存储 词典中词条的格式为: 冲条正川间隔符}词性1{间隔符}译文1{间隔符}一 }词性n}间隔符}译文n同条间间隔州 (2)二级索引方式,其中,一级索引的格式如下: 118 I.ijq条首字正文}IF1!单词索III二级1!地址} 索引如上所述,由于是统一的一级索引文件,所以以词条首词作为一级索引。其中标志位 IF1Obit)表示是否拥有单词索引,如有,单词索引里为单词词典文件中4个字节的索引地址。 对于单词词典的一级索引,取英文常用5000词,考察其在词典中的分布情况如下(表1): 表 1单词在词典中的不均匀分布 单词 1 单词2 间隔单词数 文件中偏移字节数 a abandon 1085 39971 ant anticipate 629 21409 bled bleed 4 103 certainly certainty 1 38 常用词的分布情况很不均匀,于是平均分布索引词条,包括常用词在内,共取6000词作为 索引词,总词典文件大小6MB,保证2KB分布一个索引。这样的平均分布的素引结构在查找 索引时可以有效的提高查找效率,避免常用词局部化集中出现。单词索引放在一级索引中,是 为了如果一次查找到单词就可以直接获取该单词在词典文件中的位置,取出词条,而无需进行 二次查找。 二级索引的格式如下: }词条正文}单词索弓!}IF2{短语索弓!} 二级索引的格式较为简单。关于词条首字正文,考察一级索引6000词中最长的单词长度 为15字节,最多的为7字节,取8字节为词条首字正文的宽度,词条不够宽度的地方补。。标 志位IF2lbit)表示是否拥有短语索引,如有,短语索引里为4个字节的索引地址,其中短语索 引指向以该词打头的第一个短语。这样的结构有利于快速定位以某词打头的短语,这在分词系 统中有很好的效果。 2.2 用户词典的组织结构 用户词典可以有多个,由用户根据词典分类

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档