网站大量收购独家精品文档,联系QQ:2885784924

大规模单语语料的索引与检索.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 卷 第 期 鞍 山科 技 大 学 学报 ! # ’,=!’=# 年 月 , $% $ ’()*+,’-.*/0+*1*234)/25 ’-7824*84+*9:480*’,’ ?4@=$% 6 ;6 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 大规模单语语料的索引及检索 康 伟 (鞍山师范学院高等职业技术学院,辽宁鞍山 ) ##A## 摘 要: 针对大规模单语语料资源,提出了采用 结构的二级索引机制;研究了索引及检索关键字的组 BC5)44 织策略,引入了检索关键字的词频因素,通过关键字的分组及短语的识别策略,有效地解决了检索效率和准确 率问题。 关键词: 语料库;词频;二级索引;检索 中图分类号: 文献标识码: 文章编号: ( ) :D!E# . #F%$CAA#$%#CACA 自 世纪 年代以来,机器翻译领域采用的方法基本上可以分为两大类,即基于规则( $ E G(,4C [] # )的方法和基于语料库( )的方法 。基于语料库的方法又分为基于统计的机器翻译 @+/49 H’)(/C@+/49 I 方法和基于实例的机器翻译方法,二者的区别在于:在基于统计的机器翻译方法中,知识的表示是统计 数据而不是语料库本身,翻译知识的获取是在翻译之前完成的,翻译的过程中不再使用语料库;而在基 于实例的机器翻译方法中,语料库本身就是翻译知识的一种表示形式(不一定是唯一的),翻译知识的获 取在翻译之前没有全部完成,在翻译过程中还要查询并利用语料库。 [] 基于实例的机器翻译思想最早是由著名的日本机器翻译专家长尾真( $ ++’J) 提出的。其基本 ; 设想是不通过深层的分析,而仅仅通过已有的经验知识,通过类比原理进行翻译。 基于实例的机器翻译以其良好的翻译质量越来越受到人们的青睐。目前国内外基于实例的机器翻 译多采用双语语料作为翻译资源。收集、整理双语语料相对较难,语料库的规模受到限制,很难达到很 高的匹配率。 大规模英文单语语料不仅是对汉英双语语料的重要补充,同时由于其来源于比较纯正的英语,对改 善译句的质量及规范也会起到很好的效果。同时单语语料的采集和整理较双语语料相对容易。正是因 为单语语料所起的作用是对双语语料的补充,这就意味着在双语语料中找不到匹配或相似的句子、句子 片断时,认为在单语语料中一定能找到。这就要求单语语料库要足够大。这就给索引及检索带来了挑 战

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档