- 1
- 0
- 约 8页
- 2017-10-16 发布于天津
- 举报
汉英机器翻译扩充词典的建设-ictaccn
汉英机器翻译扩充词典的建造*
刘群1,2 张彤2
1北京大学计算语言学研究所
2中国科学院计算技术研究所
liuqun@ict.ac.cn
摘要:本文首先介绍了我们在“面向新闻领域的汉英机器翻译系统”中语言资源建设的总体框架,然后着重介绍了其中扩充词典的建设方法。扩充词典是相对于核心词典而言的,特点是词汇量大,每个词的信息相对较少。扩充词典的建设包括以下几个阶段:收集;格式整理;词条拆分;词性标记归一化;词性标记补齐;词条合并。实验结果表明,采用这种方法,利用较少的人工,就可以得到规模很大、并初步可用的双语机器翻译词典,并且这部词典可以大大减少翻译中未定义词的数量,提高翻译的质量。
关键词:机器翻译,双语词典获取
引言
现在的机器翻译研究,从一种劳动密集型的研究方式逐步过渡到了一种资源密集型的研究方式。这二者的区别在于,在劳动密集型的研究方式中,语言学家的工作是为某个具体的机器翻译系统开发词典、规则库等语言知识库,其工作依附于某个具体的机器翻译系统,不具有独立性。而在资源密集型的研究方式中,语言学家和计算机工作者的分工更加明确。语言学家的研究成果以语言资源的形式呈现出来,而不是仅仅为某一个机器翻译系统服务,其工作具有一定的独立性。同时,这种分工导致了语言资源的共享,也使得计算机工作者在算法的研究中对于语言资源的使用有了更广泛的选择余地。
本文简要介绍了我们在“面向新闻领域的汉英机器
您可能关注的文档
- 核磁共振成像系统试验-复旦大学物理教学试验中心.doc
- 核磁共振法定量影响因素探析-中国药品标准.pdf
- 河南科技进步奖公示内容-廊坊科技信息网.doc
- 河流水面成像测速中的时均流场重建方法研究.doc
- 河北医学适用技术跟踪项目-河北医学情报研究所.doc
- 河北医学适用技术跟踪项目.doc
- 河北商贸学校新校区更换铝合金门窗工程招标文件共23页招标.doc
- 河北科技大学体育部.doc
- 河北德国阳光蓄电池报价价格属性-机电之家.doc
- 河北病原微生物试验室及试验活动备案表.doc
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
最近下载
- 骨科医院医疗质量委员会季度工作总结(3篇).docx VIP
- 深度解析(2026)《WST 414—2024 室间质量评价不合格原因分析》.pptx VIP
- 新22J01 工程做法参考标准.docx
- 2026年潍坊市招商发展集团有限公司公开招聘(12名)笔试参考试题及答案解析.docx VIP
- 有限空间作业安全培训试卷(含答案).doc VIP
- 2026年潍坊市招商发展集团有限公司公开招聘(12名)考试参考题库及答案解析.docx VIP
- 第二章《三维造型基础》构成要素课件.ppt VIP
- 新22G03 墙下扩展基础.docx
- 2023年度工程硕士模考模拟试题附参考答案详解【培优B卷】.docx
- (整理版)桐乡三中八年级英语下册第12周周周清 牛津.pdf
原创力文档

文档评论(0)