- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种面向汉英口语翻译的
一种面向汉英口语翻译的
双语语块处理方法
程葳 赵军 徐波 刘非凡
(中国科学院自动化研究所模式识别国家重点实验室 北京 100080)
摘要:基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是,要将
其应用于口语翻译当中,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已
有单语语块定义的基础上,根据中、英文差异和口语翻译特性,从句法和语义两个层次提出
了一种汉英双语语块概念,并对其特点进行了分析。同时,针对中、英文并行语料库,建立
了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法,对汉英句子级
对齐的口语语料进行双语语块划分和对整,并以此为基础进行了基于双语语块的口语统计机
器翻译实验。结果表明,本文提出的双语语块定义符合口语翻译的实际需要,使用基于双语
语块的语料处理方法,能有效地提高口语系统的翻译性能。
关键词:统计机器翻译;口语翻译;语料库;语块
中图分类号:TP391
Bilingual Chunking for Chinese-English
Spoken-language Translation
CHENG Wei, ZHAO Jun, XU Bo and LIU Fei-Fan
(National Laboratory of Pattern Recognition, Institute of Automation,
Chinese Academy of Sciences Beijing 100080)
Abstract :Chunking is a useful step for natural language processing. The paper puts forward a
definition of bilingual chunks for Chinese-English spoken-language translation, based on both the
characteristics of spoken-language and the differences between Chinese and English. Some special
features of these chunks are also analyzed. Based on the definition and analysis, a method is
proposed to segment the chunks in bilingual corpora. This method includes two steps of the
automatic chunking and the manually modification. Using this method we got a chunk-aligned
Chinese-English bilingual corpus. A series of chunk-based statistical machine translation
experiments are then conducted which shows that the proposed definition and the bi-chunking
method can lead to great improvement to the quality of the Chinese-English spoken-language
translation.
Keywords :statistical machine translation; spoken-language translation; corpora; chunk
本文受国家“973”项目G1998030501A-06、国家自然科学基金重点项国家自然科学基金项
助;作者:程葳,博士研究生,主要研究方向为口语翻译;赵军,博士,主要研究方向为自
然语言
您可能关注的文档
- 合作与个性齐飞.doc
- 关于师德问题研究.ppt
- 我们身边的水污染.doc
- 重视中央空调外循环冷却水系统的杀菌灭藻.doc
- 国泰附加康健住院定额给付医疗保险条款.doc
- 旅行意外保险协议.doc
- 卞东方同志.doc
- 金猫里.pdf
- 微观经济学卞继红.ppt
- 隐逸诗人陶渊明的成就及对唐宋诗坛的影响.doc
- 山东省天一大联考齐鲁名校教研共同体2025届高三开学质量检测联考-政治试题(含答案).docx
- 浙江省Z20名校联盟(浙江名校高考研究联盟)2025届高三第二次联考-语文试卷(含答案).docx
- 重庆拔尖强基联盟2025届高三下学期2月联考-数学试题(含答案).docx
- 陕西省三重教育2025届高考预测卷(二)数学试卷(含答案).docx
- 浙江省温州市2025年2月2025届高三学业水平评估试题卷暨语数联考-语文试题(含答案).docx
- 浙江省Z20名校联盟(浙江名校高考研究联盟)2025届高三第二次联考-数学试卷(含答案).docx
- 湖北省圆创高中名校联盟2025届高三第三次联合测评-英语试卷(含答案).docx
- 高考报考如何选择城市----中国城市网络形象指数报告(2025)发布版.pdf
- 力控组态软件培训教程.pdf
- 永宏PLC-232通讯实例.pdf
最近下载
- 《无人机艺术摄影》课件——项目5 无人机拍摄视频.ppt VIP
- HD21.2 S3-1997+A1-2002 额定电压450/750V及以下热塑性绝缘电缆 第2部分:试验方法(中文).pdf VIP
- 基于体卫融合的儿童青少年运动指南(2024) .pdf VIP
- GB_T 18920-2020 城市污水再生利用城市杂用水水质.pdf VIP
- 陀螺仪减震装置及无人机.pdf VIP
- 12J003室外工程(标准图集).docx
- 项目管理办公室PMO实践指南.docx VIP
- 最新医疗器械分类标准目录.pptx VIP
- 风电场项目风机及附属设备吊装工程(混塔风机吊装施工方案).pptx VIP
- DLT 5265_水电水利工程混凝土搅拌楼安全操作规程.pdf VIP
文档评论(0)