中科院自动化所评测技术报告(SYSTEM II) 魏玮 于东 王韦华 宗成庆 徐波 内容概要 技术说明与参评系统 短语系统 分层短语系统 基于依存树到串系统 前后处理 系统融合 CASIA_SYSTEM II英中翻译系统 评测环境概要 数据 总结 技术说明-短语系统 典型的短语系统[2] 非单调解码,任意跳转 对数线性模型 10个特征 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 扭曲概率 句子长度惩罚 短语惩罚 方向概率[3] IBM扭曲模型[4] 技术说明-分层短语系统 主要借鉴了Wei[5]的基本思想,引入分层短语的概念 有效地结合了短语模型和同步上下文无关文法 分层短语模型将语序信息包含在模型之中,克服了传统短语翻译的调序问题 沿用了统计线性对数方法进行概率计算,使用了如下6个特征: 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 句子长度惩罚 技术说明-依存树到串系统 在源语言端运用依存结构进行统计翻译的新模型:Dependency-String Structure Model (DSS模型) 由于计算资源和时间的限制,参加本次评测的系统仍然沿用和分层短语相同的文法 DSS解码算法的输入是一棵树,而不是一个串,所以线图是按照树节点来索引的,而不是按照串中的跨距(span)来建立索引的 解码时使用了8个特征,最后两个为依存子树的惩罚 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 句子长度惩罚 符合依存子树惩罚 不符合依存子树惩罚 技术说明-前后处理 前处理 时间,数字处理模块 地名,人名,机构名处理模块 英文转化为小写 预处理 乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的句子) 标点符号及数字变换(中文中的部分标点符号、英文中的双字节符号及数字) 英文缩写处理 中文分词、英文Tokenization 后处理 大小写转换:未翻译词保留其原始格式 格式转换:去除中文中的空格 未登录词 技术说明-系统融合[6][7] 技术说明-外部技术 汉语分词工具:计算所开发的ICTCLAS3.0 双语词对齐工具:GIZA++ 语言模型训练工具:SRILM工具包 英文词性标注工具:Stanford Log-linear Part-Of-Speech Tagger 英文依存树分析工具:Minimum-Spanning Tree Parser (MSTparser) 参评系统-CASIA_SYSTEM II 评测环境概要 软硬件环境 运行时间(约4000句测试集) 数据 开发数据: 新闻-2007 SSMT英中翻译测试集 科技-CWMT08提供的Special语料中随机挑选200句 翻译模型训练数据: 新闻-CWMT08提供的Common,约85万句对和;NIST MT08评测提供语料,大约670万句对 科技- CWMT08提供的Special部分语料,约52万句对; NIST MT08评测提供语料,大约670万句对 语言模型训练数据: LDC2007T38提供的Chinese Gigaword Third Edition,约3900万句 数据过滤 过滤的原则:根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉) 新闻领域 将NIST语料根据新闻任务发布的训练语料进行过滤 翻译模型最后使用的语料为538万句对 科技领域 将NIST语料根据科技任务发布的训练语料进行过滤的 翻译模型最后使用的语料为468万句对 语言模型也同样使用了过滤技术,最后过滤剩余1000万句 测试结果 新闻领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 3个来自于基于分层短语的翻译系统(HPB) 3个来自于基于依存树到串的翻译系统 (DHPB) 测试结果 科技领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 2个来自于基于分层短语的翻译系统(HPB) 2个来自于基于依存树到串的翻译系统(DHPB) 2个来自于基于短语的系统 (PB) 总结 新闻领域 借鉴了汉英评测的经验,加入了英文命名实体翻译及前后处理模块; 并且针对英文的特点,在解码中融入句法分析树,在不增加时空复杂度的前提下提高了翻译质量 科技领域 由于缺乏这方面的语料资源,我们只能借用新闻领域的语料,利用数据过滤技术得到相关资源 但由于在选取开发集时,其规模和相关性受到制约,所以最后的参数训练并不能有效得收敛到最优 如何能够充分利用有限的资源,开发出更加鲁棒的训练及解码算法,是我们下一步要思考的问题 参考文献
您可能关注的文档
- 八步区2018年薇甘菊疫情监测普查工作方案.DOC
- 公田私田-西安第八十九中学.PPT
- 公寓SOHO等字样2平面及立面造型应区别于住宅项目办公.PPT
- 六安垃圾场周边环境整治工程18Model.PDF
- 六年级下册丹阳窦庄中心小学蒯书芳食物链.PPT
- 公选课程开课申请表-青海大学教务处.DOC
- 兰州大学网络与继续教育学院本科生毕业论文设计.DOC
- 共1课时奇妙的对联高中语文.PDF
- 共同研讨高校合作性学习课程教学改革.PPT
- 关注课堂预设与生成焕发课堂生命力.DOC
- 江西省赣州市25校联考2025-2026学年高一年级上册11月期中数学时间(解析版).pdf
- 《T_JXTSS 002—2026__浮梁县茶园有机化管理技术规程编制说明》.pdf
- 2025年二级建造师核心考点公路工程实务解析.pdf
- 深度解析(2026)《GBT 26596-2011光学和光学仪器 大地测量仪器 术语》.pptx
- 《T_JXTSS 003—2026__浮梁县茶园生态低碳化管理技术规程》.pdf
- 江西省赣州市八校联盟2025-2026学年高二年级上册10月月考生物试题.pdf
- 《T_JXTSS 003—2026__浮梁县茶园生态低碳化管理技术规程编制说明》.pdf
- 深度解析(2026)《GBT 26597-2011光学纤维传像元件试验方法》.pptx
- 河南省汤阴县第一中学2026届高一物理第一学期期中考试试题含解析.doc
- 湖南省长沙市2025-2026学年高一年级上册期末考试化学试题(原卷版).pdf
最近下载
- 高三数学模拟题大题.doc VIP
- 市政工程建设项目质量管理手册(标准版).docx VIP
- 2025反无人机系统架构研究报告.pdf VIP
- 2025年反无人机枪技术发展路线图及产业布局报告.docx VIP
- 五菱宏光保养保修及用户手册.pdf VIP
- 粉面品类新品趋势洞察报告2025.pdf VIP
- 华创交运行业低空60系列深度研究报告:国家安全视角看反无人机系统,急需与刚需,“可选”到“必选”——华创交运低空60系列研究.pdf VIP
- 华创交运低空60系列研究-七-:低空新基建,哪个环节或放量?雷达行业初探.pdf VIP
- 自建房培训课件下载安装.ppt VIP
- 2025年度民主生活会个人对照检查发言材料汇编(五个带头范文八篇).docx VIP
原创力文档

文档评论(0)