- 8
- 0
- 约6.85千字
- 约 51页
- 2018-03-09 发布于浙江
- 举报
[计算机软件及应用]统计机器翻译--基于HMM、结构、反向转换文法、有限状态转换机的翻译模型
* * 考虑到在平行语料分析中的可能性,吴德恺提出了统计ITG(SITG).在SITG中,每一条规则都有一个概率(类似于PCFG),这里用a和b表示句法规则的概率和词汇规则的概率. 对于一个给定的双语句对儿,利用SITG和动态规划算法可以计算出该句对儿的最佳句法分析结构,通过计算分析结构的最大似然概率实现结构歧义消解. * * 20 SITG称为随机语法信道模型,由于每个产生式都有一个概率,可以计算句对儿(e,c)所有可能的句法树q的联合概率Pr(e,c,q),实际中,利用viterbi算法近似的计算: C*=arg maxPr(e,c,q)Pr(c) * * 21 建立基于SITG的翻译模型的理论基础是:目标语言语法的镜像版可以实现源语言句子的分析. 基本方法是:先获取用于目标语言单语分析的上下文无关文法,在通过产生式镜像变换,词性映射和单词跳跃等处理,将上下文无关文法用于SITG. * * 22 产生式镜像变换:每一条产生式都变成两条,一条的规则右端生成符合的排列顺序保持不变,另一条反向.(CFG ITG) VP V NP; VP [V NP]| V NP ; 对CFG规则进行镜像变换的目的是为了增加语法的灵活性,使其能够运用目标语言的语法分析源语言句子。 * * 23 词性映射:汉语的词类往往不能直接与英语的词类对应,需要映射。办法是:允许目标语言单词的词类标记(在翻译词表可以找到)用作源语言单词的词类代理. View可以对应于nc(名词)和vn(动词)标记,因为单词view可以被翻译为”意见/nc”,也可以被翻译为”检视/vn”. * * 24 单词跳跃:有些虚词不需要翻译(SITG中的独身翻译原则)。为了识别真正的”独身”的单词,可以借用单词跳跃技术,具体方法见算法2; He is the son of Stephen. * * 25 算法2 根据上述思想,利用SITG和动态规划算法可以使给定的双语句对儿获得最佳分析树。 表示英语单词序列es+1…et ;Cu..v C(s..t): es..t 中的所有符号作为一个英语单词翻译成汉语的单词集合;C(s,t):es..t 中的任意单词翻译成汉语的单词集合; K:可以被连续跳过的英语单词的最大个数 * * 26 代词—He变为代词——He. VP—[is/是].NP VP—[is/是]NP. * * 双语句对儿的最佳分析树具有概率δ0,T,0,V(S),S为ITG的起始符号. δs,t,u,v(i)=maxP[subtree(q),l(q)=i,i es..t/cu..v];该定义给出了δ0,T,0,V(S)的求法,具体见算法1 算法1 假设每个词翻译的数目受到某个常数的约束,那么,集合C(s,t)的最大规模与t-s是成正比的,时间复杂度O( ),不是指数级上升. * * 27 ITG较好的考虑了两种语言在句法层次上的约束关系,使双语句子能够在统一的语法体系下进行同步分析,而且,SITG考虑了概率信息在双语句法分析中的作用,更有利于实现大规模平行语料的自动对齐和歧义消解,并提高系统的执行速度. * * 28 10.7基于有限状态转换机的翻译模型 基本思路是,将源语言和目标语言句子中的中心词的依存序列分别作为输入串和输出串,依存关系模型递归地运用中心转换机对这些输入串和输出串进行分解,形成同步依存树,然后,用动态规划算法搜索给定输入串的最有目标串推导。 * * 29 加权的有限状态中心转换机 五元组:W表示输入字符集,V表示输出字符集,Q表示有限状态集,F表示终止状态,T表示状态转换动作的有限集合.转换形式如下: q,q’,w,v,α,β,c(解释), α=β=0时为中心转换. 中心转换的操作是非确定性的.转换机从初始状态开始,可以到达相应的其他状态,直到到达终止状态为止. 为了保证一个推导有效,每次只能从输入带上读取一个字符(词),推导结束后,目标带上的符号序列构成了输出串. * * 30 * * 31 一个加权的中心转换机实现输入串到输出串推导的代价是推导过程中每一步转换代价的总和.(选取代价最小的那个) 一个字符串到另一个字符串的转换函数:从初始状态和初始符号出发,将输入串映射到输出串的所有有效的推导中代价最小的推导. 有限状态中心转换机表达能力更强(FST),中心转换机可以实现任意长度的字符串反转. * * 32 依存转换模型: 由一组中心转换机构成,中心转换机分层次的被调用,根据子网络的推导读写一个以(w,v)为中心的字符串对. 转换机实现的是源语言句子依存树和目标语言句
您可能关注的文档
最近下载
- 2026年菏泽医学专科学校单招综合素质笔试备考题库及答案解析.docx VIP
- 2026年菏泽医学专科学校单招综合素质考试备考题库附答案详解.docx VIP
- 2025年上海期货交易所招聘笔试模拟题及答案.doc VIP
- 人教版六年级下册英语全册教案及反思.doc
- 2025至2030中国预拌混凝土行业细分市场及应用领域与趋势展望研究报告.docx VIP
- 数字信号处理-理论、算法与实现(第三版)胡广书习题解答.docx
- 《技术经济学概论》(第四版) 虞晓芬 第02章 技术创新.ppt VIP
- 优瑞咖啡机说明书优瑞咖啡机说明书.pdf VIP
- 2026年菏泽医学专科学校单招综合素质考试题库及答案解析.docx VIP
- 中西诗在情趣上的比较_朱光潜.pdf VIP
原创力文档

文档评论(0)