- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于句子对齐语料库的模板抽取 中科院计算技术研究所 苏劲松 研究背景 模板提出: 由日语著名学者长尾真于1984年提出,利用现有语料库进行翻译的方法。 模板定义: 句子对 对齐的语言单位可以是单词,短语或者句子 翻译模板由固定部分和可变部分组成。 可变部分具有普遍性,该部分的变化不会影响翻译的结构或框架。 研究现状 Kaji 词和短语对齐通过双语词典以及句子的句法结构分析完成,然后通过对齐单元进行变量替换产生模板。 CMU 存在一个知识库对词进行分类,每一类词都可以泛化为同一变量。 研究现状 Guvenir 先对句子做词法分析,然后通过句子对比得到翻译模板。先得到短模板,再得到长模板。 东北大学 泛化限制在名词或者基本名词短语,每个实例句子通过搭配形成很多模板,通过一些概率指标例如抽象度和覆盖度来选出得分最高的模板为最优模板。 研究现状 大连理工大学 对句子做浅层句法分析,提取不同的成分分别构成实例主架模板、介词短语模板以及组块模板。 解决方法 分析模板的特点,可泛化部分具有普遍性,该部分的变化不会影响翻译的结构或者框架。不可泛化部分彼此之间具有较强的共现度,相对应的翻译比较固定。 可以认为模板的抽取就是从语料库中抽取词语以及相应翻译的固定组合。 解决方法 Change解码器抽取规则 短语层次模型可以抽取出词语和可泛化部分的不同组合,很好地反映了不同组合的出现频度分布。 由长到短 固定的部分越多,该模板的可靠性就越强,所以可以先抽取长模板,然后再通过对长模板中的单元进行泛化和迭代计算来得到短模板。 解决方法 算法思想举例: 一种 治疗 X1 的 X2 及其制备方法 出现了15次,有2中翻译模式。 A X2 for treament of X1, and its prepartion method. X2 for treament of X1, and its prepartion method. 模板翻译不固定,翻译确定度低,存在歧义? 解决方法 一种 治疗 X1 的 中药制剂 及其制备方法 出现了3次,翻译模式固定。 一种 治疗 X1 的 中药酒 及其制备方法 出现了4次,翻译模式固定。 一种 治疗 X1 的 药物组合物 及其制备方法 出现了5次,翻译模式固定。 则在确定以上3种模板后,可以重新计算模板 一种 治疗 X1 的 X2 及其制备方法的翻译确定度 解决方法 由规则过滤得到模板抽取 A、src 频度 B、是否有调序作用 C、模板的抽象度和匹配度 D、迭代算法 重新计算频率和翻译确定度 谢 谢 * * *
文档评论(0)