网站大量收购闲置独家精品文档,联系QQ:2885784924

基于摘要抽取和文本增强的中文文本蕴含识别研究.pdf

基于摘要抽取和文本增强的中文文本蕴含识别研究.pdf

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

文本蕴含识别旨在推断两段文本之间的语义关系:蕴含、矛盾、中立。在

该任务中,如何能够使深度学习模型更好地理解文本的语义,对于文本之间的

语义关系分类至关重要。目前,大多数文本蕴含识别方法都是通过互注意力的

方法,判定句子之间的语义关系,这种方法只能捕捉句子之间的交互信息,弱

化了句子本身的全局信息,且没有考虑到句子的句法结构信息;同时,这些模

型在面对低频词时表现欠佳。基于上述问题,本文提出了以下解决方法。

(1)针对大多数深度学习模型只能捕捉句子交互信息,且未考虑句法结构信

息这一问题,本文提出了融入句法结构和摘要信息的文本蕴含识别模型。通过

结合自注意力和互注意力机制的方式,从句子的全局和局部交互信息考虑,并

融入句子的句法结构信息,从而更准确地推测句子之间的语义关系;同时,收

集和整理了公务员试题的部分选择题,利用摘要信息抽取的方法,解决公务员

试题中题目冗长和答案简短导致的长度不对称问题,最后,将该模型和文本蕴

含识别的思想应用于试题答题中。实验结果表明,该模型在公共数据集和公务

员试题上的表现,超越了多个基准模型。

(2)针对深度学习模型面对低频词表现欠佳的问题,本文展开了基于文本增

强的文本蕴含识别研究。该方法根据词频阈值划分不同的低频词序列,通过义

原信息增强和同义词替换的方式,增强低频词语义信息,如果不存在义原或同

义词,则进行字级别信息增强。通过实验对比发现,两种文本增强策略均可带

来不同程度的性能提升,特别是在单独抽取出包含低频词的语句对时,性能提

升更加显著。

关键词:文本蕴含识别;自注意力;句法结构信息;摘要信息抽取;文本增强

I

Abstract

RecognizingTextualEntailmentaimstoinferthesemanticrelationshipbetween

twopiecesoftext:Entailment,Contradiction,Neutral.Inthistask,itiscrucialto

enabledeeplearningmodelstobetterunderstandthesemanticmeaningoftextforthe

classificationofsemanticrelationshipsbetweentexts.Currently,mostRecognition

TextualEntailmentmethodsusethemethodofmutualattentiontodeterminethe

semanticrelationshipbetweensentences,whichcanonlycapturetheinteraction

informationbetweensentences,weakentheglobalinformationofsentences,anddo

notconsiderthesyntacticstructureinformationofsentences.Moreover,thesemodels

performpoorlywhendealingwithlow-frequencywords.Basedontheabove

problems,thisarticleproposesthefollowingsolutions.

(1)Toaddresstheissuethatmostdeeplearningmodelscanonlycapturethe

interactioninformationbetweensentencesanddonotconsidersyntacticstructure

in

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档