机器阅读理解的技术研究综述.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? ? 机器阅读理解的技术研究综述 ? ? 徐霄玲,郑建立,尹梓名 (上海理工大学 医疗器械与食品学院,上海 200093) E-mail:172702146@ 1 引 言 机器阅读理解(MRC,Machine Reading Comprehension)是自然语言处理的长期目标,是人工智能向前迈进的关键一步.互联网日益普及,深度学习等人工智能技术蓬勃发展,人们在图像识别、语音识别、围棋AI等领域已经使计算机达到接近人类甚至超越人类的水平.于是,人们开始往更为复杂的机器阅读理解领域进行探索.机器阅读理解是为了培养计算机对自然文本理解的能力,让其能像人类一样对文本进行阅读、推理,也就是意味着计算机在接受自然语言输入后能够给出正确的反馈[1].此概念在1972年首先[2]被提出.经过几十年的变化发展,已经由最初依据规则和词性、依存句法、语义角色等传统特征,演变为基于大数据和深度学习进行阅读推理.本文将从其具体任务,数据集和关键技术三方面,对机器阅读理解做出进一步阐述. 2 机器阅读理解任务概述 机器阅读理解实际上是由自然语言理解所衍生的子任务,用以衡量计算机“理解”自然语言所达到的程度.首先由Hirschmann[3]等人提出利用文本阅读并通过回答问题的形式评估机器阅读理解,此种评估方式延续至今.通常情况下,机器阅读理解任务主要由Document(需要机器阅读的篇章)、Question(需要机器回答的问题)、Answer(机器阅读理解的答案)三个要素构成.根据任务的不同,Answer可能是篇章中的单个实体或者是篇章中的片段,也可能是机器生成的句子.当任务是阅读选择题时,在上述基础上需要增加Candidate(候选答案)要素,Answer来自于候选答案.近年来,在篇章数据集上学者们做了大量工作,使阅读理解更加贴近真实应用场景:内容上,由虚构故事向真实问答靠拢;回答方法上,由单纯依靠篇章回答向依赖外部知识推理发展;数据量上,从以前的几百到现在动辄上万.数据集的具体比较详见第3节. 机器阅读理解虽然在认知智能领域是一个极具挑战的任务,但却有着较为悠久的历史.最初由Terry Winograd提出构想[2],认为语法、语义和推理是实现阅读理解的三大要素.1999年,出现首个自动阅读理解测试系统Deep Read[3],该系统以故事为基础衡量阅读理解任务,利用词袋模型BOW和人工编写的规则进行模式匹配,达到了40%的正确率.考虑到阅读理解需要大量常识,Schubert[4]等人在2000年率先提出一个基于情节逻辑的叙事理解框架,情节逻辑被用于语义表示和外部知识表示.总的说来,机器阅读理解早期发展速度缓慢,大量依靠手工提取的语法特征以及三元组信息,具有耗时长、鲁棒性差等缺点.直到Hermann等人[5]提出使用神经网络模型,该领域近年来才开始逐步发展起来.其提出的Deep LSTM Reader、Attentive Reader和Impatient Reader三种神经网络模型,奠定了机器阅读领域的方法基础.在此之后,Match-LSTM[6]、BiDAF[7]、Dynamic Coattention Networks[8]等大量优秀模型频现,权威刷榜评测任务排名不断更新,为机器阅读理解提供了统一衡量标准,极大地促进了自然语言理解的发展. 3 MRC数据集 机器阅读理解实际上是一个数据驱动型任务,因此数据集是其技术发展的基础.无论是基于人工规则还是基于深度学习等热门手段,数据集的质量和难度都直接关系到模型的质量和实用性,每次不同形式数据集的出现都会带来模型的创新.随着数据集规模增大和考查形式的变化,任务难度不断上升,对模型的要求也越来越高[9].到目前为止,已经出现很多经典英文数据集.这两年,国内对阅读理解任务逐步重视,积极向国际靠拢,开放了DuReader[10]等中文数据集. 表1 各个数据集基本统计信息比较 Table 1 Comparisons of basic statistical Information in datasets 数据集名称语言类型文章数量问题数量MCTest英文5002000RACE英文2793397687CNN英文92579387420Daily Mail英文119506997467CBT英文108687343BookTest英文DCFT中文28000100000SQuAD英文536107785NewsQA英文12744120000MS MARCO英文88418231010916DuReader中文1000000200000NarrativeQA英文157246765 3.1 选择型数据集 选择题能有效避免模棱两可的答案,因此于2013年微软推出MCTest[11].MCTest是一

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档