机器阅读理解的技术研究综述.docx

下载文档

16
0
约1.06万字
约 20页
2023-08-18 发布于浙江
举报
版权申诉
保障服务

机器阅读理解的技术研究综述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

? ? 机器阅读理解的技术研究综述 ? ? 徐霄玲，郑建立，尹梓名 (上海理工大学医疗器械与食品学院，上海 200093) E-mail：172702146@ 1 引言机器阅读理解(MRC，Machine Reading Comprehension)是自然语言处理的长期目标，是人工智能向前迈进的关键一步.互联网日益普及，深度学习等人工智能技术蓬勃发展，人们在图像识别、语音识别、围棋AI等领域已经使计算机达到接近人类甚至超越人类的水平.于是，人们开始往更为复杂的机器阅读理解领域进行探索.机器阅读理解是为了培养计算机对自然文本理解的能力，让其能像人类一样对文本进行阅读、推理，也就是意味着计算机在接受自然语言输入后能够给出正确的反馈[1].此概念在1972年首先[2]被提出.经过几十年的变化发展，已经由最初依据规则和词性、依存句法、语义角色等传统特征，演变为基于大数据和深度学习进行阅读推理.本文将从其具体任务，数据集和关键技术三方面，对机器阅读理解做出进一步阐述. 2 机器阅读理解任务概述机器阅读理解实际上是由自然语言理解所衍生的子任务，用以衡量计算机“理解”自然语言所达到的程度.首先由Hirschmann[3]等人提出利用文本阅读并通过回答问题的形式评估机器阅读理解，此种评估方式延续至今.通常情况下，机器阅读理解任务主要由Document(需要机器阅读的篇章)、Question(需要机器回答的问题)、Answer(机器阅读理解的答案)三个要素构成.根据任务的不同，Answer可能是篇章中的单个实体或者是篇章中的片段，也可能是机器生成的句子.当任务是阅读选择题时，在上述基础上需要增加Candidate(候选答案)要素，Answer来自于候选答案.近年来，在篇章数据集上学者们做了大量工作，使阅读理解更加贴近真实应用场景：内容上，由虚构故事向真实问答靠拢；回答方法上，由单纯依靠篇章回答向依赖外部知识推理发展；数据量上，从以前的几百到现在动辄上万.数据集的具体比较详见第3节. 机器阅读理解虽然在认知智能领域是一个极具挑战的任务，但却有着较为悠久的历史.最初由Terry Winograd提出构想[2]，认为语法、语义和推理是实现阅读理解的三大要素.1999年，出现首个自动阅读理解测试系统Deep Read[3]，该系统以故事为基础衡量阅读理解任务，利用词袋模型BOW和人工编写的规则进行模式匹配，达到了40%的正确率.考虑到阅读理解需要大量常识，Schubert[4]等人在2000年率先提出一个基于情节逻辑的叙事理解框架，情节逻辑被用于语义表示和外部知识表示.总的说来，机器阅读理解早期发展速度缓慢，大量依靠手工提取的语法特征以及三元组信息，具有耗时长、鲁棒性差等缺点.直到Hermann等人[5]提出使用神经网络模型，该领域近年来才开始逐步发展起来.其提出的Deep LSTM Reader、Attentive Reader和Impatient Reader三种神经网络模型，奠定了机器阅读领域的方法基础.在此之后，Match-LSTM[6]、BiDAF[7]、Dynamic Coattention Networks[8]等大量优秀模型频现，权威刷榜评测任务排名不断更新，为机器阅读理解提供了统一衡量标准，极大地促进了自然语言理解的发展. 3 MRC数据集机器阅读理解实际上是一个数据驱动型任务，因此数据集是其技术发展的基础.无论是基于人工规则还是基于深度学习等热门手段，数据集的质量和难度都直接关系到模型的质量和实用性，每次不同形式数据集的出现都会带来模型的创新.随着数据集规模增大和考查形式的变化，任务难度不断上升，对模型的要求也越来越高[9].到目前为止，已经出现很多经典英文数据集.这两年，国内对阅读理解任务逐步重视，积极向国际靠拢，开放了DuReader[10]等中文数据集. 表1 各个数据集基本统计信息比较 Table 1 Comparisons of basic statistical Information in datasets 数据集名称语言类型文章数量问题数量MCTest英文5002000RACE英文2793397687CNN英文92579387420Daily Mail英文119506997467CBT英文108687343BookTest英文DCFT中文28000100000SQuAD英文536107785NewsQA英文12744120000MS MARCO英文88418231010916DuReader中文1000000200000NarrativeQA英文157246765 3.1 选择型数据集选择题能有效避免模棱两可的答案，因此于2013年微软推出MCTest[11].MCTest是一

您可能关注的文档

文档评论（0）

智慧IT + 关注: 实名认证

内容提供者

微软售前技术专家持证人

生命在于奋斗，技术在于分享！

咨询Ta 进入空间

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

更多 >

机器阅读理解的技术研究综述.docx