- 0
- 0
- 约4.93万字
- 约 37页
- 2026-01-16 发布于北京
- 举报
SQuAD上的机器阅读理解
DonMai斯坦福大学斯
坦福,加利福尼亚州
94305
d
on
mai@stanford.edu
TianTan斯坦福大学斯
坦福,加利福尼亚州
94305
ti
antan@stanford.edu
在这个项目中,我们探索了不同的基于注意力的RNN架构(DCN,DCN+和
FusionNet),这些架构解决了尝试构建在斯坦福问答数据集(SQuAD)上表现
良好的模型的机器阅读理解(MRC)任务。我们从这些RNN架构中选择了一些组
件来实现到的基线模型之上,并尝试了一些额外的优化和模型调整策略。通
过我们各种添加和更改,对于单个模型,我们在SQuAD上能够达到开发F1分数
75.3,EM65.1;而对于由4种显著不同的模型架构组成的集成模型,我们达到了
开发F1分数78.3,EM68.4。
1引言
近年来,机器阅读理解(MRC)领域的和进展显著增加。特别是,公开发布
的问答数据集(SQuAD)促进了众多针对阅读理解问题的问答(QA)预测模
型的发展。该数据集包含100,000+个问题‑对,涉及500+文章,大致分为
80%训练‑10%开发‑10%测试分割[1]。模型可以通过从该数据集中的训练示例中
学习来为这个数据集做出预测,然后,在给定一个上下文段落和问题对的情况下,
被要求提出一个保证是给定上下文段落中的“文本片段”的。对于某些上下
文段落和问题对,可能存在多个有效,因为是通过众包获得的,因此使用
F1和精确匹配(EM)指标来评估模型的性能。一类表现良好的模型是
MachineReadingComprehensiononSQuAD
DonMai
StanfordUniversity
Stanford,CA94305
donmai@stanford.edu
TianTan
StanfordUniversity
Stanford,CA94305
tiantan@stanford.edu
Forthisproject,weexploreddifferentattention-basedRNNarchitectures(DCN,DCN+,
andFusionNet),whichtackleamachinereadingcomprehension(MRC)taskthat
consistsoftryingtoconstructamodelthatperformswellontheStanfordQuestion
AnsweringDataset(SQuAD).WepickcertaincomponentsfromthoseRNNarchitectures
toimplementontopoftheprovidedbaselinemodel,andalsotrysomeadditional
optimizationandmodeltuningstrategies.Asaresultofourvariousadditionsand
changes,onSQuAD,weareabletoachieveadevF1score75.3,EM65.1foroursingle
model,andadevF1score78.3,EM68.4forourensemblemodelconsistingof4
significantlydifferentmodelarchitectures.
1Introduction
Inrecentyears,therehasbeenasubstantiallyincreasedamountofinterestand
advancementintheareaofmachinereadingcomprehension(MRC).Inparticular,the
publiclyreleasedStandardQuestionAnsweringdataset(SQuAD)hasspurredthe
原创力文档

文档评论(0)