多样化集成方法提升问答系统性能研究.pdfVIP

下载本文档

0
0
约3.58万字
约 30页
2026-03-12 发布于北京
举报

多样化集成方法提升问答系统性能研究.pdf

多样化的集成用于问答

BenjaminCohen‑Wang,Edward

Lee斯坦福大学计算机科学系

{bencw,edleeel}@stanford.edu

在本文中，我们探讨了不同问答系统的集成，这显著提高了性能。我们提出了三

种高性能的SQuAD模型“”的变体的多样化集成：BiDAF网络[4],、

MnemonicReader[2],和ReasoNet[5]。我们的结果支持以下观点：多样化的模

型集成，如每个选择一个模型的集成，通常比不那么多样化的高性能模型集

成表现更好，例如从同一个高性能中选择三个模型的集成。我们最终的每个

选择三个模型的集成在验证集上获得了79.5的F1分数和70.0的EM分数。

1引言

近年来，由于自然语言处理（NLP）领域的许多新发展以及大规模问题回答数据

集的创建，机器理解（MC）和问答（QA）任务越来越受欢迎。许多高性能的

MC模型已经被创建，这些模型在使用斯坦福问答数据集（SQuAD）等数据集进

试时表现出接近人类的能力[3]。在模型性能方面的一个主要趋势是集成的概

念。具体来说，通过训练具有不同初始化的多个模型，性能可以提高1−3%，因

为不同的初始化使模型能够学习略微不同的表示，从而为每个数据点找到略微不

同的解决方案[1,4]。在本文中，我们试图更进一步，不仅组装具有不同初始化的

模型，还包括具有不同超参数和完全不同机制的模型。

2相关工作

我们模型主要基于现有的高性能SQuAD模型的变体。特别是，我们的模型大量依赖于在《用

于机器理解的双向注意力流》中讨论的双向注意力流层，该层生成一个查询感知的上下文层，结合了

从上下文到问题和从问题到上下文的注意力机制[4]。我们还模拟并实现了《强化记忆阅读器在机器理

解中的应用》[4]和《ReasoNet：学习何时停止阅读以进行机器理解》中描述的迭代推理技术的变体。

DiverseEnsemblingforQuestionAnswering

BenjaminCohen-Wang,EdwardLee

DepartmentofComputerScience

StanfordUniversity

{bencw,edleeel}@stanford.edu

Inthispaperweexploreensemblingofdifferentquestionansweringsystems,which

significantlyimprovesperformanceoveranyindividualmodel.Weproposeadiverse

ensembleofvariantsofthreehigh-performingSQuADmodel“families”:theBiDAF

Network[4],theMnemonicReader[2],andReasoNet[5].Ourresultssupporttheclaim

thatdiverseensembofmodels,suchasanensembleofonemodelfromeachfamily,

generallyoutperformsdiverseensembleofhigh-performingmodels,suchasan

ensembleofthreemodelsfromthesamehigh-performingfamily.Ourfinalensembleof

threemodelsfromeachfamilygetsanF1scoreof79.5andanEMscoreof70.0onthe

validationset.

1Introduction

MachineComprehension(MC)andQuestionAnswering(QA)taskshavegrownin

popularityinrecentyearsduetomanynewdevelopmentsinNaturalLanguage

Processing(NLP)andthecreationoflargequestionanswerdatasets.Manyhigh-

performingMCmodelshavebeencreatedthatperf

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

多样化集成方法提升问答系统性能研究.pdfVIP