HT-Transformer：通过积累历史标记的前缀信息进行事件序列分类.pdfVIP

下载本文档

0
0
约3.05万字
约 9页
2026-03-09 发布于北京
举报

HT-Transformer：通过积累历史标记的前缀信息进行事件序列分类.pdf

HT-Transformer：通过积累历史标记的前缀信息进行事件序列分类

IvanKarpukhin,AndreySavchenko

SberAILab,Russia

Abstract

TargetBCDE

深度学习在建模序列数据方面取得了显著的成功，包括

事件序列、时间点过程和不规则的时间序列。最近，在这

些任务中，变换器模型已经很大程度上取代了循环网络。Hidden

然而，在目标是预测未来目标的分类任务中，变换器通layers

本常表现不如RNN。导致这种性能差距的原因仍然很大程

译度上未被探索。在本文中，我们识别出变换器的一个关

键限制：缺乏一个单一的状态向量来提供整个序列的有InputABHCHD

中效紧凑表示。此外，我们还表明，嵌入向量的对比预训练

1无法捕捉到局部上下文，这对准确预测至关重要。为了(a)历史标记在预训练过程中充当瓶颈。

v解决这些挑战，我们引入了历史标记的概念，它有助于Downstreamtask

4Embedding

7在下一个标记预测预训练过程中积累历史信息。我们的(SFTorgradientboosting)

4方法显著提高了基于变换器模型的表现，在金融、电子

1商务和医疗保健任务中取得了令人印象深刻的结果。码

.可在GitHub上公开获取。

8ModelCausalTransformer

2介绍

:InputABCDEH

v许多现实世界的问题涉及从历史观察中预测未来

x事件。在连续任务中，目标是预测与之前观察到的相似(b)历史标记的嵌入用于下游任务。

r的事件～(Xueetal.2024)～。然而，许多实际应用需

要预见那些在训练历史中没有明确出现的事件。示例包图1:历史标记在预训练过程中通过下一个标记预测积

括贷款违约、客户流失和疾病发作。这些场景通常使用累了前缀信息。历史标记的嵌入随后在下游任务中被

经典机器学习模型（如逻辑回归或梯度提升）来解决，使用。

应用于手工特征或从历史数据派生出的无监督模型基

础嵌入～(Osinetal.2024;Synerise2025)～。

近年来，深度学习在建模序列结构方面取得了显著解，例如对比学习(BehnamGhaderetal.2024)、句子

成功，包括事件序列、时空点过程和时间序列数据。一顺序预测(Lanetal.2020)或下一个句子预测(Devlin

个突出的趋势是采用预训练的Transformer架构，因etal.2019)。然而，这些方法中的每一种都引入了限

为它们有能力捕捉长距离依赖关系和复杂的时序模制。例如，已有文献记载指出，对比预训练可能会过分

式(Padhietal.2021;Zuoetal.2020)。与递归神经网强调“简单特征”，从而损害下游质量

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

HT-Transformer：通过积累历史标记的前缀信息进行事件序列分类.pdfVIP