HT-Transformer:通过积累历史标记的前缀信息进行事件序列分类.pdfVIP

  • 0
  • 0
  • 约3.05万字
  • 约 9页
  • 2026-03-09 发布于北京
  • 举报

HT-Transformer:通过积累历史标记的前缀信息进行事件序列分类.pdf

HT-Transformer:通过积累历史标记的前缀信息进行事件序列分类

IvanKarpukhin,AndreySavchenko

SberAILab,Russia

Abstract

TargetBCDE

深度学习在建模序列数据方面取得了显著的成功,包括

事件序列、时间点过程和不规则的时间序列。最近,在这

些任务中,变换器模型已经很大程度上取代了循环网络。Hidden

然而,在目标是预测未来目标的分类任务中,变换器通layers

本常表现不如RNN。导致这种性能差距的原因仍然很大程

译度上未被探索。在本文中,我们识别出变换器的一个关

键限制:缺乏一个单一的状态向量来提供整个序列的有InputABHCHD

中效紧凑表示。此外,我们还表明,嵌入向量的对比预训练

1无法捕捉到局部上下文,这对准确预测至关重要。为了(a)历史标记在预训练过程中充当瓶颈。

v解决这些挑战,我们引入了历史标记的概念,它有助于Downstreamtask

4Embedding

7在下一个标记预测预训练过程中积累历史信息。我们的(SFTorgradientboosting)

4方法显著提高了基于变换器模型的表现,在金融、电子

1商务和医疗保健任务中取得了令人印象深刻的结果。码

01

.可在GitHub上公开获取。

8ModelCausalTransformer

0

5

2介绍

:InputABCDEH

v许多现实世界的问题涉及从历史观察中预测未来

i

x事件。在连续任务中,目标是预测与之前观察到的相似(b)历史标记的嵌入用于下游任务。

r的事件~(Xueetal.2024)~。然而,许多实际应用需

a

要预见那些在训练历史中没有明确出现的事件。示例包图1:历史标记在预训练过程中通过下一个标记预测积

括贷款违约、客户流失和疾病发作。这些场景通常使用累了前缀信息。历史标记的嵌入随后在下游任务中被

经典机器学习模型(如逻辑回归或梯度提升)来解决,使用。

应用于手工特征或从历史数据派生出的无监督模型基

础嵌入~(Osinetal.2024;Synerise2025)~。

近年来,深度学习在建模序列结构方面取得了显著解,例如对比学习(BehnamGhaderetal.2024)、句子

成功,包括事件序列、时空点过程和时间序列数据。一顺序预测(Lanetal.2020)或下一个句子预测(Devlin

个突出的趋势是采用预训练的Transformer架构,因etal.2019)。然而,这些方法中的每一种都引入了限

为它们有能力捕捉长距离依赖关系和复杂的时序模制。例如,已有文献记载指出,对比预训练可能会过分

式(Padhietal.2021;Zuoetal.2020)。与递归神经网强调“简单特征”,从而损害下游质量

文档评论(0)

1亿VIP精品文档

相关文档