- 0
- 0
- 约3.05万字
- 约 9页
- 2026-03-09 发布于北京
- 举报
HT-Transformer:通过积累历史标记的前缀信息进行事件序列分类
IvanKarpukhin,AndreySavchenko
SberAILab,Russia
Abstract
TargetBCDE
深度学习在建模序列数据方面取得了显著的成功,包括
事件序列、时间点过程和不规则的时间序列。最近,在这
些任务中,变换器模型已经很大程度上取代了循环网络。Hidden
然而,在目标是预测未来目标的分类任务中,变换器通layers
本常表现不如RNN。导致这种性能差距的原因仍然很大程
译度上未被探索。在本文中,我们识别出变换器的一个关
键限制:缺乏一个单一的状态向量来提供整个序列的有InputABHCHD
中效紧凑表示。此外,我们还表明,嵌入向量的对比预训练
1无法捕捉到局部上下文,这对准确预测至关重要。为了(a)历史标记在预训练过程中充当瓶颈。
v解决这些挑战,我们引入了历史标记的概念,它有助于Downstreamtask
4Embedding
7在下一个标记预测预训练过程中积累历史信息。我们的(SFTorgradientboosting)
4方法显著提高了基于变换器模型的表现,在金融、电子
1商务和医疗保健任务中取得了令人印象深刻的结果。码
01
.可在GitHub上公开获取。
8ModelCausalTransformer
0
5
2介绍
:InputABCDEH
v许多现实世界的问题涉及从历史观察中预测未来
i
x事件。在连续任务中,目标是预测与之前观察到的相似(b)历史标记的嵌入用于下游任务。
r的事件~(Xueetal.2024)~。然而,许多实际应用需
a
要预见那些在训练历史中没有明确出现的事件。示例包图1:历史标记在预训练过程中通过下一个标记预测积
括贷款违约、客户流失和疾病发作。这些场景通常使用累了前缀信息。历史标记的嵌入随后在下游任务中被
经典机器学习模型(如逻辑回归或梯度提升)来解决,使用。
应用于手工特征或从历史数据派生出的无监督模型基
础嵌入~(Osinetal.2024;Synerise2025)~。
近年来,深度学习在建模序列结构方面取得了显著解,例如对比学习(BehnamGhaderetal.2024)、句子
成功,包括事件序列、时空点过程和时间序列数据。一顺序预测(Lanetal.2020)或下一个句子预测(Devlin
个突出的趋势是采用预训练的Transformer架构,因etal.2019)。然而,这些方法中的每一种都引入了限
为它们有能力捕捉长距离依赖关系和复杂的时序模制。例如,已有文献记载指出,对比预训练可能会过分
式(Padhietal.2021;Zuoetal.2020)。与递归神经网强调“简单特征”,从而损害下游质量
原创力文档

文档评论(0)