OneTrans

OneTRANS 的研究背景与核心思想

OneTRANS 的提出背景源于推荐系统排序阶段长期存在的一个结构性问题：用户行为序列（sequence features）与其他上下文特征（non-sequential features）通常被分开建模。传统排序模型一般先通过一个序列模型（如 Transformer、DIN 或 DIEN）对用户行为序列进行编码，得到一个序列表示向量，然后再将该表示与用户静态特征、候选物品特征以及上下文特征进行拼接或交互。这种“先编码、再融合”的结构虽然实现简单，但存在两个明显不足。首先，序列信息在被压缩为单一向量时容易损失细粒度行为模式；其次，序列建模与特征交互被拆分为两个阶段，使得序列信息只能以高度压缩的形式参与后续建模，从而限制了模型对复杂用户兴趣结构的表达能力。OneTRANS 的核心思想正是重新设计序列信息在模型中的传播方式，通过一种统一的 token 表示和层级交互机制，使用户行为序列能够在模型内部逐层与其他特征进行交互，并逐步将行为信息融入到上下文特征中。

在结构设计上，OneTRANS 同样采用了 token 化的特征表示方式。用户行为序列中的每个交互行为被表示为 sequence tokens，而用户静态特征、候选物品特征以及上下文特征则被表示为 context tokens。与传统模型不同，OneTRANS 并不首先将序列编码为单一向量，而是允许 sequence tokens 与 context tokens 在多个 Transformer 层中持续进行交互。模型在每一层都会通过 attention 机制实现序列特征与上下文特征之间的信息交换，使用户行为模式能够逐步影响上下文特征的表示。这种设计改变了传统推荐模型中序列信息的传播路径，使序列信息能够以更细粒度的形式参与整个排序模型的特征交互过程。

OneTRANS 的一个关键设计是 渐进式序列压缩（progressive sequence compression）。在模型的前几层中，sequence tokens 与 context tokens 共同参与特征交互，而随着层数增加，sequence tokens 的数量逐渐减少，同时其包含的信息被逐步写入 context tokens。最终在模型后期，仅保留少量 context tokens 作为用户兴趣的主要表示。这种设计的核心思想是将序列信息从高维的行为表示逐步压缩为紧凑的兴趣表示，从而在保证表达能力的同时降低后续层的计算复杂度。通过这种渐进式压缩机制，OneTRANS 能够在较长的用户行为序列上进行建模，同时避免序列长度带来的计算开销问题。

OneTRANS 的主要创新点

OneTRANS 的创新主要体现在对序列信息流的重新设计。首先，它提出了一种 统一的序列—上下文交互结构。在传统模型中，序列建模和特征交互通常是两个独立阶段，而 OneTRANS 通过 token 化表示使两者在同一网络结构中完成，从而实现更加充分的信息融合。序列行为不再被提前压缩，而是在多层网络中逐步影响上下文特征，使模型能够捕获更复杂的用户兴趣模式。

其次，OneTRANS 引入 渐进式序列压缩机制。该机制允许模型在前期保持较丰富的序列信息，在后期逐步减少序列 token 数量，将行为信息压缩到更紧凑的表示中。这种设计在一定程度上平衡了表达能力与计算成本，使模型既能够处理较长的用户行为序列，又能够在后期保持较低的计算复杂度。

第三，OneTRANS 在特征建模层面实现了一种 行为信息向上下文特征的逐层写入（information routing）。在多层交互过程中，序列 token 中包含的行为信息逐步迁移到上下文 token 中，从而形成一种更加结构化的兴趣表示。这种信息流设计改变了传统推荐系统中序列信息仅作为辅助输入的角色，使其成为整个模型表示学习过程中的核心组成部分。

OneTRANS 的优势

OneTRANS 的主要优势在于其 更合理的序列信息利用方式。通过在模型内部进行逐层交互，序列信息不再被过早压缩，从而能够保留更多细粒度的行为模式。这使得模型能够更好地捕获用户兴趣的复杂结构，例如短期兴趣变化或多兴趣并存的行为模式。

另一个重要优势是 计算效率与表达能力之间的平衡。渐进式序列压缩机制使得模型在前期层可以利用较丰富的序列信息，而在后期层则通过减少 token 数量降低计算成本。这种设计使 OneTRANS 在处理长序列行为时仍然能够保持较高的计算效率。

此外，OneTRANS 还提供了一种新的序列建模范式，即通过“逐层信息写入”的方式构建用户兴趣表示，而不是简单地通过 pooling 或 attention 得到单一序列向量。这种信息流设计为后续研究提供了新的思路。

OneTRANS 的局限性

尽管 OneTRANS 在序列建模方面提出了新的结构设计，但其方法仍然存在一定局限。首先，渐进式压缩不可避免地会带来一定程度的信息损失。随着 sequence tokens 数量逐渐减少，一些细粒度的行为信息可能在压缩过程中被削弱，从而影响模型对复杂行为模式的表达能力。

其次，OneTRANS 的结构实现相对复杂。渐进式压缩机制需要对序列 token 的数量变化进行精细控制，同时还需要设计合理的压缩策略以保证信息传递的稳定性。这在工程实现和训练稳定性方面都会带来额外挑战。

最后，OneTRANS 的设计重点在于 序列信息的建模与传播，而不是大规模特征交互或模型扩展。因此，在探索推荐系统的 scaling law 或构建超大规模排序模型方面，其优势可能不如专门针对 backbone 架构设计的模型（如 RankMixer）。换句话说，OneTRANS 更像是一种针对序列特征建模的结构优化，而不是一个面向大规模扩展的统一特征交互框架。

总体而言，OneTRANS 的核心贡献在于重新设计推荐系统中序列信息的传播路径。通过统一 token 表示、跨层序列交互以及渐进式序列压缩机制，该模型在保持计算效率的同时增强了对用户行为序列的建模能力。这种从“序列编码”到“序列信息流设计”的转变，为推荐系统中长序列行为建模提供了一种新的结构思路。