RankMixer

RankMixer 的核心思想

RankMixer 的提出背景是工业推荐系统在模型规模扩展方面长期面临的结构性瓶颈。传统排序模型通常由大量人工设计的特征交互模块组成，例如 FM、CrossNet、Attention 或各种 feature crossing 结构，这些模块在 CPU 时代设计合理，但在现代 GPU 环境下往往表现出较低的计算利用率。原因在于这些模块包含大量零散的小规模计算、embedding gather 操作以及复杂的索引访问，使得计算过程高度 memory-bound，难以形成连续的大规模矩阵运算。因此，即使增加模型参数规模，也难以像大语言模型那样获得稳定的性能提升。RankMixer 的核心思想正是在这一背景下提出：通过构建一种硬件友好（hardware-aware）且统一的特征交互架构，将推荐模型转化为类似 Transformer 的可堆叠结构，使其能够在现代 GPU 上实现更高的计算利用率，并支持更大规模的模型扩展。

在结构设计上，RankMixer首先对推荐系统中的各类特征进行 token 化表示。用户特征、候选物品特征、上下文特征以及序列特征等 embedding 被统一组织为若干 feature tokens，从而形成一个固定维度的 token 序列。这一步的意义不仅在于减少复杂的人工特征工程，更重要的是将原本碎片化的特征处理流程统一为一种标准化表示，使得后续模型结构可以采用类似 Transformer block 的形式进行堆叠。通过这种方式，推荐系统的模型结构从传统的“多模块拼接”转变为“统一 backbone”，从而实现更加连续和高效的矩阵运算。

在具体的特征交互方式上，RankMixer提出了 Token Mixing 模块 来替代传统的自注意力机制。该模块通过对 token embedding 进行多头拆分、重排与拼接，实现不同特征 token 之间的信息交换。与 self-attention 依赖相似度计算不同，Token Mixing 不需要构建 attention 权重矩阵，因此能够避免 quadratic complexity 和大量 memory IO 操作。这种无参数的特征交互方式虽然表达能力相对简单，但在推荐系统这种高度异构的特征空间中反而更加稳定，同时也显著提升了 GPU 的计算效率。

在 Token Mixing 完成交互之后，RankMixer进一步通过 Per-token Feed-Forward Network 对每个 token 进行独立的非线性变换。不同于传统 Transformer 中共享参数的 FFN，RankMixer 为每个 token 分配独立的参数空间，从而实现对不同特征子空间的独立建模。由于推荐系统中的特征分布高度不均衡，例如用户 ID、物品 ID 与统计特征之间的语义结构差异巨大，共享参数往往会导致高频特征对低频特征产生压制效应。通过引入 Per-token FFN，RankMixer能够在统一的交互框架下保留各特征子空间的独立表达能力。

RankMixer 的主要创新点

RankMixer 的创新主要体现在三个方面。首先，它提出了一种 统一的 token-based 特征建模方式，将推荐系统中复杂的特征工程过程转化为标准化的 token 表示，使得模型结构可以采用类似 Transformer 的 block 堆叠方式。这种设计显著减少了不同特征模块之间的结构差异，使得模型更容易扩展规模。

其次，RankMixer设计了 Token Mixing 机制来替代传统 self-attention。该机制通过结构化的 token 重排实现特征交互，在保证信息传播能力的同时避免了 attention 机制带来的计算和内存开销，从而大幅提高 GPU 的计算利用率。这一设计使推荐模型能够更接近于大模型体系中的计算模式，即以大规模矩阵运算为核心，从而显著提升 Model FLOPs Utilization。

第三，RankMixer引入 Per-token FFN 结构，为不同特征 token 分配独立的参数空间。该设计解决了推荐系统中特征空间高度异构的问题，使模型能够同时保持统一的计算结构和灵活的特征表达能力。此外，通过引入稀疏 MoE 扩展结构，RankMixer 还能够在不显著增加推理成本的情况下进一步扩大模型参数规模，从而探索推荐系统中的 scaling law。

RankMixer 的优势

RankMixer 的最大优势在于其 良好的系统扩展能力。通过将推荐模型结构统一为类似 Transformer 的 block 结构，模型可以通过增加层数或参数规模获得稳定的性能提升，这一点与传统推荐模型形成了明显对比。同时，由于 Token Mixing 和 Per-token FFN 主要由大规模矩阵运算构成，GPU 可以更加充分地利用计算资源，从而显著提升 MFU。实验结果表明，在工业生产环境中 RankMixer 可以将 MFU 从个位数提升到约 45%，并在保持推理时延基本不变的情况下将模型参数规模扩大两个数量级。

另一个重要优势是 减少人工特征工程依赖。传统推荐系统往往需要设计复杂的 feature crossing 结构，而 RankMixer通过统一的 token 表示和通用交互机制，使模型能够自动学习不同特征之间的交互关系，从而降低系统复杂度并提高模型可维护性。

RankMixer 的不足与局限

尽管 RankMixer 在系统效率和模型扩展方面取得了显著进展，但其结构仍然存在一定局限。首先，Token Mixing 采用的是无参数的结构性交互方式，相较于 attention 等基于相似度学习的机制，其表达能力相对有限。在某些需要精细建模特征相关性的场景中，这种简单的交互方式可能难以捕获复杂依赖关系。

其次，RankMixer 的设计重点在于 计算效率与结构统一，而非针对推荐系统中特有问题（例如用户兴趣演化、长序列行为建模等）进行专门优化。因此，在需要精细序列建模的场景中，RankMixer 通常仍需要结合专门的序列编码模块。

最后，Per-token FFN 虽然能够增强特征子空间建模能力，但也会带来参数数量增长的问题。当 token 数量较多时，这种结构可能增加模型存储和训练成本，因此需要通过参数共享策略或 MoE 等机制进行进一步优化。

总体来看，RankMixer 的价值并不在于提出一种更复杂的特征交互算法，而在于 重新设计推荐系统的基础架构，使其能够像大语言模型一样进行规模扩展。通过 token 化表示、结构化 token mixing 以及独立的 token 表达空间，RankMixer 将传统推荐模型转变为一种更适合现代 GPU 计算环境的统一 backbone，为工业推荐系统探索 scaling law 提供了新的技术路径。