谁能想到啊,在自回归模型(Autoregressive,AR)当道的现在,一个非主流架构的模型突然杀了回马枪——
被长期视为学术玩具的扩散语言模型,直接在复杂编程任务中飙出了892 tokens/秒的速度!

你没看错,当主流大模型还在以几十token的速度逐字蹦词时,这个非主流模型已经在100B参数规模上,跑出了如此的速度。
2025年,蚂蚁集团资深技术专家赵俊博曾经带着LLaDA2.0登上量子位MEET大会的舞台,而如今,他们的最新版本LLaDA2.1来了,蚂蚁技术研究院重磅开源!

三个月前,在LLaDA2.0时代,这更多是一个充满挑战的研究性模型。
而这一次,LLaDA2.1的诞生,标志着这个路线的历史性转折。它不再只是一个“学术研究”,而是真正可用、甚至在效率上更为优越的强大工具。
那么在整个行业都在卷更大的自回归模型时,蚂蚁到底是怎么低调修了另一条“能跑通的高速公路”的?
接下来,我们就再一起扒一扒这个非共识技术背后的原理。
怎么做到的?
在深入技术之前,我们先得聊聊为什么现在的ChatGPT、Claude们总是慢条斯理。
因为它们几乎全部采用自回归架构,这种模式如同一个不能打草稿的考生,必须从左到右、一字一句地生成文本,写完即定稿,无法回头修改。
而扩散模型的理论优势在于并行,可以同时处理所有文本位置,理论上能一次成篇,拥有巨大的速度潜力。
但扩散语言模型在早期一直有个致命伤,那就是容易胡说八道,且缺乏全局一致性。因为并行生成时,各个部分可能是各玩各的,导致前后文逻辑不通。
为此,蚂蚁的LLaDA2.1先亮出了第一个技术杀手锏:
一个模型两种模式设计,把怎么用模型的权力交给用户
基于可纠错编辑的底层能力,LLaDA2.1引入了灵活的双模式解码策略,实现了单个模型,同时支持极速与质量两种模式:
- Speedy Mode(极速模式):大幅降低τ_mask阈值,激进并行生成初稿,依赖T2T编辑进行后期修正。适合代码草稿、快速推理、多轮试探式生成等对吞吐量敏感的场景。
- Quality Mode(质量模式):采用保守阈值,减少编辑次数,优先保障输出准确性。适合正式文档生成、高精度推理等对结果质量要求严苛的场合。
在此之前,LLaDA-MoE和LLaDA2.0需要二次开发提供额外的加速版本,比如基于路径蒸馏的加速等;这类加速版本因为非联合训练优化,虽然实现了对基础版本的一定加速,但是精度掉点普遍严重;同时一个模型多个版本,也增加用户选择的难度以及模型管理的成本。
单模型双模式,避免了上述问题。用户可以根据具体需求,仅需一条config就能实现模式切换。
这种设计标志着LLaDA系列从研究模型向实用产品的关键转变。
技术报告显示,在HumanEval+编程基准上,LLaDA2.1-flash(100B)在Speedy Mode下达到892 TPS的峰值速度,而Quality Mode则在多项推理任务上超越了前代模型。