扩散语言模型(dLLM),这个曾被认为是「小众赛道」的研究方向,如今终于迎来了质变。
本周一,LLaDA2.1 在 HuggingFace 上悄悄上线,距离上一版本 LLaDA2.0 发布仅仅过去了两个月。本次发布共包含两个版本:LLaDA2.1-Mini(16B) 与 LLaDA2.1-Flash(100B)

作为这一赛道的标杆,LLaDA 的每一次迭代都牵动着整个方向的走向。而这一次,LLaDA2.1 几乎凭一己之力完成了扩散语言模型的「成人礼」——892 Tokens / 秒的峰值速度让理论上的效率优势第一次照进现实;边生成边纠错的机制,打破了「快则不准」的魔咒;再加上可切换的双模式、首次跑通的强化学习后训练…… 这些信号再明确不过:这条曾被视为小众的学术路线,已经长成了真正可用、甚至在效率上更为优越的强大工具。
时至今日,逐个生成下一个 Token 的自回归模型仍是主流。但长文本生成里,计算成本高、推理速度慢只是明面上的麻烦;真正棘手却鲜被正视的是模型只能单向往前猜,看不到后文语境,写错了也没法回头改,误差像滚雪球一样越积越重。这些困境就像房间里的大象,始终横亘在规模化应用的门口。
LLaDA2.1 的解法很直接:与其在旧框架里修修补补,不如换一套底层逻辑 —— 让模型像「完形填空」一样并行生成、反复打磨,把「下笔无悔」变成「边写边改」。
这套机制具体如何运转,我们可以在蚂蚁集团、浙江大学、西湖大学、南方科技大学联合撰写的技术报告中找到答案。

- 论文地址:https://github.com/inclusionAI/LLaDA2.X/blob/main/llada2_1_tech_report.pdf
- Hugging Face:https://huggingface.co/collections/inclusionAI/llada21
- ModelScope 魔搭社区:https://modelscope.cn/collections/inclusionAI/LLaDA21
- GitHub:https://github.com/inclusionAI/LLaDA2.X
- Tech Report:https://huggingface.co/papers/2602.08676
自回归之外的另一条路
要理解 LLaDA2.1 的突破,必须从当前 AI 模型的「底层逻辑冲突」看起。
在主流 AI 大模型(如 GPT、Claude)的世界里,自回归架构是绝对的主宰。
它遵循逐 Token 生成的严苛范式:每一步输出都会固化为下一步的条件,生成路径如同单向延伸的铁轨,一旦落笔便不可回溯。比如写到「人不能两次走入同一条河流」,即使模型后来意识到应该是「踏入」而不是「走入」,也只能错到底。
这种方式在稳定性与可控性上具备天然优势,但代价同样明显。由于推理过程本质上是串行的,模型难以进行大规模并行解码,生成延迟随着上下文长度与输出规模不断放大,逐渐成为制约推理效率和部署成本的重要因素。更关键的是,这一范式在结构上默认慢而稳,并未为速度与吞吐的数量级提升预留太多空间。
基于此,扩散语言模型开始被视为一条具有潜在突破意义的替代路线,它不再执着于从左到右,而是尝试在全局空间内同时生成多个 Token。
然而,高并行往往伴随着高错误率。早期的扩散模型通常采用「掩码到 Token」(M2T)的固定路径,这种机制虽然快,却存在劣势:一旦某个生成的 Token 信心不足,模型无法在后续步骤中修正它,最终拖慢整体推理速度并降低输出质量。
这一「速度 — 质量」之间的结构性矛盾,使扩散语言模型长期停留在研究阶段,而难以真正进入应用系统。