年来,视频扩散模型在 “真实感、动态性、可控性” 上进展飞快,但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频,却缺少对三维几何的显式建模。这让许多世界模型(world model)导向的应用(空间推理、具身智能、机器人、自动驾驶仿真等)难以落地,因为这些任务不仅需要像素,还需要完整地模拟 4D 世界。
来自香港科技大学(HKUST)的研究团队提出 One4D,一个统一的 4D 生成与 4D 重建框架。One4D 构造了一个同步输出多模态的视频扩散模型,能够用一个模型同步输出 RGB 视频与 Pointmap(XYZ)几何视频,并支持从单张图像到 4D 生成、从稀疏帧到 4D 生成 + 重建、以及从完整视频到 4D 重建等多种任务形态。

- 论文标题:One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
- 论文地址:https://arxiv.org/abs/2511.18922
- Github:https://github.com/MiZhenxing/One4D
- 项目主页:https://mizhenxing.github.io/One4D
二、One4D 算法设计
One4D 的核心目标是用强大的视频生成模型(比如Wan Video)统一 4D 生成与 4D 重建,输出对齐的 RGB 和几何多模态结果。论文亮点有:
1. 多模态输出:RGB + Pointmap;
2. DLC:解耦 LoRA 控制,稳住 RGB 同时学几何对齐;
3. UMC:统一掩码条件,一套模型覆盖生成和重建任务。
具体来说,One4D 将动态 4D 场景表示为两种同步的输出模态。(1) RGB frames(外观);(2) Pointmaps(XYZ),即与 RGB 视频对齐的 3 通道几何视频,每个像素存 XYZ 值,可进一步导出 Depth 并结合后处理估计相机轨迹,最终可视化为 4D 点云和相机。
并且,One4D 在一个框架内支持三种输入:单张图到 4D 生成,稀疏视频帧到 4D 生成 + 重建,完整视频到 4D 重建。
1. DLC:解耦 LoRA 控制
在基于视频扩散模型的 “RGB + 几何” 多模态联合建模里,一个常见做法是把模态在通道维拼接。但在低资源微调时,这会导致严重的跨模态干扰,几何学不好,基础模型的 RGB 质量也容易被拖垮。而将两个模态在长宽维度拼接,共享参数,也会导致跨模态干扰,几何精度不高,而且与 RGB 无法保持对齐。
One4D 提出 Decoupled LoRA Control(DLC) 来专门解决这个问题,设计目标包括:
(1) 低资源微调也尽量保住底座视频模型的强先验;(2) 解耦 RGB 与几何生成,减少互相干扰;(3) 仍要保留必要的跨模态通信,确保像素级对齐一致。
具体做法是:
1. 为 RGB 与 Pointmap 分别挂载模态专属 LoRA,并且形成两条解耦计算分支,共享冻结的 base 参数,但 forward 分开跑。确保两个模态能够相对独立。
2. 再用少量 zero-init 的 control links 连接对应层,让两个模态从 0 开始逐步学会互相控制,从而实现精确的像素级对齐。