首页 > 资源分享 > 资源分享 > 一个模型统一4D世界生成与重建,港科大One4D框架来了

一个模型统一4D世界生成与重建,港科大One4D框架来了

发布时间:2026-01-13 14:02:06

年来,视频扩散模型在 “真实感、动态性、可控性” 上进展飞快,但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频,却缺少对三维几何的显式建模。这让许多世界模型(world model)导向的应用(空间推理、具身智能、机器人、自动驾驶仿真等)难以落地,因为这些任务不仅需要像素,还需要完整地模拟 4D 世界。

来自香港科技大学(HKUST)的研究团队提出 One4D,一个统一的 4D 生成与 4D 重建框架。One4D 构造了一个同步输出多模态的视频扩散模型,能够用一个模型同步输出 RGB 视频与 Pointmap(XYZ)几何视频,并支持从单张图像到 4D 生成、从稀疏帧到 4D 生成 + 重建、以及从完整视频到 4D 重建等多种任务形态。



 

  • 论文标题:One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
  • 论文地址:https://arxiv.org/abs/2511.18922
  • Github:https://github.com/MiZhenxing/One4D
  • 项目主页:https://mizhenxing.github.io/One4D

 

二、One4D 算法设计

One4D 的核心目标是用强大的视频生成模型(比如Wan Video)统一 4D 生成与 4D 重建,输出对齐的 RGB 和几何多模态结果。论文亮点有:

1. 多模态输出:RGB + Pointmap;

2. DLC:解耦 LoRA 控制,稳住 RGB 同时学几何对齐;

3. UMC:统一掩码条件,一套模型覆盖生成和重建任务。

具体来说,One4D 将动态 4D 场景表示为两种同步的输出模态。(1) RGB frames(外观);(2) Pointmaps(XYZ),即与 RGB 视频对齐的 3 通道几何视频,每个像素存 XYZ 值,可进一步导出 Depth 并结合后处理估计相机轨迹,最终可视化为 4D 点云和相机。

并且,One4D 在一个框架内支持三种输入:单张图到 4D 生成,稀疏视频帧到 4D 生成 + 重建,完整视频到 4D 重建。

1. DLC:解耦 LoRA 控制

在基于视频扩散模型的 “RGB + 几何” 多模态联合建模里,一个常见做法是把模态在通道维拼接。但在低资源微调时,这会导致严重的跨模态干扰,几何学不好,基础模型的 RGB 质量也容易被拖垮。而将两个模态在长宽维度拼接,共享参数,也会导致跨模态干扰,几何精度不高,而且与 RGB 无法保持对齐。

One4D 提出 Decoupled LoRA Control(DLC) 来专门解决这个问题,设计目标包括:

(1) 低资源微调也尽量保住底座视频模型的强先验;(2) 解耦 RGB 与几何生成,减少互相干扰;(3) 仍要保留必要的跨模态通信,确保像素级对齐一致。

具体做法是:

1. 为 RGB 与 Pointmap 分别挂载模态专属 LoRA,并且形成两条解耦计算分支,共享冻结的 base 参数,但 forward 分开跑。确保两个模态能够相对独立。

2. 再用少量 zero-init 的 control links 连接对应层,让两个模态从 0 开始逐步学会互相控制,从而实现精确的像素级对齐。

资源分享更多>>

盛色推出“OF27UT Pro”27英寸显示器,1299元 曝苹果首款OLED MacBook将于Q4发布 由三星供应屏幕 一季度PC内存要翻倍涨!涨幅达历史新高 折叠版iPad!iPhone Fold外观细节出炉:音量键在顶部 折叠屏iPhone不止一款!苹果或再推覆盖式可折叠iPhone,主打便携与易收纳 苹果出手,隔空投送白嫖FCP失灵了 千问APP投入30亿,阿里加入春节AI红包大战 腾讯内部信回应元宝“春节红包”分享质疑:无门槛领取与平台旨在打击的恶意营销存在本质不同 特高压线路除冰 无人机解锁新技能 功能夸大、操作复杂,央视曝光部分“伪智能”家居 be quiet!正式推出Dark Perk鼠标:3950 + 54H20,双模具版本 明基3:2编程显示器RD280UG上市:3840×2560 120Hz,5699元 大疆DJI RS 5相机稳定器首销,3099元起 3499元起,红魔11Air发布 轻薄高颜值电竞机 系列首次兼容百瓦PPS协议,小米REDMI Turbo 5 Max官宣100W快充 iPhone 18上热搜 果粉看完外观后释然:比左上角挖孔好多了 真我Neo8搭载同档唯一5000万潜望长焦:支持AI超级文本!拍课件神器 打造新品全链路生态,天猫官宣2026年全面加码优质新品扶持 微信上线15年,还记得你发的第一条朋友圈吗? 量子计算机很可能永远不会成功 HMD发布DUB X50 Pro真无线耳机,60小时续航且支持主动降噪 两个Ilya的宿命轮回:老黄10亿美金开启赛博修仙! 奔腾小马摩登马上市 新增摩登外观包 售4.59万元 以归元溯本源 长城汽车发布全球首个原生AI全动力汽车平台 北京81 2.0共创版首发亮相 4月开启预售,预计8月正式上市 硬核魔改!手搓双12V-2x6接口RTX 5090:成功实现负载均衡 机械革命翼龙15 Pro 2026款开启预约:1.9kg全金属机身 黄仁勋没说错!年缺口8万人,年薪140万,美国大厂正在疯抢电工 “商家或于2月1日停业”,团购提示郑州一西贝或将闭店 1499元起 vivo Y500i开启预售:7200mAh电池 6年耐用