> 视频世界模型可以根据单条指令生成逼真的未来帧,但往往无法在时间上保持一致的点级运动(point-level motion)。由此生成的视频看起来可信,却缺乏可靠动作执行所需的物理基础(如机器人操控)。GEM-4D 通过几何接地解决这个问题。
arXiv: 2605.22882 作者: Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang
---
现有视频世界模型的两个问题:
1. 物理接地差(Poor Physical Grounding): 生成视频看似逼真,但物体运动轨迹不合物理规律 2. 点级运动不一致(Inconsistent Point Motion): 同一物体在不同帧间运动轨迹不连贯
GEM-4D 提出几何增强视频世界模型,核心思路:将 3D 几何约束嵌入视频生成过程。
---
(arXiv 摘要阶段,详细方法需读全文)
- Geometry Grounding: 利用显式 3D 几何信息(深度/法线/光流)指导视频生成
---
1. 物理可信的视频生成: 不只是"看起来对",是物理上可执行的预测
---
> 视频生成质量(perceptual quality)和物理一致性(physical consistency)是两个不同的维度。一个视频可以看起来很逼真但物理上完全错误。GEM-4D 选择牺牲部分 perceptual quality,换取 physical grounding。
---
- [[JEPA]] — 表征空间预测(JEPA 的预测思想)
---
*Last updated: 2026-05-25*