GEM-4D: Geometry-Enhanced Video World Model

> 视频世界模型可以根据单条指令生成逼真的未来帧，但往往无法在时间上保持一致的点级运动（point-level motion）。由此生成的视频看起来可信，却缺乏可靠动作执行所需的物理基础（如机器人操控）。GEM-4D 通过几何接地解决这个问题。

arXiv: 2605.22882 作者: Kaichen Zhou, Yuzhen Chen, Fangneng Zhan, Hang Hua, Grace Chen, Xinhai Chang, Ao Qu, Yilun Du, Zhuang Liu, Paul Pu Liang, Mengyu Wang

---

核心贡献

现有视频世界模型的两个问题：

1. 物理接地差（Poor Physical Grounding）: 生成视频看似逼真，但物体运动轨迹不合物理规律 2. 点级运动不一致（Inconsistent Point Motion）: 同一物体在不同帧间运动轨迹不连贯

GEM-4D 提出几何增强视频世界模型，核心思路：将 3D 几何约束嵌入视频生成过程。

---

方法

（arXiv 摘要阶段，详细方法需读全文）

- Geometry Grounding: 利用显式 3D 几何信息（深度/法线/光流）指导视频生成

Point-Level Motion Consistency: 跨帧跟踪点级运动，确保轨迹物理一致

Action-Conditioned: 支持以动作为条件生成未来视频（与机器人操控结合）

---

为什么重要

1. 物理可信的视频生成: 不只是"看起来对"，是物理上可执行的预测

2. 机器人操控的下游应用: 可靠的动作规划需要物理上正确的未来预测 3. 填补生成 vs 规划之间的鸿沟: 很多世界模型能生成但不能规划，GEM-4D 尝试打通

---

关键洞察

> 视频生成质量（perceptual quality）和物理一致性（physical consistency）是两个不同的维度。一个视频可以看起来很逼真但物理上完全错误。GEM-4D 选择牺牲部分 perceptual quality，换取 physical grounding。

---

关联概念

- [[JEPA]] — 表征空间预测（JEPA 的预测思想）

[[V-JEPA 2]] — 动作规划能力

[[World Models]] — 通用世界模型

---

*Last updated: 2026-05-25*