CRONOS: Benchmarking Counterfactual Physical Consistency in Video

> 视频预测被视为通往通用世界模型的路径，但现有系统究竟是在学习底层因果结构，还是仅仅利用表面视觉相关性做预测？CRONOS 是一个基于干预的基准，用于评估反事实物理一致性。

arXiv: 2605.23699 作者: León Begiristain, Olaf Dünkel, Adam Kortylewski

---

核心问题

视频世界模型的一个根本性问题：它们学到的到底是因果结构，还是表面相关性？

- 如果只是表面相关性：换个视角/光照/背景，预测就失败了

如果学到了因果结构：对同一物理系统做反事实干预时，预测应该一致

---

CRONOS 的核心设计：对物理系统施加反事实干预，检验模型预测的一致性

反事实问题例子：

"如果物体的质量变成 2x，轨迹会怎么变？"

"如果碰撞角度改变 30 度，结果会怎么变？"

"如果重力方向反转，物体怎么落？"

评估方法: 对比模型预测 vs 物理模拟器的 ground truth，测量因果一致性

---

> 学界长期假设：视频预测能力强的模型 = 世界模型

> CRONOS 的质疑：这个假设未必成立。生成逼真视频和理解物理因果是两件不同的事。

---

1. 区分外观和物理理解: 能生成视频 ≠ 理解了物理 2. 推动因果世界模型研究: 需要专门的因果归纳偏置 3. 为机器人规划提供更好的评估标准: 机器人需要的是可干预的物理模型，不是视频生成器

---

- [[World Models]] — 通用世界模型

[[JEPA]] — 表征预测与因果的关系

[[GEM-4D]] — 几何增强（与因果增强互补）

---

*Last updated: 2026-05-25*