> 视频预测被视为通往通用世界模型的路径,但现有系统究竟是在学习底层因果结构,还是仅仅利用表面视觉相关性做预测?CRONOS 是一个基于干预的基准,用于评估反事实物理一致性。
arXiv: 2605.23699 作者: León Begiristain, Olaf Dünkel, Adam Kortylewski
---
视频世界模型的一个根本性问题:它们学到的到底是因果结构,还是表面相关性?
- 如果只是表面相关性:换个视角/光照/背景,预测就失败了
---
CRONOS 的核心设计:对物理系统施加反事实干预,检验模型预测的一致性
反事实问题例子:
评估方法: 对比模型预测 vs 物理模拟器的 ground truth,测量因果一致性
---
> 学界长期假设:视频预测能力强的模型 = 世界模型
---
1. 区分外观和物理理解: 能生成视频 ≠ 理解了物理 2. 推动因果世界模型研究: 需要专门的因果归纳偏置 3. 为机器人规划提供更好的评估标准: 机器人需要的是可干预的物理模型,不是视频生成器
---
- [[World Models]] — 通用世界模型
---
*Last updated: 2026-05-25*