CRONOS: Benchmarking Counterfactual Physical Consistency in Video

> 视频预测被视为通往通用世界模型的路径,但现有系统究竟是在学习底层因果结构,还是仅仅利用表面视觉相关性做预测?CRONOS 是一个基于干预的基准,用于评估反事实物理一致性。

arXiv: 2605.23699 作者: León Begiristain, Olaf Dünkel, Adam Kortylewski

---

核心问题

视频世界模型的一个根本性问题:它们学到的到底是因果结构,还是表面相关性?

- 如果只是表面相关性:换个视角/光照/背景,预测就失败了

  • 如果学到了因果结构:对同一物理系统做反事实干预时,预测应该一致

    ---

    CRONOS 基准

    CRONOS 的核心设计:对物理系统施加反事实干预,检验模型预测的一致性

    反事实问题例子:

  • "如果物体的质量变成 2x,轨迹会怎么变?"
  • "如果碰撞角度改变 30 度,结果会怎么变?"
  • "如果重力方向反转,物体怎么落?"

    评估方法: 对比模型预测 vs 物理模拟器的 ground truth,测量因果一致性

    ---

    关键洞察

    > 学界长期假设:视频预测能力强的模型 = 世界模型

  • > CRONOS 的质疑:这个假设未必成立。生成逼真视频和理解物理因果是两件不同的事。

    ---

    为什么重要

    1. 区分外观和物理理解: 能生成视频 ≠ 理解了物理 2. 推动因果世界模型研究: 需要专门的因果归纳偏置 3. 为机器人规划提供更好的评估标准: 机器人需要的是可干预的物理模型,不是视频生成器

    ---

    关联概念

    - [[World Models]] — 通用世界模型

  • [[JEPA]] — 表征预测与因果的关系
  • [[GEM-4D]] — 几何增强(与因果增强互补)

    ---

    *Last updated: 2026-05-25*