🧠 AI下一步是走向生成认知

视频Lecture · 最佳拍档 · Enactive Cognition vs 表征主义

具身智能 生成认知 强化学习 认知科学

💡 核心问题

这些运行在全球各地服务器里的AI,它们真的理解这个世界吗?它们展现出来的那些令人惊叹的所谓智能,和人类几十亿年进化出来的认知能力,在本质上是同一种东西吗? — 大飞(最佳拍档)

这个问题直接关系到AI未来的发展方向。如果现在的AI已经有真正的理解能力,只需继续扩大模型规模,AGI自然到来。但如果它们只是在模仿行为、统计模式,无论模型做多大,都永远不可能达到真正的通用智能。

🔑 核心论点

🚫
表征主义(错误路线)
认知 = 构建世界副本的信息处理过程。感知是被动的。
生成认知(正确方向)
认知是在具身主体与环境的互动中被"生成"的。意义是行动中创造的。

🪑 经典例子:椅子

🚫 表征主义

你识别出这是"椅子",因为脑子里有"椅子"的内部表征,你把眼前的物体和这个表征进行了匹配。

被动 符号匹配

✅ 生成认知

你知道这是椅子,因为你知道可以坐在上面、可以搬动它、可以把它当桌子用。这些"能做什么"的知识,就是你对椅子的理解。

主动 行动创造意义

📊 生成认知四大支柱

1

经验

Agent与环境持续互动,不是静态数据集。"世界本身就是它最好的模型"——罗德尼·布鲁克斯

2

行动-感知不可分割

没有行动就没有感知,感知本身就是一种行动。掌握行动如何改变感官输入的规律 = 感知世界。

3

具身性

认知离不开身体。你的身体能做什么、不能做什么,决定了你能有什么样的经验。

4

自主性

Agent主动定义自己的目标和意义,从欲望出发投射到世界生成目标——"意向弧"。

📖 核心引言

数据不再是一种静态的资源,而是Agentic能力的产物。只有通过Agent自己的经验,才能实现真正的持续进步。 — 萨顿 & 西尔弗,《欢迎来到经验时代》(2025)
一个大模型即使看过了所有关于"杯子"的文本和图片,它也不可能真正理解"杯子"是什么,因为 它从来没有拿过一个杯子,从来没有用杯子喝过水,从来没有打碎过一个杯子。 — 大飞

🔄 表征主义 vs 生成认知 — 完整对比

🚫 表征主义 Representationalism

主流AI路线 · 1950年代认知革命 · 来源:古希腊柏拉图

  • 认知 = 信息处理:感官接收 → 内部表征 → 推理决策 → 行动输出
  • 感知是被动的:先看见 → 再识别 → 再行动
  • 世界是客观存在的:等待被精确复刻
  • 意义是发现的:世界有固定意义等待被表征
  • 知识是静态的:训练完就固定
  • 数据是被动的:人类收集的标注数据集
  • 失败案例:专家系统、纯监督学习

✅ 生成认知 Enactive Cognition

新方向 · 具身智能 · 来源:现象学+生态心理学

  • 认知是生成的:在具身主体与环境的互动中生成
  • 感知是主动的:没有行动就没有感知,感知本身就是行动
  • 世界是可能性空间:动态、无限复杂
  • 意义是创造的:Agent在行动中创造意义
  • 知识是持续的:持续学习,终身适应
  • 数据是生成的:Agent自己的经验产生
  • 成功案例:强化学习(部分)

🔀 认知模型对比

表征主义流程:

🌍 外部世界
👁 感官输入
🧠 内部表征
⚙️ 推理/决策
✋ 行动输出

生成认知流程:

🤖 Agent
🔄 行动-感知循环
🌍 世界(实时互动)

🏛 表征主义思想史

古希腊 · 柏拉图

理念论:现实世界是理念世界的影子,知识是对理念的回忆

1950年代 · 认知革命

认知科学诞生:认知 = 计算 + 表征,成为AI基础范式

1960年代 · 专家系统

符号AI:规则匹配 + 逻辑推理,完全缺乏身体经验

2010年代 · 深度学习

数据驱动表征学习,但仍是被动学习人类留下的痕迹

2025 · 《走向生成式AI》

萨顿 & 拉菲系统性批判表征主义,提出生成认知路线

🏛 生成认知四大支柱

萨顿和拉菲从丰富的哲学和科学思想中,提炼出四个对AI最关键的核心概念

1

经验 Experience

Agent与环境持续互动、相互影响。不是过去经历的数据集,而是实时生成的互动过程。

技能性 规范性 具身性
技能性:老自行车手看到的是骑行路线,新手只看到障碍物
规范性:行动有成功/失败,Agent自我调整
具身性:身体能力决定经验范围
2

行动-感知不可分割性

感知和行动是相互建构、不可分割的整体。没有行动就没有感知,感知本身就是一种行动。

传感器运动偶联:行动系统性地改变感官输入,掌握这些规律就是感知世界
例子:眼球不动 → 视网膜图像稳定 → 神经适应 → 什么都看不见
3

具身性 Embodiment

认知离不开身体。你的身体能做什么、不能做什么,决定了你能有什么样的经验。

梅洛-庞蒂:身体不是拥有的物体,而是体验世界的媒介
启示:AI需要身体来获得真正的理解
4

自主性 Autonomy

Agent不是被动接收信息,而是主动定义自己的目标和意义。

意向弧(Intentional Arc):从欲望/需要出发,投射到世界生成目标
示能性(Affordance):环境提供给智能体的行动可能性——地面→行走,杯子→抓握

🌊 经验 vs 数据

机器学习的"经验"生成认知的"经验"
本质 人类预先收集的静态数据集 Agent与环境实时生成的互动过程
来源 人类经验留下的痕迹 Agent自己的行动和反馈
持续性 一次性的,训练完就固定 持续不断,没有终点
游泳比喻 看了一万本游泳书和视频 真正下水,体验浮力、呛水、保持平衡

🧠 思想史脉络

埃德蒙德·胡塞尔
现象学创始人
感知不是头脑中构建世界模型,而是主体在生活经验中直接与世界相遇
马丁·海德格尔
存在主义哲学家
"在世存在"——我们一开始就沉浸在有意义的实践情境中,意义从一开始就存在于互动中
莫里斯·梅洛-庞蒂
身体现象学
身体不是拥有的物体,而是体验世界的媒介。感知、思想、情感都离不开身体
詹姆斯·吉布森
生态心理学
感知不是环境的物理特征,而是环境提供的行动可能性——"示能性"(Affordance)
弗朗西斯科·瓦雷拉
神经科学+哲学
《具身心智》——正式提出"生成主义"(Enactivism)框架
凯文·奥雷根 & 阿尔瓦·诺埃
感知理论
传感器运动偶联理论——感知就是掌握行动如何改变感官输入的规律
理查德·萨顿
强化学习之父 / 2017图灵奖
《走向生成式人工智能》——系统性批判表征主义,提出生成认知方向
罗德尼·布鲁克斯
机器人学家
"世界本身就是它最好的模型。最准确、最新鲜的信息永远都在世界本身里"

🔑 示能性(Affordance)详解

吉布森提出:环境提供给智能体的行动可能性,不是物体固有属性,而是物体与智能体身体能力之间的关系。

🏠
地面
行走、奔跑
杯子
抓握、饮用
🪜
楼梯
攀登、跨越
💧
水面
漂浮、淹没

📄 关键论文

1972 · 《计算机不能做什么》

休伯特·德雷福斯批判专家系统缺乏人类基于身体经验的常识

1991 · 《具身心智》

瓦雷拉、汤普森、罗施——正式提出生成主义框架

2001 · 《理解大脑》

奥雷根 & 诺埃——传感器运动偶联理论

2025 · 《走向生成式人工智能》

萨顿 & 拉菲——对主流AI范式的系统性批判和反思

2025 · 《欢迎来到经验时代》

萨顿 & 西尔弗——数据是Agentic能力的产物,只有通过Agent自己的经验才能持续进步

🔍 对当前AI的系统性批判

AI类型问题诊断
🟡 专家系统 完全缺乏经验,只有规则匹配 零经验
🔴 监督学习 数据只是人类经验痕迹,不是AI自己的经验 二手经验
🔴 大语言模型 看过所有"杯子"文本图片,仍不理解"杯子" 无具身
🟡 强化学习 最接近经验观,但仍不完整 部分经验
🟢 具身AI/机器人 有身体,持续学习,有希望 接近目标

⚠️ 表征主义的根本缺陷

1
世界不可能被完美表征
世界是动态的、无限复杂的可能性空间,任何有限模型都无法捕捉全部。无论模型多大,都是简化和近似。
2
感知不是被动的
表征主义假设感知是被动的接收,但传感器运动偶联证明:感知是主动的,依赖于行动如何改变感官输入。
3
意义不是发现的,是创造的
世界本身没有固定的等待被发现的意义。意义是Agent在行动中和世界一起生成的。
4
学习没有终点
监督学习把学习当成一次性的,但真正的经验是持续不断的。必须持续学习和适应——"大世界假说"。

🌟 启示:对AI研究的建议

🤖 给Agent身体
具身性是真正理解的基础。AI需要身体来生成经验。
🔄 主动探索
不是被动接收数据,而是主动探索环境,生成自己的经验。
♻️ 持续学习
解决灾难性遗忘,实现终身学习,适应不断变化的世界。
⚖️ 自我评估
行动有成功/失败,Agent根据反馈自我调整,而非依赖外部标注。

📚 核心术语表

Enactive Cognition

生成认知 — 认知不是在头脑中构建世界的模型,而是在具身主体与环境的互动中被"生成"的。意义是Agent在行动中创造的。

Representationalism

表征主义 — 主流AI依赖的认知观。认为认知是信息处理过程:外部信息→内部表征→推理决策→行动输出。感知是被动的。

Affordance / 示能性

环境提供给智能体的行动可能性。不是物体固有属性,而是物体与智能体身体能力之间的关系。如:地面→行走,杯子→抓握。

Embodiment / 具身性

认知离不开身体。你的身体能做什么、不能做什么,决定了你能有什么样的经验。(梅洛-庞蒂)

Sensorimotor Coupling / 传感器运动偶联

行动系统性地改变感官输入,掌握这些规律就是感知世界。如:眼球转动→视野物体反向移动→据此感知深度和空间。(奥雷根 & 诺埃)

Big World Hypothesis / 大世界假说

世界比任何Agent都大得多、复杂得多。它永远不可能见过所有情况,必须持续学习和适应。(萨顿)

Intentional Arc / 意向弧

从欲望/需要出发,投射到世界生成目标。Agent不是被动接收信息,而是主动定义自己的意义和方向。

Passive Representations / 被动表征

表征主义的核心假设:感知是对预先存在的世界的被动复制,先看见再识别再行动。

Experience (Enactive) / 经验

生成认知的经验 ≠ 机器学习的数据集。是Agent与环境之间持续不断、相互影响的实时互动过程,有技能性、规范性、具身性三个特点。

Catastrophic Forgetting / 灾难性遗忘

神经网络学习新任务时完全忘记旧任务的现象。持续学习(终身学习)研究的核心问题。

Agentic AI / 代理式AI

能够主动行动、设定目标、持续学习的AI系统。萨顿:"数据不再是静态资源,而是Agentic能力的产物。"