AI下一步是走向生成认知

💡 核心问题

这些运行在全球各地服务器里的AI，它们真的理解这个世界吗？它们展现出来的那些令人惊叹的所谓智能，和人类几十亿年进化出来的认知能力，在本质上是同一种东西吗？ — 大飞（最佳拍档）

这个问题直接关系到AI未来的发展方向。如果现在的AI已经有真正的理解能力，只需继续扩大模型规模，AGI自然到来。但如果它们只是在模仿行为、统计模式，无论模型做多大，都永远不可能达到真正的通用智能。

🔑 核心论点

🚫

表征主义（错误路线）

认知 = 构建世界副本的信息处理过程。感知是被动的。

✅

生成认知（正确方向）

认知是在具身主体与环境的互动中被"生成"的。意义是行动中创造的。

🪑 经典例子：椅子

🚫 表征主义

你识别出这是"椅子"，因为脑子里有"椅子"的内部表征，你把眼前的物体和这个表征进行了匹配。

被动符号匹配

✅ 生成认知

你知道这是椅子，因为你知道可以坐在上面、可以搬动它、可以把它当桌子用。这些"能做什么"的知识，就是你对椅子的理解。

主动行动创造意义

📊 生成认知四大支柱

经验

Agent与环境持续互动，不是静态数据集。"世界本身就是它最好的模型"——罗德尼·布鲁克斯

行动-感知不可分割

没有行动就没有感知，感知本身就是一种行动。掌握行动如何改变感官输入的规律 = 感知世界。

具身性

认知离不开身体。你的身体能做什么、不能做什么，决定了你能有什么样的经验。

自主性

Agent主动定义自己的目标和意义，从欲望出发投射到世界生成目标——"意向弧"。

📖 核心引言

数据不再是一种静态的资源，而是Agentic能力的产物。只有通过Agent自己的经验，才能实现真正的持续进步。 — 萨顿 & 西尔弗，《欢迎来到经验时代》(2025)

一个大模型即使看过了所有关于"杯子"的文本和图片，它也不可能真正理解"杯子"是什么，因为它从来没有拿过一个杯子，从来没有用杯子喝过水，从来没有打碎过一个杯子。 — 大飞

🔄 表征主义 vs 生成认知 — 完整对比

🚫 表征主义 Representationalism

主流AI路线 · 1950年代认知革命 · 来源：古希腊柏拉图

认知 = 信息处理：感官接收 → 内部表征 → 推理决策 → 行动输出
感知是被动的：先看见 → 再识别 → 再行动
世界是客观存在的：等待被精确复刻
意义是发现的：世界有固定意义等待被表征
知识是静态的：训练完就固定
数据是被动的：人类收集的标注数据集
失败案例：专家系统、纯监督学习

✅ 生成认知 Enactive Cognition

新方向 · 具身智能 · 来源：现象学+生态心理学

认知是生成的：在具身主体与环境的互动中生成
感知是主动的：没有行动就没有感知，感知本身就是行动
世界是可能性空间：动态、无限复杂
意义是创造的：Agent在行动中创造意义
知识是持续的：持续学习，终身适应
数据是生成的：Agent自己的经验产生
成功案例：强化学习（部分）

🔀 认知模型对比

表征主义流程：

🌍 外部世界

→

👁 感官输入

→

🧠 内部表征

→

⚙️ 推理/决策

→

✋ 行动输出

生成认知流程：

🤖 Agent

↔

🔄 行动-感知循环

↔

🌍 世界（实时互动）

🏛 表征主义思想史

古希腊 · 柏拉图

理念论：现实世界是理念世界的影子，知识是对理念的回忆

1950年代 · 认知革命

认知科学诞生：认知 = 计算 + 表征，成为AI基础范式

1960年代 · 专家系统

符号AI：规则匹配 + 逻辑推理，完全缺乏身体经验

2010年代 · 深度学习

数据驱动表征学习，但仍是被动学习人类留下的痕迹

2025 · 《走向生成式AI》

萨顿 & 拉菲系统性批判表征主义，提出生成认知路线

🏛 生成认知四大支柱

萨顿和拉菲从丰富的哲学和科学思想中，提炼出四个对AI最关键的核心概念

经验 Experience

Agent与环境持续互动、相互影响。不是过去经历的数据集，而是实时生成的互动过程。

技能性规范性具身性

技能性：老自行车手看到的是骑行路线，新手只看到障碍物
规范性：行动有成功/失败，Agent自我调整
具身性：身体能力决定经验范围

行动-感知不可分割性

感知和行动是相互建构、不可分割的整体。没有行动就没有感知，感知本身就是一种行动。

传感器运动偶联：行动系统性地改变感官输入，掌握这些规律就是感知世界
例子：眼球不动 → 视网膜图像稳定 → 神经适应 → 什么都看不见

具身性 Embodiment

认知离不开身体。你的身体能做什么、不能做什么，决定了你能有什么样的经验。

梅洛-庞蒂：身体不是拥有的物体，而是体验世界的媒介
启示：AI需要身体来获得真正的理解

自主性 Autonomy

Agent不是被动接收信息，而是主动定义自己的目标和意义。

意向弧（Intentional Arc）：从欲望/需要出发，投射到世界生成目标
示能性（Affordance）：环境提供给智能体的行动可能性——地面→行走，杯子→抓握

🌊 经验 vs 数据

	机器学习的"经验"	生成认知的"经验"
本质	人类预先收集的静态数据集	Agent与环境实时生成的互动过程
来源	人类经验留下的痕迹	Agent自己的行动和反馈
持续性	一次性的，训练完就固定	持续不断，没有终点
游泳比喻	看了一万本游泳书和视频	真正下水，体验浮力、呛水、保持平衡

🧠 思想史脉络

埃德蒙德·胡塞尔

现象学创始人
感知不是头脑中构建世界模型，而是主体在生活经验中直接与世界相遇

马丁·海德格尔

存在主义哲学家
"在世存在"——我们一开始就沉浸在有意义的实践情境中，意义从一开始就存在于互动中

莫里斯·梅洛-庞蒂

身体现象学
身体不是拥有的物体，而是体验世界的媒介。感知、思想、情感都离不开身体

詹姆斯·吉布森

生态心理学
感知不是环境的物理特征，而是环境提供的行动可能性——"示能性"（Affordance）

弗朗西斯科·瓦雷拉

神经科学+哲学
《具身心智》——正式提出"生成主义"（Enactivism）框架

凯文·奥雷根 & 阿尔瓦·诺埃

感知理论
传感器运动偶联理论——感知就是掌握行动如何改变感官输入的规律

理查德·萨顿

强化学习之父 / 2017图灵奖
《走向生成式人工智能》——系统性批判表征主义，提出生成认知方向

罗德尼·布鲁克斯

机器人学家
"世界本身就是它最好的模型。最准确、最新鲜的信息永远都在世界本身里"

🔑 示能性（Affordance）详解

吉布森提出：环境提供给智能体的行动可能性，不是物体固有属性，而是物体与智能体身体能力之间的关系。

🏠

地面

行走、奔跑

☕

杯子

抓握、饮用

🪜

楼梯

攀登、跨越

💧

水面

漂浮、淹没

📄 关键论文

1972 · 《计算机不能做什么》

休伯特·德雷福斯批判专家系统缺乏人类基于身体经验的常识

1991 · 《具身心智》

瓦雷拉、汤普森、罗施——正式提出生成主义框架

2001 · 《理解大脑》

奥雷根 & 诺埃——传感器运动偶联理论

2025 · 《走向生成式人工智能》

萨顿 & 拉菲——对主流AI范式的系统性批判和反思

2025 · 《欢迎来到经验时代》

萨顿 & 西尔弗——数据是Agentic能力的产物，只有通过Agent自己的经验才能持续进步

🔍 对当前AI的系统性批判

AI类型	问题	诊断
🟡 专家系统	完全缺乏经验，只有规则匹配	零经验
🔴 监督学习	数据只是人类经验痕迹，不是AI自己的经验	二手经验
🔴 大语言模型	看过所有"杯子"文本图片，仍不理解"杯子"	无具身
🟡 强化学习	最接近经验观，但仍不完整	部分经验
🟢 具身AI/机器人	有身体，持续学习，有希望	接近目标

⚠️ 表征主义的根本缺陷

世界不可能被完美表征

世界是动态的、无限复杂的可能性空间，任何有限模型都无法捕捉全部。无论模型多大，都是简化和近似。

感知不是被动的

表征主义假设感知是被动的接收，但传感器运动偶联证明：感知是主动的，依赖于行动如何改变感官输入。

意义不是发现的，是创造的

世界本身没有固定的等待被发现的意义。意义是Agent在行动中和世界一起生成的。

学习没有终点

监督学习把学习当成一次性的，但真正的经验是持续不断的。必须持续学习和适应——"大世界假说"。

🌟 启示：对AI研究的建议

🤖 给Agent身体

具身性是真正理解的基础。AI需要身体来生成经验。

🔄 主动探索

不是被动接收数据，而是主动探索环境，生成自己的经验。

♻️ 持续学习

解决灾难性遗忘，实现终身学习，适应不断变化的世界。

⚖️ 自我评估

行动有成功/失败，Agent根据反馈自我调整，而非依赖外部标注。

🔍

📚 核心术语表

Enactive Cognition

生成认知 — 认知不是在头脑中构建世界的模型，而是在具身主体与环境的互动中被"生成"的。意义是Agent在行动中创造的。

Representationalism

表征主义 — 主流AI依赖的认知观。认为认知是信息处理过程：外部信息→内部表征→推理决策→行动输出。感知是被动的。

Affordance / 示能性

环境提供给智能体的行动可能性。不是物体固有属性，而是物体与智能体身体能力之间的关系。如：地面→行走，杯子→抓握。

Embodiment / 具身性

认知离不开身体。你的身体能做什么、不能做什么，决定了你能有什么样的经验。（梅洛-庞蒂）

Sensorimotor Coupling / 传感器运动偶联

行动系统性地改变感官输入，掌握这些规律就是感知世界。如：眼球转动→视野物体反向移动→据此感知深度和空间。（奥雷根 & 诺埃）

Big World Hypothesis / 大世界假说

世界比任何Agent都大得多、复杂得多。它永远不可能见过所有情况，必须持续学习和适应。（萨顿）

Intentional Arc / 意向弧

从欲望/需要出发，投射到世界生成目标。Agent不是被动接收信息，而是主动定义自己的意义和方向。

Passive Representations / 被动表征

表征主义的核心假设：感知是对预先存在的世界的被动复制，先看见再识别再行动。

Experience (Enactive) / 经验

生成认知的经验 ≠ 机器学习的数据集。是Agent与环境之间持续不断、相互影响的实时互动过程，有技能性、规范性、具身性三个特点。

Catastrophic Forgetting / 灾难性遗忘

神经网络学习新任务时完全忘记旧任务的现象。持续学习（终身学习）研究的核心问题。

Agentic AI / 代理式AI

能够主动行动、设定目标、持续学习的AI系统。萨顿："数据不再是静态资源，而是Agentic能力的产物。"