递归自我改进（RSI）AI知识库

高可信

Recursive Superintelligence (RSI)

RSI — 递归超级智能

$650M · $4.65B估值

创始人：Richard Socher、Tim Rocktäschel、Jeff Clune、Josh Tobin、Alexey Dosovitskiy、熊蔡明、Tim Shi、田渊栋

2025年成立，使命是maximizing knowledge discovery rate。8位co-founder来自Meta、DeepMind、OpenAI、Salesforce、Google等顶尖机构。目前约25人，目标40人。

核心方法：用AI自动化科研全过程——AI发现新假设→AI验证→用更强AI继续优化，最终输出新知识、新洞察。

今年年中推Level 1（5万名博士能力的系统）

不做纯RL路线，结合pre-training和后训练

重视可解释性（安全+效率双重需求）

不做蒸馏员工，注重员工自主性

高可信

Safe Superintelligence (SSI)

SSI — 安全超级智能

估值约$20B+

创始人：Ilya Sutskever（OpenAI前联合创始人/首席科学家）

Ilya离开OpenAI后创立，口号是做安全的超级智能。非常保密，内部情况几乎不公开。

核心方法：安全优先于能力，主打在对齐问题有保障的前提下追求超级智能。可能在研究新训练范式/为什么模型会泛化/记忆化。

不走大规模GPT路线，可能研究新训练范式

田渊栋观点：Ilya可能在研究"为什么模型会泛化"

高可信

Ineffable Intelligence

David Silver — 强化学习路线

新公司

创始人：David Silver（AlphaGo/AlphaZero主要发明人）

离开Google DeepMind后创立。愿景是在大模型时代重现AlphaGo的故事——完全不用人类知识，通过左脚踩右脚实现自我进化。

核心方法：纯强化学习路线，不用大模型。AlphaZero在围棋上证明这条路可行——评价函数定义清楚（胜负），所以可以完全自主进化。

挑战：开放域问题评价函数难以定义

田渊栋观点：围棋有明确边界，开放域很难做到

高可信

Anthropic — Auto Research

Anthropic 自动化研究

关键人物：Andrej Karpathy（加入Anthropic做预训练）、Dario Amodei

Andrej Karpathy加入Anthropic后做预训练/Auto Research，在推特上直播了自己做auto research agent的过程、开源了代码。

核心方法：用AI辅助coding agent的方式做auto research，让AI自主设计实验、评估结果。

高可信

DeepMind — AlphaEvolve

AlphaEvolve 算法进化

团队：DeepMind研究团队（Matej Ostrowski, Roger G. Melu等）

用LLM不断去变异和组合算法，实现自动化算法发现。能发现非平凡数学定理证明。

核心方法：LLM驱动变异+组合，在算法空间中搜索。能发现数学新定理。属于RSI路线的子集但更窄——优化具体代码/算法，非AI自己优化自己。

中可信

OpenAI — Codex/Agentic Research

OpenAI 自动化研究

代表：Codex系列、GPT-5、OpenAI研究团队

OpenAI的Codex系列是自动化coding agent的代表作，在auto research方向也有大量投入。

核心方法：大规模RL + coding agent做自动化研究，同时追求AGI。最新Codex 5.5已接近Claude Code水平。

中可信

Thinking Machines Lab

Mira Murati — Thinking Machines

$1B+

创始人：Mira Murati（前OpenAI CTO）

2025年创立。发布持续交互的人机模型（不打断的持续对话），方向侧重于人和AI如何交互。

核心方法：持续交互不打断（vs. turn-by-turn），侧重HCI和人机协同。

中可信

AMI Labs — Yann LeCun

Yann LeCun — 世界模型路线

创始人：Yann LeCun（Meta首席AI科学家）

探索世界模型（JEPA），在视频/图像上的世界模型和机器人结合方向。

核心方法：世界模型（JEPA）+视频/图像+机器人结合，自监督学习。和RSI的"用语言驱动递归自我改进"路线不同。

中可信

Sotopia AI

Sotopia — 社会智能递归改进

团队：Meta/Stanford相关研究背景

创建社会模拟环境让AI agent在社会交互中递归自我改进、演化。目标是让AI具备社会智能和长期规划能力。

核心方法：社会模拟+多智能体演化+递归评估。在社会情境中训练AI的元认知和自我改进能力。

🔬

Paper + Code

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

Sakana AI · Authors: Chris Lu, Cong Lu, et al. · ICLR/Nature (2024)

核心发现：首个让LLM能独立完成科学研究全流程的系统——从产生想法、写代码、做实验、分析结果到写论文。被Nature收录，标志着自动化科研进入新阶段。v2版本进一步增加递归自我改进能力，让AI不仅做科研，还能改进自己做科研的方式。

示例生成的论文涵盖DualScale Diffusion、Multi-scale Grid Noise Adaptation、GAN-Enhanced Diffusion等方向，AI Scientist可以独立完成从假设到论文的完整闭环。

⭐ 13.9k GitHub Stars

📄 Nature/ICLR 2024

🔁 v2 递归改进版

Open-Endedness AutoML LLM 科学发现 Jeff Clune

📂 GitHub 代码库 📄 arXiv 论文

⚠️ 注意：本代码会执行LLM生成的代码，存在风险，请谨慎使用

🤖

Paper + Code

MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

Sirui Hong, Mingchen Zhuge, Jürgen Schmidhuber · OpenBMB · ICLR 2024 · arXiv:2308.00352

核心发现：让多个LLM agent像软件公司一样协作——通过SOP（标准操作流程）协调不同角色的agent（产品经理、架构师、工程师、测试）分工完成复杂任务。MetaGPT引入动作 formalism，将SOP编码进agent协作过程，实现了软件开发的端到端自动化。

Jürgen Schmidhuber（LSTM发明人，深度学习奠基人之一）是作者之一，强化了其在AI研究界的影响力。

🎯 多智能体协作

📋 SOP驱动

🏗️ 软件工程自动化

Multi-Agent SOP 元编程 Schmidhuber OpenBMB

📂 GitHub 代码库 📄 arXiv 论文

🔗 关联公司：与RSI多智能体协作科研方向高度相关

🧬

Paper

AlphaEvolve: An AlphaZero-inspired System for Automated Mathematical Algorithm Discovery

DeepMind · Matej Ostrowski, Roger G. Melu et al. · Nature (2025)

核心发现：用LLM不断去变异和组合算法来发现新数学算法。结合了LLM的创造性（生成变异）和进化算法的选择压力（评估保留最优），能发现非平凡数学定理证明，包括矩阵乘法Strassen算法的新变体等重要数学成果。

与RSI的区别：AlphaEvolve是"AI优化算法"（RSI的子集），RSI是"AI优化整个科研过程本身"——AlphaEvolve代表RSI在算法发现这个子任务上的最高水平。

🧮 数学算法发现

🌿 LLM+进化算法

🏆 Nature 2025

AlphaZero Algorithm Discovery LLM Nature DeepMind

🌐 DeepMind Blog 📄 arXiv 论文

📌 RSI子集：AlphaEvolve = AI优化算法 | RSI = AI优化科研全过程

🥥

Paper

Training Chain-of-Thought via Latent Space Reasoning (Coconut)

田渊栋 (Tian Yuandong) · arXiv:2412.13171 · NeurIPS/ICLR (2024-2025)

核心发现：在连续潜在空间（latent space）里做推理——用"连续思维链"替代传统的离散语言token序列。每个latent token的信息密度远高于语言token，可以同时维持多个不同思路（"thinking in multiple modes"），效率远超语言推理。

关键洞察：语言是信息瓶颈——用语言描述推理过程会丢失信息；直接在潜在空间运算可以保留更多细节。这对RSI的"让AI自主推理"能力至关重要。

🧠 潜在空间推理

⚡ 效率>语言CoT

🔗 RSI核心推理技术

Latent Reasoning Chain-of-Thought 田渊栋 RSI NeurIPS

📄 arXiv 论文 📄 Aha Moments (田渊栋)

🔗 RSI关联：田渊栋是RSI联合创始人，将Coconut作为RSI核心推理能力基础

🎙️

Podcast

Lex Fridman Podcast #94 — Ilya Sutskever: Deep Learning

Ilya Sutskever (SSI创始人) · MIT AI Podcast · 2020年5月8日

核心内容：Ilya Sutskever（SSI创始人、OpenAI前联合创始人/首席科学家）在MIT Lex Fridman Podcast的深度访谈。涵盖：深度学习革命、GPT系列起源、大模型涌现能力、意识与智能本质、对超级智能安全的早期思考。

⚠️ 注意：此为2020年录制，SSI成立于2024年。访谈反映的是Ilya在OpenAI后期（2020年）的思考——后来Ilya离开OpenAI创立SSI，观点可能有重大演进。需同时关注SSI官方发布以追踪最新立场。

⏱️ ~3小时深度对话

🏛️ MIT AI Podcast

🔄 2020年（SSI成立前）

Ilya Sutskever SSI 深度学习 AGI Lex Fridman

🎧 收听 Podcast 🌐 SSI 官网

⚠️ 此为2020年访谈，SSI成立于2024年——Ilya观点可能已演进

⚡

Code

llm.c — LLM Training in Simple, Raw C/CUDA

Andrej Karpathy · GitHub Stars: 30k+ · 2024

核心发现：Andrej Karpathy（现Anthropic员工）用纯C/CUDA实现GPT-2训练，不依赖PyTorch等任何深度学习框架。30,135 GitHub Stars。代码极度简洁，配套nanoGPT（59,264 Stars）是最简GPT实现（300行）。

价值：对理解LLM原理极有价值——没有框架抽象层的干扰，可以直观看到矩阵乘法、注意力机制、softmax等核心操作的原始实现。Karpathy还直播了用这个代码做auto research agent的过程。

⭐ 30,135 Stars

🎯 纯C/无PyTorch

📦 nanoGPT: 59k Stars

Karpathy Anthropic C/CUDA GPT-2 LLM原理

📂 llm.c GitHub 📂 nanoGPT GitHub 🌐 Karpathy 博客

🔗 关联：Karpathy现于Anthropic做预训练/Auto Research，其auto research直播是Anthropic RSI方向的标志性事件

公司/实验室	核心路线	关键技术	与RSI区别	资金
RSI	AI优化AI科研全过程	Auto Research + Latent Reasoning (Coconut)	本体	$650M
SSI (Ilya)	安全超级智能优先	新训练范式? (保密)	安全先行，不先做自动化科研	$1B+
Ineffable (Silver)	纯RL/AlphaZero范式	自我博弈 + 进化算法	不用大模型，完全自主RL	未知
DeepMind AlphaEvolve	LLM进化算法	LLM + 变异搜索	优化具体算法，非AI自己	Google内部
Anthropic	Auto research + Claude	Constitutional AI + RLHF	侧重安全对齐，非纯RSI	$7B+
OpenAI	Codex + AGI	RLHF + Scaling	coding agent为主	$20B+
Thinking Machines	人机持续交互	HCI + 持续对话	HCI导向，非纯RSI	$1B+
AMI Labs (LeCun)	世界模型/JEPA	自监督 + 视频预测	视觉路线，语言优先级低	Meta内部
Sotopia AI	社会智能	多智能体 + 社会模拟	社会情境，非科研	初创

一、公司/实验室全景图

RSI — 递归超级智能

SSI — 安全超级智能

David Silver — 强化学习路线

Anthropic 自动化研究

AlphaEvolve 算法进化

OpenAI 自动化研究

Mira Murati — Thinking Machines

Yann LeCun — 世界模型路线

Sotopia — 社会智能递归改进

二、核心资源深度解析（精选6个）

其他相关资源速览

三、路线对比分析

四、阅读路径推荐

路径A：快速了解RSI全貌（1-2小时）

路径B：深入理解技术基础（1-2周）

路径C：研究者视角（1个月+）