递归自我改进(RSI)AI知识库

公司 · 论文 · 播客 · 博客 · 资源全景图 · 更新时间:2026-06-06
Recursive Self-Improvement RSI AI Agent Auto Research NeoLab Open-Endedness Latent Reasoning
什么是递归自我改进(RSI)? 用AI来优化AI本身——包括优化AI的训练过程、代码、架构、benchmark设计——让AI变得更强,再用更强的AI继续优化自己,形成正循环。目标是maximizing knowledge discovery rate(最大化知识发现速率)。

田渊栋估计:我们目前处于0.5-2/10阶段。翻过边界后可能还有100那么高,这是未知的。
高可信(视频/权威媒体确认)
中可信(行业报道/官方披露)
低可信(公开资料有限)

一、公司/实验室全景图

高可信
Recursive Superintelligence (RSI)

RSI — 递归超级智能

$650M · $4.65B估值
创始人:Richard Socher、Tim Rocktäschel、Jeff Clune、Josh Tobin、Alexey Dosovitskiy、熊蔡明、Tim Shi、田渊栋
2025年成立,使命是maximizing knowledge discovery rate。8位co-founder来自Meta、DeepMind、OpenAI、Salesforce、Google等顶尖机构。目前约25人,目标40人。
核心方法:用AI自动化科研全过程——AI发现新假设→AI验证→用更强AI继续优化,最终输出新知识、新洞察。
  • 今年年中推Level 1(5万名博士能力的系统)
  • 不做纯RL路线,结合pre-training和后训练
  • 重视可解释性(安全+效率双重需求)
  • 不做蒸馏员工,注重员工自主性
  • 高可信
    Safe Superintelligence (SSI)

    SSI — 安全超级智能

    估值约$20B+
    创始人:Ilya Sutskever(OpenAI前联合创始人/首席科学家)
    Ilya离开OpenAI后创立,口号是做安全的超级智能。非常保密,内部情况几乎不公开。
    核心方法:安全优先于能力,主打在对齐问题有保障的前提下追求超级智能。可能在研究新训练范式/为什么模型会泛化/记忆化。
  • 不走大规模GPT路线,可能研究新训练范式
  • 田渊栋观点:Ilya可能在研究"为什么模型会泛化"
  • 高可信
    Ineffable Intelligence

    David Silver — 强化学习路线

    新公司
    创始人:David Silver(AlphaGo/AlphaZero主要发明人)
    离开Google DeepMind后创立。愿景是在大模型时代重现AlphaGo的故事——完全不用人类知识,通过左脚踩右脚实现自我进化。
    核心方法:纯强化学习路线,不用大模型。AlphaZero在围棋上证明这条路可行——评价函数定义清楚(胜负),所以可以完全自主进化。
  • 挑战:开放域问题评价函数难以定义
  • 田渊栋观点:围棋有明确边界,开放域很难做到
  • 高可信
    Anthropic — Auto Research

    Anthropic 自动化研究

    关键人物:Andrej Karpathy(加入Anthropic做预训练)、Dario Amodei
    Andrej Karpathy加入Anthropic后做预训练/Auto Research,在推特上直播了自己做auto research agent的过程、开源了代码。
    核心方法:用AI辅助coding agent的方式做auto research,让AI自主设计实验、评估结果。
    高可信
    DeepMind — AlphaEvolve

    AlphaEvolve 算法进化

    团队:DeepMind研究团队(Matej Ostrowski, Roger G. Melu等)
    用LLM不断去变异和组合算法,实现自动化算法发现。能发现非平凡数学定理证明。
    核心方法:LLM驱动变异+组合,在算法空间中搜索。能发现数学新定理。属于RSI路线的子集但更窄——优化具体代码/算法,非AI自己优化自己。
    中可信
    OpenAI — Codex/Agentic Research

    OpenAI 自动化研究

    代表:Codex系列、GPT-5、OpenAI研究团队
    OpenAI的Codex系列是自动化coding agent的代表作,在auto research方向也有大量投入。
    核心方法:大规模RL + coding agent做自动化研究,同时追求AGI。最新Codex 5.5已接近Claude Code水平。
    中可信
    Thinking Machines Lab

    Mira Murati — Thinking Machines

    $1B+
    创始人:Mira Murati(前OpenAI CTO)
    2025年创立。发布持续交互的人机模型(不打断的持续对话),方向侧重于人和AI如何交互。
    核心方法:持续交互不打断(vs. turn-by-turn),侧重HCI和人机协同。
    中可信
    AMI Labs — Yann LeCun

    Yann LeCun — 世界模型路线

    创始人:Yann LeCun(Meta首席AI科学家)
    探索世界模型(JEPA),在视频/图像上的世界模型和机器人结合方向。
    核心方法:世界模型(JEPA)+视频/图像+机器人结合,自监督学习。和RSI的"用语言驱动递归自我改进"路线不同。
    中可信
    Sotopia AI

    Sotopia — 社会智能递归改进

    团队:Meta/Stanford相关研究背景
    创建社会模拟环境让AI agent在社会交互中递归自我改进、演化。目标是让AI具备社会智能和长期规划能力。
    核心方法:社会模拟+多智能体演化+递归评估。在社会情境中训练AI的元认知和自我改进能力。

    二、核心资源深度解析(精选6个)

    🔬
    Paper + Code
    The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
    Sakana AI · Authors: Chris Lu, Cong Lu, et al. · ICLR/Nature (2024)
    核心发现:首个让LLM能独立完成科学研究全流程的系统——从产生想法、写代码、做实验、分析结果到写论文。被Nature收录,标志着自动化科研进入新阶段。v2版本进一步增加递归自我改进能力,让AI不仅做科研,还能改进自己做科研的方式。

    示例生成的论文涵盖DualScale Diffusion、Multi-scale Grid Noise Adaptation、GAN-Enhanced Diffusion等方向,AI Scientist可以独立完成从假设到论文的完整闭环。
    13.9k GitHub Stars
    📄 Nature/ICLR 2024
    🔁 v2 递归改进版
    Open-Endedness AutoML LLM 科学发现 Jeff Clune
    🤖
    Paper + Code
    MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework
    Sirui Hong, Mingchen Zhuge, Jürgen Schmidhuber · OpenBMB · ICLR 2024 · arXiv:2308.00352
    核心发现:让多个LLM agent像软件公司一样协作——通过SOP(标准操作流程)协调不同角色的agent(产品经理、架构师、工程师、测试)分工完成复杂任务。MetaGPT引入动作 formalism,将SOP编码进agent协作过程,实现了软件开发的端到端自动化。

    Jürgen Schmidhuber(LSTM发明人,深度学习奠基人之一)是作者之一,强化了其在AI研究界的影响力。
    🎯 多智能体协作
    📋 SOP驱动
    🏗️ 软件工程自动化
    Multi-Agent SOP 元编程 Schmidhuber OpenBMB
    🧬
    Paper
    AlphaEvolve: An AlphaZero-inspired System for Automated Mathematical Algorithm Discovery
    DeepMind · Matej Ostrowski, Roger G. Melu et al. · Nature (2025)
    核心发现:用LLM不断去变异和组合算法来发现新数学算法。结合了LLM的创造性(生成变异)和进化算法的选择压力(评估保留最优),能发现非平凡数学定理证明,包括矩阵乘法Strassen算法的新变体等重要数学成果。

    与RSI的区别:AlphaEvolve是"AI优化算法"(RSI的子集),RSI是"AI优化整个科研过程本身"——AlphaEvolve代表RSI在算法发现这个子任务上的最高水平。
    🧮 数学算法发现
    🌿 LLM+进化算法
    🏆 Nature 2025
    AlphaZero Algorithm Discovery LLM Nature DeepMind
    🥥
    Paper
    Training Chain-of-Thought via Latent Space Reasoning (Coconut)
    田渊栋 (Tian Yuandong) · arXiv:2412.13171 · NeurIPS/ICLR (2024-2025)
    核心发现:在连续潜在空间(latent space)里做推理——用"连续思维链"替代传统的离散语言token序列。每个latent token的信息密度远高于语言token,可以同时维持多个不同思路("thinking in multiple modes"),效率远超语言推理。

    关键洞察:语言是信息瓶颈——用语言描述推理过程会丢失信息;直接在潜在空间运算可以保留更多细节。这对RSI的"让AI自主推理"能力至关重要。
    🧠 潜在空间推理
    效率>语言CoT
    🔗 RSI核心推理技术
    Latent Reasoning Chain-of-Thought 田渊栋 RSI NeurIPS
    🎙️
    Podcast
    Lex Fridman Podcast #94 — Ilya Sutskever: Deep Learning
    Ilya Sutskever (SSI创始人) · MIT AI Podcast · 2020年5月8日
    核心内容:Ilya Sutskever(SSI创始人、OpenAI前联合创始人/首席科学家)在MIT Lex Fridman Podcast的深度访谈。涵盖:深度学习革命、GPT系列起源、大模型涌现能力、意识与智能本质、对超级智能安全的早期思考。

    ⚠️ 注意:此为2020年录制,SSI成立于2024年。访谈反映的是Ilya在OpenAI后期(2020年)的思考——后来Ilya离开OpenAI创立SSI,观点可能有重大演进。需同时关注SSI官方发布以追踪最新立场。
    ⏱️ ~3小时深度对话
    🏛️ MIT AI Podcast
    🔄 2020年(SSI成立前)
    Ilya Sutskever SSI 深度学习 AGI Lex Fridman
    Code
    llm.c — LLM Training in Simple, Raw C/CUDA
    Andrej Karpathy · GitHub Stars: 30k+ · 2024
    核心发现:Andrej Karpathy(现Anthropic员工)用纯C/CUDA实现GPT-2训练,不依赖PyTorch等任何深度学习框架。30,135 GitHub Stars。代码极度简洁,配套nanoGPT(59,264 Stars)是最简GPT实现(300行)。

    价值:对理解LLM原理极有价值——没有框架抽象层的干扰,可以直观看到矩阵乘法、注意力机制、softmax等核心操作的原始实现。Karpathy还直播了用这个代码做auto research agent的过程。
    30,135 Stars
    🎯 纯C/无PyTorch
    📦 nanoGPT: 59k Stars
    Karpathy Anthropic C/CUDA GPT-2 LLM原理

    其他相关资源速览

    Paper
    An Image is Worth 16x16 Words (ViT)
    Alexey Dosovitskiy · ICLR 2021 · RSI co-founder论文 · arXiv
    Paper
    Chain-of-Thought Prompting Elicits Reasoning in LLMs
    Jason Wei, Google Brain · NeurIPS 2022 · arXiv
    Paper
    Constitutional AI: Harmlessness from AI Feedback
    Anthropic · arXiv:2212.08073 · arXiv
    Code
    AlphaGeometry — DeepMind几何定理证明
    DeepMind · 4,857 Stars · GitHub
    Paper
    Sotopia: Social Intelligence Platform for AI Agents
    Zhou et al. · Stanford/Meta · arXiv:2310.02078 · GitHub
    Paper
    Scaling Monosemanticity (Anthropic可解释性)
    Anthropic · 2024 · 论文主页
    Blog
    Project Genie: Generative Interactive Environments
    Tim Rocktäschel (RSI co-founder) · DeepMind · arXiv
    视频
    硅谷101 × 田渊栋 RSI访谈 (2026)
    RSI联合创始人首访 · 62分钟 · YouTube

    三、路线对比分析

    公司/实验室 核心路线 关键技术 与RSI区别 资金
    RSI AI优化AI科研全过程 Auto Research + Latent Reasoning (Coconut) 本体 $650M
    SSI (Ilya) 安全超级智能优先 新训练范式? (保密) 安全先行,不先做自动化科研 $1B+
    Ineffable (Silver) 纯RL/AlphaZero范式 自我博弈 + 进化算法 不用大模型,完全自主RL 未知
    DeepMind AlphaEvolve LLM进化算法 LLM + 变异搜索 优化具体算法,非AI自己 Google内部
    Anthropic Auto research + Claude Constitutional AI + RLHF 侧重安全对齐,非纯RSI $7B+
    OpenAI Codex + AGI RLHF + Scaling coding agent为主 $20B+
    Thinking Machines 人机持续交互 HCI + 持续对话 HCI导向,非纯RSI $1B+
    AMI Labs (LeCun) 世界模型/JEPA 自监督 + 视频预测 视觉路线,语言优先级低 Meta内部
    Sotopia AI 社会智能 多智能体 + 社会模拟 社会情境,非科研 初创

    四、阅读路径推荐

    路径A:快速了解RSI全貌(1-2小时)

    1. 观看 硅谷101 × 田渊栋访谈(62分钟)— RSI联合创始人首访
    2. 阅读本文档公司全景图 + 核心资源深度解析
    3. 浏览对比分析表,理解各公司路线差异

    路径B:深入理解技术基础(1-2周)

    1. 自动化科研标杆:精读 AI Scientist(Sakana AI/Jeff Clune)代码和论文
    2. 多智能体协作:运行 MetaGPT,理解SOP驱动的agent协作
    3. 推理能力:Coconut (田渊栋) + Chain-of-Thought 论文
    4. AI安全:Constitutional AI + Concrete Problems in AI Safety
    5. 算法发现:AlphaEvolve + AlphaGeometry
    6. LLM原理:运行 llm.c + nanoGPT

    路径C:研究者视角(1个月+)

    1. 精读所有深度解析的6个核心资源
    2. 阅读ViT (Alexey Dosovitskiy, RSI co-founder) 论文
    3. 跟进各公司/研究者Twitter更新:@karpathy, @ylecun, @DrJimFan
    4. 跟进RSI/SSI/AlphaEvolve最新进展
    5. 追踪arXiv cs.AI每日新论文
    🔗 关键追踪源:
    arXiv cs.AI · Anthropic Blog · DeepMind Blog · SSI官网 · Lex Fridman×Ilya播客 · Anthropic Transformer Circuits