递归自我改进(RSI)AI知识库
公司 · 论文 · 播客 · 博客 · 资源全景图 · 更新时间:2026-06-06
Recursive Self-Improvement
RSI
AI Agent
Auto Research
NeoLab
Open-Endedness
Latent Reasoning
高可信
创始人:Richard Socher、Tim Rocktäschel、Jeff Clune、Josh Tobin、Alexey Dosovitskiy、熊蔡明、Tim Shi、田渊栋
2025年成立,使命是maximizing knowledge discovery rate。8位co-founder来自Meta、DeepMind、OpenAI、Salesforce、Google等顶尖机构。目前约25人,目标40人。
核心方法:用AI自动化科研全过程——AI发现新假设→AI验证→用更强AI继续优化,最终输出新知识、新洞察。
今年年中推Level 1(5万名博士能力的系统)
不做纯RL路线,结合pre-training和后训练
重视可解释性(安全+效率双重需求)
不做蒸馏员工,注重员工自主性
高可信
创始人:Ilya Sutskever(OpenAI前联合创始人/首席科学家)
Ilya离开OpenAI后创立,口号是做安全的超级智能。非常保密,内部情况几乎不公开。
核心方法:安全优先于能力,主打在对齐问题有保障的前提下追求超级智能。可能在研究新训练范式/为什么模型会泛化/记忆化。
不走大规模GPT路线,可能研究新训练范式
田渊栋观点:Ilya可能在研究"为什么模型会泛化"
高可信
创始人:David Silver(AlphaGo/AlphaZero主要发明人)
离开Google DeepMind后创立。愿景是在大模型时代重现AlphaGo的故事——完全不用人类知识,通过左脚踩右脚实现自我进化。
核心方法:纯强化学习路线,不用大模型。AlphaZero在围棋上证明这条路可行——评价函数定义清楚(胜负),所以可以完全自主进化。
挑战:开放域问题评价函数难以定义
田渊栋观点:围棋有明确边界,开放域很难做到
高可信
关键人物:Andrej Karpathy(加入Anthropic做预训练)、Dario Amodei
Andrej Karpathy加入Anthropic后做预训练/Auto Research,在推特上直播了自己做auto research agent的过程、开源了代码。
核心方法:用AI辅助coding agent的方式做auto research,让AI自主设计实验、评估结果。
高可信
团队:DeepMind研究团队(Matej Ostrowski, Roger G. Melu等)
用LLM不断去变异和组合算法,实现自动化算法发现。能发现非平凡数学定理证明。
核心方法:LLM驱动变异+组合,在算法空间中搜索。能发现数学新定理。属于RSI路线的子集但更窄——优化具体代码/算法,非AI自己优化自己。
中可信
代表:Codex系列、GPT-5、OpenAI研究团队
OpenAI的Codex系列是自动化coding agent的代表作,在auto research方向也有大量投入。
核心方法:大规模RL + coding agent做自动化研究,同时追求AGI。最新Codex 5.5已接近Claude Code水平。
中可信
创始人:Mira Murati(前OpenAI CTO)
2025年创立。发布持续交互的人机模型(不打断的持续对话),方向侧重于人和AI如何交互。
核心方法:持续交互不打断(vs. turn-by-turn),侧重HCI和人机协同。
中可信
创始人:Yann LeCun(Meta首席AI科学家)
探索世界模型(JEPA),在视频/图像上的世界模型和机器人结合方向。
核心方法:世界模型(JEPA)+视频/图像+机器人结合,自监督学习。和RSI的"用语言驱动递归自我改进"路线不同。
中可信
团队:Meta/Stanford相关研究背景
创建社会模拟环境让AI agent在社会交互中递归自我改进、演化。目标是让AI具备社会智能和长期规划能力。
核心方法:社会模拟+多智能体演化+递归评估。在社会情境中训练AI的元认知和自我改进能力。