WWDC26 MLX Local Agentic AI

演讲者：Angeles，MLX 团队工程师 | 平台：WWDC26 | 工具：MLX LLM Server + 本地模型

核心主张

完全本地运行，无云、无 API key，数据永不离开 Mac。

🏗️ 四层技术栈

⚡ 三大硬件挑战与解决方案

1️⃣ Prompt Processing（提示词处理）

层级	组件	职责
L4	Agent	Xcode Intelligence、Pie Agent 等任意 OpenAI Chat Completion Protocol 框架
L3	MLX LLM Server	OpenAI 兼容 API，支持 structured tool calling + reasoning models
L2	MLX LLM Library	加载、运行、量化、微调大语言模型
L1	MLX Core	Apple Silicon 高效计算底层框架

挑战：Agentic session 含数十万 token，每次工具执行后模型都要重新处理全部上下文

MLX 方案：M5 神经加速器矩阵乘法比 M4 快 4x。MLX 专用 attention kernel 直接转化提速。无需代码修改，MLX 自动选择最优 kernel。

2️⃣ Concurrency（并发）

挑战：Agent spawn 多个子 agent 并行（读文档 / 搜代码 / 写测试同时），多请求同时打到本地模型

MLX 方案：Continuous Batching — 动态分组请求批量处理，新请求可加入进行中 batch，子 agent 不会因排队 stall

3️⃣ Model Size（模型体积）

MLX 方案：分布式推理 — 多 Mac 通过 Thunderbolt/以太网共享模型。
macOS 26.2 新增 Thunderbolt RDMA（低延迟高带宽），4 节点提速最高 3x

📊 关键数据

M5 vs M4 矩阵乘法提速

4节点分布式推理提速

1.6T

DeepSeek 最大参数量

800GB+

1.6T模型所需最小内存

~2min

iPad绘图App初版构建

🎬 三个 Demo

Demo 1: GitHub PR Summary

Agent 自动抓取 PR、总结变更、标记重点（read & report）

Demo 2: 从空白 Xcode 项目构建 iPad 绘图 App

Demo 3: Xcode 内直接集成

🚀 安装步骤

⚖️ 本地 vs 云端对比

WWDC26: Run Local Agentic AI on Mac using MLX