WWDC26 · MLX

Run Local Agentic AI on the Mac using MLX

👤 Apple Developer (Angeles, MLX团队工程师) 📅 2026-06-01 ⏱ 13:30
核心主张

Agentic Loop 是什么

传统模式:User → LLM → Response,用户自己执行操作。

Agentic模式:User → Agent → LLM推理 → 调用工具(运行命令/读文件/调API)→ 观察结果 → 返回LLM继续推理 → 循环直到任务完成

整个循环(除Git等必要网络请求外)全部在本地运行。

四层技术栈

4
Agent
任何支持OpenAI chat completion protocol的框架
Xcode · Open Code · Pie Agent · 自定义脚本
3
MLX LLM Server
OpenAI兼容HTTP server,标准API
Structured tool calling · Reasoning models · Continuous batching
2
MLX LLM(语言模型层)
加载、运行、量化、微调大语言模型
Hugging Face · CLI · Python API · 支持数千个模型
1
MLX(底层)
Metal加速、底层计算、内存管理
Apple Silicon专用开源array框架

生态现状:Ollama、LM Studio、vLLM等主流工具均已基于MLX构建,你可能已经在用MLX了。

三大硬件挑战及MLX解法

1. Prompt Processing(提示词处理)

问题:Agentic session包含数十万token,其中大部分是工具调用记录而非模型生成。每轮循环都要重新处理这些上下文。

M5芯片专用神经加速器 + MLX专用attention kernel → 矩阵乘法比M4快4倍 → prompt处理速度提升约4倍。无需任何代码修改。

🔄 2. Concurrency(并发)

问题:Agent常需要并行spawn多个子Agent(读文档/搜代码/写测试同时进行),同时发起多个请求。

MLX LLM Server采用Continuous Batching:动态将请求组成batch在GPU上并行处理,进行中的batch可接纳新请求加入,无需排队等待。

💾 3. Model Size(模型大小)

问题:即使512GB RAM,单机可能装不下大模型(如DeepSeek 1.6T参数需800GB+显存)。

MLX分布式:Thunderbolt或以太网连接多台Mac分担模型。macOS 26.2起支持Thunderbolt RDMA,4节点提速最高3倍。设置只需准备host文件,mlx launch自动部署。

Live Demos

Demo 1GitHub PR摘要

Agent抓取MLX repo最新PR → 总结变更 → 标记需关注项。GitHub CLI调用走网络,模型推理和所有操作在本地。

Demo 2从零构建SwiftUI绘图App

空白Xcode项目 → Agent自主探索 → 制定计划 → 写代码 → 编译 → 自动修复错误。2分钟出第一版,迭代修改变圆角端点。

Demo 3Xcode内直接修复Bug

Xcode intelligence tab → 选择locally hosted provider → 指向localhost:8080。在已有App中人为引入bug,模型几秒内定位并修复。

三步落地

pip install mlx-llm
mlx-llm.server --model <支持工具调用的模型>
在agent框架中设置 base_url = http://localhost:<port>
所有代码已开源,mlx-llm和mlx-examples GitHub仓库现已可用。