WWDC26 · MLX

Run Local Agentic AI on the Mac using MLX

👤 Apple Developer (Angeles, MLX团队工程师) 📅 2026-06-01 ⏱ 13:30

核心主张
完全本地运行 — 无需云端、无需API密钥，数据不离开Mac
三步搭建 — pip install → 启动server → 配置agent指向localhost
OpenAI协议兼容 — 任何主流agent框架均可直连
支持结构化工具调用、结构化输出、推理模型

Agentic Loop 是什么

传统模式：User → LLM → Response，用户自己执行操作。

Agentic模式：User → Agent → LLM推理 → 调用工具（运行命令/读文件/调API）→ 观察结果 → 返回LLM继续推理 → 循环直到任务完成。

整个循环（除Git等必要网络请求外）全部在本地运行。

Agent

任何支持OpenAI chat completion protocol的框架

Xcode · Open Code · Pie Agent · 自定义脚本

MLX LLM Server

OpenAI兼容HTTP server，标准API

Structured tool calling · Reasoning models · Continuous batching

MLX LLM（语言模型层）

加载、运行、量化、微调大语言模型

Hugging Face · CLI · Python API · 支持数千个模型

MLX（底层）

Metal加速、底层计算、内存管理

Apple Silicon专用开源array框架

生态现状：Ollama、LM Studio、vLLM等主流工具均已基于MLX构建，你可能已经在用MLX了。

⚡ 1. Prompt Processing（提示词处理）

问题：Agentic session包含数十万token，其中大部分是工具调用记录而非模型生成。每轮循环都要重新处理这些上下文。

M5芯片专用神经加速器 + MLX专用attention kernel → 矩阵乘法比M4快4倍 → prompt处理速度提升约4倍。无需任何代码修改。

🔄 2. Concurrency（并发）

问题：Agent常需要并行spawn多个子Agent（读文档/搜代码/写测试同时进行），同时发起多个请求。

MLX LLM Server采用Continuous Batching：动态将请求组成batch在GPU上并行处理，进行中的batch可接纳新请求加入，无需排队等待。

💾 3. Model Size（模型大小）

问题：即使512GB RAM，单机可能装不下大模型（如DeepSeek 1.6T参数需800GB+显存）。

MLX分布式：Thunderbolt或以太网连接多台Mac分担模型。macOS 26.2起支持Thunderbolt RDMA，4节点提速最高3倍。设置只需准备host文件，mlx launch自动部署。

Demo 1GitHub PR摘要

Agent抓取MLX repo最新PR → 总结变更 → 标记需关注项。GitHub CLI调用走网络，模型推理和所有操作在本地。

Demo 2从零构建SwiftUI绘图App

空白Xcode项目 → Agent自主探索 → 制定计划 → 写代码 → 编译 → 自动修复错误。2分钟出第一版，迭代修改变圆角端点。

Demo 3Xcode内直接修复Bug

Xcode intelligence tab → 选择locally hosted provider → 指向localhost:8080。在已有App中人为引入bug，模型几秒内定位并修复。

pip install mlx-llm

mlx-llm.server --model <支持工具调用的模型>

在agent框架中设置 base_url = http://localhost:<port>

所有代码已开源，mlx-llm和mlx-examples GitHub仓库现已可用。