传统模式:User → LLM → Response,用户自己执行操作。
Agentic模式:User → Agent → LLM推理 → 调用工具(运行命令/读文件/调API)→ 观察结果 → 返回LLM继续推理 → 循环直到任务完成。
整个循环(除Git等必要网络请求外)全部在本地运行。
生态现状:Ollama、LM Studio、vLLM等主流工具均已基于MLX构建,你可能已经在用MLX了。
问题:Agentic session包含数十万token,其中大部分是工具调用记录而非模型生成。每轮循环都要重新处理这些上下文。
M5芯片专用神经加速器 + MLX专用attention kernel → 矩阵乘法比M4快4倍 → prompt处理速度提升约4倍。无需任何代码修改。
问题:Agent常需要并行spawn多个子Agent(读文档/搜代码/写测试同时进行),同时发起多个请求。
MLX LLM Server采用Continuous Batching:动态将请求组成batch在GPU上并行处理,进行中的batch可接纳新请求加入,无需排队等待。
问题:即使512GB RAM,单机可能装不下大模型(如DeepSeek 1.6T参数需800GB+显存)。
MLX分布式:Thunderbolt或以太网连接多台Mac分担模型。macOS 26.2起支持Thunderbolt RDMA,4节点提速最高3倍。设置只需准备host文件,mlx launch自动部署。
Agent抓取MLX repo最新PR → 总结变更 → 标记需关注项。GitHub CLI调用走网络,模型推理和所有操作在本地。
空白Xcode项目 → Agent自主探索 → 制定计划 → 写代码 → 编译 → 自动修复错误。2分钟出第一版,迭代修改变圆角端点。
Xcode intelligence tab → 选择locally hosted provider → 指向localhost:8080。在已有App中人为引入bug,模型几秒内定位并修复。
pip install mlx-llmmlx-llm.server --model <支持工具调用的模型>base_url = http://localhost:<port>