WWDC26 Coding Intelligence, ML & AI Group Lab | Apple

💡 核心洞察

Apple 的 AI 技术栈分层清晰：Foundation Models（顶层，LLM 统一入口）→ Core AI（中层，定制模型/SLA保障）→ MLX（底层，分布式训练）。新项目从 Foundation Models 开始，用 Evaluations Framework 驱动开发，用 Agentic Coding 提升生产力。

嘉宾阵容

K

Kevin

Xcode · Agents in Xcode

E

Eric

Foundation Models · Language Model Protocol

S

Stephen

Evaluations Framework · Model Judge

R

Raseel

Core AI · 框架架构

A

Angela

MLX · 本地 AI

Sh

Shashank

Evangelism · 主持人

00:00

开场介绍与嘉宾团队

Shashank 主持 · 6位工程师

6位工程师组成的小组，每位分享最期待的方向：

Kevin (Xcode)：兴奋于 Agents in Xcode——可以构建以前无法构建的软件，高效学习和采纳新技术
Eric (Foundation Models)：兴奋于 Language Model Protocol——可插入多种推理后端（MLX、Core AI、Google、Thropic），开发者可自定义
Stephen (Evaluations)：兴奋于 Model Judge Evaluator——极简配置即可评估 LLM 响应质量
Raseel (Core AI)：兴奋于 Core AI 发布——这是他参与构建的"最佳框架"，也驱动 Foundation Models 等上层功能
Angela (MLX)：兴奋于"本地 AI 元年"——本地 AI 已真正实用化，可以运行 Agent、做真实工作，不再是噱头

"We're basically at the point where local AI is starting to become useful. You can actually do work with it. You can actually have local agents." — Angela

06:10

Core AI vs CoreML vs MLX：清晰的技术分层

Raseel, Eric, Angela

Apple 构建了一套覆盖不同层级的完整技术套件，开发者可以从不同层级介入：

Foundation Models Framework（最高层）：想做 LLM 相关功能从这里开始。尝试系统语言模型，不满足再用 Private Cloud Compute，仍不满足则通过 LMP 协议接入 Core AI
Core AI（中层）：有定制模型需求（自己的模型/开源模型）时使用。提供 SLA 和保障，适合应用开发
MLX（底层）：做分布式计算、训练、自定义用例。Andrew Lusk 展示的 4 台 Mac Studio 连接跑万亿参数模型令人兴奋
CoreML：未来仅聚焦传统 ML（决策树类），新项目建议用 Core AI

      决策路径：LLM 相关 → Foundation Models → 不满足 → Private Cloud Compute → 仍不满足 → 通过 LMP 接入 Core AI。

      非 LLM（diffusion、图像分割等）→ Core AI → 仍不满足 → MLX。

      训练→ MLX。

13:30

iOS 27 设备端模型上下文窗口

Eric

设备端模型的上下文大小与之前相同，共享窗口设计：

设备端 Foundation Model：4096 tokens（输入+输出共享 budget）
Private Cloud Compute（PCC）：32K tokens（共享 budget）
如果需要更大上下文窗口：使用 PCC；需要深度推理能力：使用 PCC
接入 MLX 或第三方服务器模型：可扩展到 1M tokens

      关键工具：iOS 26.4 新增 API：contextSize 和 tokenCounting，可编程查询剩余上下文大小。response.usage 可精确返回输入/输出/cached token 数，以及 reasoning vs 输出 token 分布。
    

16:25

Background App + Foundation Models 运行

Eric

设备端模型支持 Background Task，但有系统级限速机制：

iOS：支持在 Background Task 中运行，但 OS 繁忙时可能被限速（收到 rate limit 错误，稍后再试）
macOS：只要 App 在前台，无限制
PCC 有两层限速：系统繁忙限速（API 返回特定错误码）vs 请求过于频繁限速（不同错误码，DoCAP 可区分处理）
质量不受影响——只是可能需要等待

20:15

Apple Intelligence 等待列表与 AFM Core Advanced

Raseel

等待列表（Waitlist）的边界非常清晰：

等待列表仅适用于 Siri，不影响 PCC 语言模型或设备端功能
AFM Core Advanced（20B 参数模型）已包含在 Beta 中，用于语音功能
关于 Siri 的详细问题：参加 Apple Intelligence 专题 Group Lab

23:30

Dynamic Profiles：多模型路由与隐私边界

Eric

Dynamic Profiles 是 Apple 多模型协作的核心 API：

Baton Pass（接力模式）：完整上下文在所有模型间共享，适合可信模型（设备端/PCC）。"就像接力赛，你看到前面的人跑来，把棒交给你，你有全部信息"
Phone a Friend（求助模式）：调用外部模型时只传递当前问题，不暴露历史对话。适合第三方/隐私敏感场景。"就像百万富翁游戏，打电话给朋友，他不知道之前的问题"
Profile Modifiers：可声明式地控制上下文压缩策略，如"只保留最后10条对话"或"工具调用结果一旦产生答案就丢弃"
切换到 PCC 时，完整历史重新可用（因为 PCC 有 32K 上下文）

"Declarative nature makes it really easy to reason about which model is going to wind up doing each task within that workflow." — Eric

32:00

训练 Coding Agent 适应代码风格

Kevin, Eric

Agent 学习代码风格的三大策略，以及 Xcode 27 新能力：

① 源码搜索：Agent 天然擅长通过查看现有源码来复制风格。开箱即用
② agent-SMD 文件：每个查询自动注入的上下文文件（Xcode Agent 配置）。保持简短（吃 token），可引用其他文件如 style guide
③ 文档化：让 Agent 记录见过的模式到 markdown，纠正并维护，作为后续参考
Xcode 27 ACP 支持：可直接接入 LM Studio、Ollama 等本地模型，作为 Agent 后端
建议：新模型发布时，从零开始尝试，不带任何 agent-SMD，看模型本身能力如何再决定加哪些记忆

      实用技巧：Xcode 有极详细的文档搜索能力。即使模型没训练过新 API，Agent 可通过 tool calls 查询文档，把新 API 引入上下文。这使得旧模型+新工具链仍然效果很好。
    

44:00

Xcode 27 Agent + Simulator 集成

Kevin

Xcode Agent 现在可以操控 Simulator，形成自动化测试闭环：

Agent 可对 Simulator 执行：点击/滑动/输入
可截图并解析无障碍树（Accessibility Tree），理解屏幕内容
可让 Agent 在后台运行数小时，自动寻找不同区域的 bug，输出报告
自动生成 UI 测试代码，永久保留
也可让 Agent 判断某 UI 问题是否应该降级为单元测试（因为系统本身不稳定）

"We let the agent run for a couple of hours and look for different bugs, and give us reports of which areas needed the most attention." — Kevin

49:00

Vision vs Foundation Models 选型

Kevin, Eric

选型规则清晰，核心是问题模式是否固定：

固定模式（OCR、条码检测、物体识别等）→ Vision Framework（已优化、高效、可测试）
语义理解/动态提示/自然语言描述 → Foundation Models
Foundation Models 新增工具：OCR 读取和条码读取（Vision 能力集成）
翻译 API vs Foundation Models 翻译：翻译 API 更专精（更多语言），Foundation Models 更灵活（1920年代风格/双语言混合等）

"Foundation Models is like a 3D printer — can do all kinds of stuff. But if you're going into production and know exactly what you're making, a specialized production line is more efficient." — Eric

55:00

上下文窗口管理与性能优化

Eric, Stephen, Angela

上下文管理是设备端部署的核心挑战，Apple 提供了完整工具链：

工具调用后丢弃：工具输出产生答案后，立即丢弃工具调用和输出（不再需要）
保留最后 N 条：Profile Modifiers 可声明"只保留最后10条"
Summarize History Modifier（Foundation Models Utilities 开源库）：超过阈值时自动将历史压缩为一条摘要，可配置 verbose 或 concise
KV Cache vs 重新计算：频繁小压缩 vs 偶尔大压缩——用 Evaluations Framework 对比测试决定哪种更好
新模型注意力机制：滑动窗口注意力/线性注意力，上下文行为更好。PCC 支持 low/medium/deep reasoning 选项

      关键观点：Eval 是唯一正确的答案来源。不同策略对不同模型/用例效果差异巨大，无法猜测，只能测量。compare 功能可对同一数据集直接比较所有不同配置。
    

01:02:30

Guardrails 与模型拒绝检测

Eric

今年 Guardrails 有重大改进，假阳性大幅减少：

Permissive Content Transformations：设置后，模型不会对输入内容做安全审查（适合处理情感日记等场景）
Structured Output 拒绝：这是 alignment 训练导致的拒绝（模型输出"抱歉无法帮助"），不同于 Guardrail 拒绝（独立审核模型）
两种拒绝有不同的错误码，可区分处理
使用第三方模型时，这些保护机制不适用

01:03:00

Apple AI 评估哲学：Eval-Driven Development

Stephen

Stephen 分享了 Apple 对 AI 产品开发的核心理念：

Eval 驱动开发（Evaluation-Driven Development）：Eval 不是"最后验收"，而是 Feature 的行为规范本身，是持续的开发规范
类比教育学"形成性评估"（formative assessment）：评估即学习，通过测试发现弱点并改进
Eval 数据集应包含：核心用例（扩展）、边界情况、预留成长空间
支持合成数据扩展；支持 compare 功能直接对比所有配置
在非确定性行为时代，Eval 是建立信心的唯一途径

"The best AI products that I've been involved with have been driven this way. The evaluation is really the bread and butter of AI." — Stephen

01:03:50

跨 App 模型共享与存储

Raseel, Eric

由于沙箱安全和精度差异，跨 App 共享运行中模型不可行：

不同 App 有不同量化策略（FP32 vs 4-bit），运行时内存不共享
iOS 沙箱安全机制禁止跨 App 内存共享
相同开发者的 App 可通过 App Group 共享模型缓存下载（weights 在磁盘层面共享）
设备端 Foundation Model 属于 OS 层，不计入 App 大小
PCC 是需要更多能力时的选择；自定义量化模型用 Core AI/MLX