WWDC26 Apple Developer Group Lab 65:35

WWDC26 Coding Intelligence, Machine Learning & AI Group Lab

👤 Apple Developer 👁 2,981 views ⏱ 1:05:35 📅 Jun 2026
Apple 工程师小组实时问答直播。6位专家(Xcode/Core AI/CoreML/MLX/Foundation Models/Evaluations)现场回答开发者关于 Apple AI 技术栈的问题,涵盖技术选型、最佳实践和架构哲学。
💡 核心洞察
Apple 的 AI 技术栈分层清晰:Foundation Models(顶层,LLM 统一入口)→ Core AI(中层,定制模型/SLA保障)→ MLX(底层,分布式训练)。新项目从 Foundation Models 开始,用 Evaluations Framework 驱动开发,用 Agentic Coding 提升生产力。
嘉宾阵容
K
Kevin
Xcode · Agents in Xcode
E
Eric
Foundation Models · Language Model Protocol
S
Stephen
Evaluations Framework · Model Judge
R
Raseel
Core AI · 框架架构
A
Angela
MLX · 本地 AI
Sh
Shashank
Evangelism · 主持人
00:00
开场介绍与嘉宾团队
Shashank 主持 · 6位工程师
6位工程师组成的小组,每位分享最期待的方向:
  • Kevin (Xcode):兴奋于 Agents in Xcode——可以构建以前无法构建的软件,高效学习和采纳新技术
  • Eric (Foundation Models):兴奋于 Language Model Protocol——可插入多种推理后端(MLX、Core AI、Google、Thropic),开发者可自定义
  • Stephen (Evaluations):兴奋于 Model Judge Evaluator——极简配置即可评估 LLM 响应质量
  • Raseel (Core AI):兴奋于 Core AI 发布——这是他参与构建的"最佳框架",也驱动 Foundation Models 等上层功能
  • Angela (MLX):兴奋于"本地 AI 元年"——本地 AI 已真正实用化,可以运行 Agent、做真实工作,不再是噱头
"We're basically at the point where local AI is starting to become useful. You can actually do work with it. You can actually have local agents." — Angela
06:10
Core AI vs CoreML vs MLX:清晰的技术分层
Raseel, Eric, Angela
Apple 构建了一套覆盖不同层级的完整技术套件,开发者可以从不同层级介入:
  • Foundation Models Framework(最高层):想做 LLM 相关功能从这里开始。尝试系统语言模型,不满足再用 Private Cloud Compute,仍不满足则通过 LMP 协议接入 Core AI
  • Core AI(中层):有定制模型需求(自己的模型/开源模型)时使用。提供 SLA 和保障,适合应用开发
  • MLX(底层):做分布式计算、训练、自定义用例。Andrew Lusk 展示的 4 台 Mac Studio 连接跑万亿参数模型令人兴奋
  • CoreML:未来仅聚焦传统 ML(决策树类),新项目建议用 Core AI
决策路径:LLM 相关 → Foundation Models → 不满足 → Private Cloud Compute → 仍不满足 → 通过 LMP 接入 Core AI。
非 LLM(diffusion、图像分割等)→ Core AI → 仍不满足 → MLX。
训练→ MLX。
13:30
iOS 27 设备端模型上下文窗口
Eric
设备端模型的上下文大小与之前相同,共享窗口设计:
  • 设备端 Foundation Model:4096 tokens(输入+输出共享 budget)
  • Private Cloud Compute(PCC):32K tokens(共享 budget)
  • 如果需要更大上下文窗口:使用 PCC;需要深度推理能力:使用 PCC
  • 接入 MLX 或第三方服务器模型:可扩展到 1M tokens
关键工具:iOS 26.4 新增 API:contextSizetokenCounting,可编程查询剩余上下文大小。response.usage 可精确返回输入/输出/cached token 数,以及 reasoning vs 输出 token 分布。
16:25
Background App + Foundation Models 运行
Eric
设备端模型支持 Background Task,但有系统级限速机制:
  • iOS:支持在 Background Task 中运行,但 OS 繁忙时可能被限速(收到 rate limit 错误,稍后再试)
  • macOS:只要 App 在前台,无限制
  • PCC 有两层限速:系统繁忙限速(API 返回特定错误码)vs 请求过于频繁限速(不同错误码,DoCAP 可区分处理)
  • 质量不受影响——只是可能需要等待
20:15
Apple Intelligence 等待列表与 AFM Core Advanced
Raseel
等待列表(Waitlist)的边界非常清晰:
  • 等待列表仅适用于 Siri,不影响 PCC 语言模型或设备端功能
  • AFM Core Advanced(20B 参数模型)已包含在 Beta 中,用于语音功能
  • 关于 Siri 的详细问题:参加 Apple Intelligence 专题 Group Lab
23:30
Dynamic Profiles:多模型路由与隐私边界
Eric
Dynamic Profiles 是 Apple 多模型协作的核心 API:
  • Baton Pass(接力模式):完整上下文在所有模型间共享,适合可信模型(设备端/PCC)。"就像接力赛,你看到前面的人跑来,把棒交给你,你有全部信息"
  • Phone a Friend(求助模式):调用外部模型时只传递当前问题,不暴露历史对话。适合第三方/隐私敏感场景。"就像百万富翁游戏,打电话给朋友,他不知道之前的问题"
  • Profile Modifiers:可声明式地控制上下文压缩策略,如"只保留最后10条对话"或"工具调用结果一旦产生答案就丢弃"
  • 切换到 PCC 时,完整历史重新可用(因为 PCC 有 32K 上下文)
"Declarative nature makes it really easy to reason about which model is going to wind up doing each task within that workflow." — Eric
32:00
训练 Coding Agent 适应代码风格
Kevin, Eric
Agent 学习代码风格的三大策略,以及 Xcode 27 新能力:
  • ① 源码搜索:Agent 天然擅长通过查看现有源码来复制风格。开箱即用
  • ② agent-SMD 文件:每个查询自动注入的上下文文件(Xcode Agent 配置)。保持简短(吃 token),可引用其他文件如 style guide
  • ③ 文档化:让 Agent 记录见过的模式到 markdown,纠正并维护,作为后续参考
  • Xcode 27 ACP 支持:可直接接入 LM Studio、Ollama 等本地模型,作为 Agent 后端
  • 建议:新模型发布时,从零开始尝试,不带任何 agent-SMD,看模型本身能力如何再决定加哪些记忆
实用技巧:Xcode 有极详细的文档搜索能力。即使模型没训练过新 API,Agent 可通过 tool calls 查询文档,把新 API 引入上下文。这使得旧模型+新工具链仍然效果很好。
44:00
Xcode 27 Agent + Simulator 集成
Kevin
Xcode Agent 现在可以操控 Simulator,形成自动化测试闭环:
  • Agent 可对 Simulator 执行:点击/滑动/输入
  • 可截图并解析无障碍树(Accessibility Tree),理解屏幕内容
  • 可让 Agent 在后台运行数小时,自动寻找不同区域的 bug,输出报告
  • 自动生成 UI 测试代码,永久保留
  • 也可让 Agent 判断某 UI 问题是否应该降级为单元测试(因为系统本身不稳定)
"We let the agent run for a couple of hours and look for different bugs, and give us reports of which areas needed the most attention." — Kevin
49:00
Vision vs Foundation Models 选型
Kevin, Eric
选型规则清晰,核心是问题模式是否固定:
  • 固定模式(OCR、条码检测、物体识别等)→ Vision Framework(已优化、高效、可测试)
  • 语义理解/动态提示/自然语言描述Foundation Models
  • Foundation Models 新增工具:OCR 读取条码读取(Vision 能力集成)
  • 翻译 API vs Foundation Models 翻译:翻译 API 更专精(更多语言),Foundation Models 更灵活(1920年代风格/双语言混合等)
"Foundation Models is like a 3D printer — can do all kinds of stuff. But if you're going into production and know exactly what you're making, a specialized production line is more efficient." — Eric
55:00
上下文窗口管理与性能优化
Eric, Stephen, Angela
上下文管理是设备端部署的核心挑战,Apple 提供了完整工具链:
  • 工具调用后丢弃:工具输出产生答案后,立即丢弃工具调用和输出(不再需要)
  • 保留最后 N 条:Profile Modifiers 可声明"只保留最后10条"
  • Summarize History Modifier(Foundation Models Utilities 开源库):超过阈值时自动将历史压缩为一条摘要,可配置 verbose 或 concise
  • KV Cache vs 重新计算:频繁小压缩 vs 偶尔大压缩——用 Evaluations Framework 对比测试决定哪种更好
  • 新模型注意力机制:滑动窗口注意力/线性注意力,上下文行为更好。PCC 支持 low/medium/deep reasoning 选项
关键观点:Eval 是唯一正确的答案来源。不同策略对不同模型/用例效果差异巨大,无法猜测,只能测量。compare 功能可对同一数据集直接比较所有不同配置。
01:02:30
Guardrails 与模型拒绝检测
Eric
今年 Guardrails 有重大改进,假阳性大幅减少:
  • Permissive Content Transformations:设置后,模型不会对输入内容做安全审查(适合处理情感日记等场景)
  • Structured Output 拒绝:这是 alignment 训练导致的拒绝(模型输出"抱歉无法帮助"),不同于 Guardrail 拒绝(独立审核模型)
  • 两种拒绝有不同的错误码,可区分处理
  • 使用第三方模型时,这些保护机制不适用
01:03:00
Apple AI 评估哲学:Eval-Driven Development
Stephen
Stephen 分享了 Apple 对 AI 产品开发的核心理念:
  • Eval 驱动开发(Evaluation-Driven Development):Eval 不是"最后验收",而是 Feature 的行为规范本身,是持续的开发规范
  • 类比教育学"形成性评估"(formative assessment):评估即学习,通过测试发现弱点并改进
  • Eval 数据集应包含:核心用例(扩展)、边界情况、预留成长空间
  • 支持合成数据扩展;支持 compare 功能直接对比所有配置
  • 在非确定性行为时代,Eval 是建立信心的唯一途径
"The best AI products that I've been involved with have been driven this way. The evaluation is really the bread and butter of AI." — Stephen
01:03:50
跨 App 模型共享与存储
Raseel, Eric
由于沙箱安全和精度差异,跨 App 共享运行中模型不可行:
  • 不同 App 有不同量化策略(FP32 vs 4-bit),运行时内存不共享
  • iOS 沙箱安全机制禁止跨 App 内存共享
  • 相同开发者的 App 可通过 App Group 共享模型缓存下载(weights 在磁盘层面共享)
  • 设备端 Foundation Model 属于 OS 层,不计入 App 大小
  • PCC 是需要更多能力时的选择;自定义量化模型用 Core AI/MLX