本地 Agentic Coding 完整工作流

核心论点

Qwen Coder 系列 + LM Studio + VS Code = 真正能用的本地 agentic coding。Tim 用 M5 Max 64GB 实操演示：本地 Qwen 3.6 35B (A3B) 跑 agentic chat + Qwen 2.5 Coder 1.5B 跑 autocomplete，整套 0 成本、0 联网。关键：模型选择由 VRAM 决定 + 量化 (Q4/Q3/Q2) 决定 size vs 速度。

模型选择铁律

🎯 两个模型策略

本地 agentic coding 必须同时跑两个模型：

Autocomplete 模型：小 + 快（Qwen 2.5 Coder 1.5B）
Chat / Agent 模型：大 + 能 tool use（Qwen 3.6 35B）

Cheat Sheet：显存 → 模型

显存 / 内存	推荐模型大小	Qwen 推荐
8 GB VRAM	7B	Qwen 2.5 Coder 7B
12-16 GB	14B	Qwen 3.6 14B (A3B)
24-32 GB	30B	Qwen 3 Coder 30B
64 GB+	70B	Qwen 3.6 35B (A3B) Q4 = 22GB ⭐
128 GB+	70B+	Qwen 3 Coder Next = 44GB

🧠 关键概念：A3B / A6B / A9B

这些是 Active Parameters —— 实际在 GPU 上跑的参数 < 模型总大小（MoE 思路）。
意味着：能在弱硬件上跑大模型。看到 A3B 标识 → 模型实际占用更小。

设备带宽对比

🖥️ RTX 4090

1,008 GB/s 带宽

极快 tokens/s

但只能跑小一点的模型

🍎 M4 Max

546 GB/s 带宽

比 PC 慢一半

但能跑更大模型（unified memory）

关键：带宽决定 tokens/s，不只是显存大小。Mac 可以跑更大模型但慢一些。

VRAM 决定一切

VRAM 数量

→

最大模型 size

→

量化选择

平台差异

平台	看哪个数字	可用比例
Windows + Nvidia GPU	显卡 VRAM	~100%
Mac (M 系列)	Unified Memory	75-80%
Mac (Intel)	集显 VRAM	极小（老机器不推荐）
无 GPU	—	只能跑 1.5-3B

公式

    max_model_size = (VRAM × 0.85) GB
  

⚠️ 溢出惩罚

模型 超 VRAM 走系统内存 / 磁盘 → 慢 100 倍

原则：只跑比 VRAM 小的模型，否则不能"reasonable time"跑

量化 (Quantization)：Q4 / Q3 / Q2

量化 = 把模型参数从 FP16 压到 INT4/INT3/INT2。损失一点精度，大幅缩 size。

量化	35B 模型 size	性能损失	速度
完整 (FP16)	37 GB	0%	最慢
Q6	~28 GB	很小	慢
Q4 ⭐	22 GB	很小	快
Q3	~17 GB	中等	更快
Q2	~12 GB	明显	最快

"Pick the lowest quantization you can run. The smaller the model is, the faster it's going to run."

💡 实践建议

选 能跑动的最低量化——size 越小速度越快。
一般 Q4 是甜点（速度 + 质量平衡）。
显存紧张才选 Q3 / Q2。

软件栈：3 件套

1 LM Studio

必装。下载 + 管理本地模型。

关键功能：

下载模型（Q4 / Q3 / Q2 选）
聊天测试
Developer Server（暴露 OpenAI 兼容 API）
GPU offload 拉满
Context length 按 VRAM 调整

2 VS Code (最新)

新功能：Manage Language Models（1 周前发布）

特性：

无需登录
无需联网
Custom Endpoint 接 LM Studio
原生支持 Chat Completions

3 Continue 扩展

用途：autocomplete 模型（VS Code 原生不支持）

配置：

provider = LM Studio
roles: ["autocomplete"]
API base = LM Studio URL

工具流程

LM Studio

→

Developer Server (port)

→

VS Code Custom Endpoint

Continue (autocomplete)

5 步安装流程

1 装 LM Studio + VS Code + Continue

全部免费。VS Code 必须用最新版（Manage Language Models 是新功能）。

2 下载两个模型

Autocomplete: Qwen 2.5 Coder 1.5B（900MB）
Chat/Agent: Qwen 3.6 35B (A3B) Q4（22GB，必须有 tool use 能力）

3 LM Studio 启动 Developer Server

Load autocomplete model
Load chat model（GPU offload 拉满，context 按 VRAM 调）
Server 暴露 URL（默认 localhost）

4 VS Code 接 LM Studio

Cmd/Ctrl+Shift+P → "Manage Language Models"
Add Model → Custom Endpoint
填：Name (任意) / API key (任意字符串) / Chat Completions
配置：ID / Name / URL（从 LM Studio 复制）
Capabilities: tool calling (必选) + vision (按需)
Max output tokens: 64,000

5 Continue 配 autocomplete

Settings → models → add → provider = LM Studio
加 roles: ["autocomplete"] 数组
选 autocomplete 模型（Qwen 2.5 Coder 1.5B）

⚙️ LM Studio 关键设置

在 chat / server 界面：

GPU Offload → 拉满（max）
Context Length → 按 VRAM 调（越大越占内存）
35B 最大 262K tokens，但需要极多 VRAM

实战 Demo：JS Chess Game

🎯 Prompt

"Can you make me a game of chess using JavaScript and React?"

✅ 成功

创建了 index.html
创建了 script.js（~600 行）
创建了 style.css
完整 chess game 实现

❌ 问题

没用 React（用纯 JS）
实际跑有 bug（不加载）
需要人工 debug

速度实测（M5 Max + 35B）

指标	数字	说明
Decode speed	82 tok/s	还不错
大任务首次	~25s	Mac 内存争用（录屏时）
50-60 tok/s	—	Tim 觉得"不慢"的阈值

💡 Tim 结论

"能干但需要监督，给简单任务更好。"

适合：写函数 / 改文件 / 小修
不适合：复杂多步 / 关键业务逻辑

优缺点 + 何时用

✅ 优点

0 成本（无 API 费）
0 联网（隐私 + 离线）
无限次用
飞机 / 离线开发可用
小任务（写函数 / 改文件）优秀
模型 + 数据不出本机

❌ 限制

不如 Opus 4 / Sonnet 4
大任务慢，需要耐心
复杂 prompt 容易翻车
需监督，不能"全自动"
Mac 多进程时内存争用
老 Intel Mac 几乎不可用

何时用 / 不用

✅ 适合	❌ 不适合
飞机 / 无 WiFi 编程	大型 code review
API credits 用完	多文件复杂重构
隐私敏感项目	关键业务逻辑
小修改 / 单文件编辑	需要 SOTA 推理质量
学习 / 实验	实时性要求高的任务
写单个函数 / inline edit	100% 准确率要求
大量低成本任务（高 QPS）	复杂 multi-file refactor

"It's not as good as Opus. It's not as good as cloud providers. But if you're on a plane and need this for a few hours, if you're out of credits, this works."

完整时间线（120 段字幕）

从 0:00 到 33:30 的关键节点