本地 Agentic Coding 完整工作流

Tech With Tim 33 分钟实操:Qwen Coder + LM Studio + VS Code

视频:The Best LOCAL Agentic Coding Workflow 频道:Tech With Tim 时长:33:45(2025s) 字幕:EN 自动 → 中文提炼 日期:2026-06-16

核心论点

Qwen Coder 系列 + LM Studio + VS Code = 真正能用的本地 agentic coding。Tim 用 M5 Max 64GB 实操演示:本地 Qwen 3.6 35B (A3B) 跑 agentic chat + Qwen 2.5 Coder 1.5B 跑 autocomplete,整套 0 成本、0 联网。关键:模型选择由 VRAM 决定 + 量化 (Q4/Q3/Q2) 决定 size vs 速度。

成本
$0
无 API 费
联网
0
完全离线
推荐模型
35B A3B Q4
22 GB on disk
Tim 设备
M5 Max 64GB
~55GB 可用
Autocomplete
1.5B
Qwen 2.5 Coder
Chat 速度
82 tok/s
35B on M5 Max

模型选择铁律

🎯 两个模型策略

本地 agentic coding 必须同时跑两个模型

Cheat Sheet:显存 → 模型

显存 / 内存推荐模型大小Qwen 推荐
8 GB VRAM 7B Qwen 2.5 Coder 7B
12-16 GB 14B Qwen 3.6 14B (A3B)
24-32 GB 30B Qwen 3 Coder 30B
64 GB+ 70B Qwen 3.6 35B (A3B) Q4 = 22GB
128 GB+ 70B+ Qwen 3 Coder Next = 44GB

🧠 关键概念:A3B / A6B / A9B

这些是 Active Parameters —— 实际在 GPU 上跑的参数 < 模型总大小(MoE 思路)。
意味着:能在弱硬件上跑大模型。看到 A3B 标识 → 模型实际占用更小。

设备带宽对比

🖥️ RTX 4090

1,008 GB/s 带宽

极快 tokens/s

但只能跑小一点的模型

🍎 M4 Max

546 GB/s 带宽

比 PC 慢一半

但能跑更大模型(unified memory)

关键:带宽决定 tokens/s,不只是显存大小。Mac 可以跑更大模型但慢一些。

VRAM 决定一切

VRAM 数量
最大模型 size
量化选择

平台差异

平台看哪个数字可用比例
Windows + Nvidia GPU 显卡 VRAM ~100%
Mac (M 系列) Unified Memory 75-80%
Mac (Intel) 集显 VRAM 极小(老机器不推荐)
无 GPU 只能跑 1.5-3B

公式

max_model_size = (VRAM × 0.85) GB

⚠️ 溢出惩罚

模型 超 VRAM 走系统内存 / 磁盘 → 慢 100 倍

原则:只跑比 VRAM 小的模型,否则不能"reasonable time"跑

量化 (Quantization):Q4 / Q3 / Q2

量化 = 把模型参数从 FP16 压到 INT4/INT3/INT2。损失一点精度,大幅缩 size。

量化35B 模型 size性能损失速度
完整 (FP16) 37 GB 0% 最慢
Q6 ~28 GB 很小
Q4 22 GB 很小
Q3 ~17 GB 中等 更快
Q2 ~12 GB 明显 最快
"Pick the lowest quantization you can run. The smaller the model is, the faster it's going to run."

💡 实践建议

能跑动的最低量化——size 越小速度越快。
一般 Q4 是甜点(速度 + 质量平衡)。
显存紧张才选 Q3 / Q2。

软件栈:3 件套

1 LM Studio

必装。下载 + 管理本地模型。

关键功能:

  • 下载模型(Q4 / Q3 / Q2 选)
  • 聊天测试
  • Developer Server(暴露 OpenAI 兼容 API)
  • GPU offload 拉满
  • Context length 按 VRAM 调整

2 VS Code (最新)

新功能:Manage Language Models(1 周前发布)

特性:

  • 无需登录
  • 无需联网
  • Custom Endpoint 接 LM Studio
  • 原生支持 Chat Completions

3 Continue 扩展

用途:autocomplete 模型(VS Code 原生不支持)

配置:

  • provider = LM Studio
  • roles: ["autocomplete"]
  • API base = LM Studio URL

工具流程

LM Studio
Developer Server (port)
VS Code Custom Endpoint
+
Continue (autocomplete)

5 步安装流程

1 装 LM Studio + VS Code + Continue

全部免费。VS Code 必须用最新版(Manage Language Models 是新功能)。

2 下载两个模型

3 LM Studio 启动 Developer Server

4 VS Code 接 LM Studio

5 Continue 配 autocomplete

⚙️ LM Studio 关键设置

在 chat / server 界面:

实战 Demo:JS Chess Game

🎯 Prompt

"Can you make me a game of chess using JavaScript and React?"

✅ 成功

  • 创建了 index.html
  • 创建了 script.js(~600 行)
  • 创建了 style.css
  • 完整 chess game 实现

❌ 问题

  • 没用 React(用纯 JS)
  • 实际跑有 bug(不加载)
  • 需要人工 debug

速度实测(M5 Max + 35B)

指标数字说明
Decode speed 82 tok/s 还不错
大任务首次 ~25s Mac 内存争用(录屏时)
50-60 tok/s Tim 觉得"不慢"的阈值

💡 Tim 结论

"能干但需要监督,给简单任务更好。"

适合:写函数 / 改文件 / 小修
不适合:复杂多步 / 关键业务逻辑

优缺点 + 何时用

✅ 优点

  • 0 成本(无 API 费)
  • 0 联网(隐私 + 离线)
  • 无限次用
  • 飞机 / 离线开发可用
  • 小任务(写函数 / 改文件)优秀
  • 模型 + 数据不出本机

❌ 限制

  • 不如 Opus 4 / Sonnet 4
  • 大任务慢,需要耐心
  • 复杂 prompt 容易翻车
  • 需监督,不能"全自动"
  • Mac 多进程时内存争用
  • 老 Intel Mac 几乎不可用

何时用 / 不用

✅ 适合❌ 不适合
飞机 / 无 WiFi 编程大型 code review
API credits 用完多文件复杂重构
隐私敏感项目关键业务逻辑
小修改 / 单文件编辑需要 SOTA 推理质量
学习 / 实验实时性要求高的任务
写单个函数 / inline edit100% 准确率要求
大量低成本任务(高 QPS)复杂 multi-file refactor
"It's not as good as Opus. It's not as good as cloud providers. But if you're on a plane and need this for a few hours, if you're out of credits, this works."

完整时间线(120 段字幕)

从 0:00 到 33:30 的关键节点

0:00
Hook:本地模型现在能跑完整 agentic coding
"you can do full agentic coding on your own computer without spending any money"
0:33
30 秒讲本地 vs cloud 模型
Opus 跑不了,Sonnet / Haiku 等级本地能跑
2:23
🎯 VRAM 决定一切(核心)
"视频内存 / unified memory"
3:38
Mac unified memory 75-80% 可用
M5 Max 64GB → 实际 ~55GB
5:05
RTX 4090 vs M4 Max 带宽对比
1008 vs 546 GB/s
6:01
Cheat sheet:参数 vs 显存
8GB→7B, 16GB→14B, 64GB→70B
7:36
两个模型策略
autocomplete + chat
9:20
Qwen 模型家族介绍
Qwen 2.5 / 3.5 / 3.6 / Coder Next
10:48
量化 Q4 / Q3 / Q2 详解
37GB → 22GB(Q4)
13:53
A3B 概念:active parameters
弱硬件跑大模型
17:34
下载模型(Qwen 3.6 35B Q4)
在 LM Studio 操作
18:30
Test in chat(验证模型)
GPU offload 拉满 + context 调
19:57
启动 LM Studio Developer Server
暴露 API 给 VS Code
22:30
VS Code Manage Language Models
"1 周前发布的新功能"
24:10
Custom Endpoint 配置
ID / Name / URL / API key (任意)
26:15
加第二个模型(autocomplete)
2 个模型并存
28:30
🎮 测试 chat:让做 chess game
"Can you make me a game of chess using JavaScript and React?"
29:13
Continue 扩展安装(autocomplete)
VS Code 原生不支持本地 autocomplete
31:30
Configure Continue autocomplete
provider = LM Studio + roles array
32:40
✅ Autocomplete 验证
开始 token stream
33:30
总结 + 下期预告(性能深度对比)
"full local coding on your machine"