Tech With Tim 33 分钟实操:Qwen Coder + LM Studio + VS Code
Qwen Coder 系列 + LM Studio + VS Code = 真正能用的本地 agentic coding。Tim 用 M5 Max 64GB 实操演示:本地 Qwen 3.6 35B (A3B) 跑 agentic chat + Qwen 2.5 Coder 1.5B 跑 autocomplete,整套 0 成本、0 联网。关键:模型选择由 VRAM 决定 + 量化 (Q4/Q3/Q2) 决定 size vs 速度。
本地 agentic coding 必须同时跑两个模型:
| 显存 / 内存 | 推荐模型大小 | Qwen 推荐 |
|---|---|---|
| 8 GB VRAM | 7B | Qwen 2.5 Coder 7B |
| 12-16 GB | 14B | Qwen 3.6 14B (A3B) |
| 24-32 GB | 30B | Qwen 3 Coder 30B |
| 64 GB+ | 70B | Qwen 3.6 35B (A3B) Q4 = 22GB ⭐ |
| 128 GB+ | 70B+ | Qwen 3 Coder Next = 44GB |
这些是 Active Parameters —— 实际在 GPU 上跑的参数 < 模型总大小(MoE 思路)。
意味着:能在弱硬件上跑大模型。看到 A3B 标识 → 模型实际占用更小。
1,008 GB/s 带宽
极快 tokens/s
但只能跑小一点的模型
546 GB/s 带宽
比 PC 慢一半
但能跑更大模型(unified memory)
关键:带宽决定 tokens/s,不只是显存大小。Mac 可以跑更大模型但慢一些。
| 平台 | 看哪个数字 | 可用比例 |
|---|---|---|
| Windows + Nvidia GPU | 显卡 VRAM | ~100% |
| Mac (M 系列) | Unified Memory | 75-80% |
| Mac (Intel) | 集显 VRAM | 极小(老机器不推荐) |
| 无 GPU | — | 只能跑 1.5-3B |
模型 超 VRAM 走系统内存 / 磁盘 → 慢 100 倍
原则:只跑比 VRAM 小的模型,否则不能"reasonable time"跑
量化 = 把模型参数从 FP16 压到 INT4/INT3/INT2。损失一点精度,大幅缩 size。
| 量化 | 35B 模型 size | 性能损失 | 速度 |
|---|---|---|---|
| 完整 (FP16) | 37 GB | 0% | 最慢 |
| Q6 | ~28 GB | 很小 | 慢 |
| Q4 ⭐ | 22 GB | 很小 | 快 |
| Q3 | ~17 GB | 中等 | 更快 |
| Q2 | ~12 GB | 明显 | 最快 |
"Pick the lowest quantization you can run. The smaller the model is, the faster it's going to run."
选 能跑动的最低量化——size 越小速度越快。
一般 Q4 是甜点(速度 + 质量平衡)。
显存紧张才选 Q3 / Q2。
必装。下载 + 管理本地模型。
关键功能:
新功能:Manage Language Models(1 周前发布)
特性:
用途:autocomplete 模型(VS Code 原生不支持)
配置:
roles: ["autocomplete"]全部免费。VS Code 必须用最新版(Manage Language Models 是新功能)。
Cmd/Ctrl+Shift+P → "Manage Language Models"ID / Name / URL(从 LM Studio 复制)roles: ["autocomplete"] 数组在 chat / server 界面:
"Can you make me a game of chess using JavaScript and React?"
index.htmlscript.js(~600 行)style.css| 指标 | 数字 | 说明 |
|---|---|---|
| Decode speed | 82 tok/s | 还不错 |
| 大任务首次 | ~25s | Mac 内存争用(录屏时) |
| 50-60 tok/s | — | Tim 觉得"不慢"的阈值 |
"能干但需要监督,给简单任务更好。"
适合:写函数 / 改文件 / 小修
不适合:复杂多步 / 关键业务逻辑
| ✅ 适合 | ❌ 不适合 |
|---|---|
| 飞机 / 无 WiFi 编程 | 大型 code review |
| API credits 用完 | 多文件复杂重构 |
| 隐私敏感项目 | 关键业务逻辑 |
| 小修改 / 单文件编辑 | 需要 SOTA 推理质量 |
| 学习 / 实验 | 实时性要求高的任务 |
| 写单个函数 / inline edit | 100% 准确率要求 |
| 大量低成本任务(高 QPS) | 复杂 multi-file refactor |
"It's not as good as Opus. It's not as good as cloud providers. But if you're on a plane and need this for a few hours, if you're out of credits, this works."
从 0:00 到 33:30 的关键节点