MiniMax M3免费编程攻略:GPT-5.5级代码能力只要$20/月
一句话结论:MiniMax M3是2026年6月刚发布的开源编程模型,在SWE-Bench Pro上跑出59%的成绩,超过GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。$20/月的Token Plan给17亿token——同样价格,Claude Pro只能用十分之一。注册送¥15体验金,OpenRouter也有免费额度。
MiniMax M3是什么
MiniMax M3是稀宇科技(MiniMax)在2026年6月发布的旗舰模型。它不是普通的聊天机器人,而是一个专门为编程和Agent任务设计的前沿模型。三个核心卖点:
- MSA稀疏注意力架构:MiniMax自研的新型注意力机制,1M token上下文窗口,每token计算量只有上一代模型的1/20
- 原生多模态:从Step 0就开始图文音视频混合训练,不是后期拼接的
- 开源权重:承诺10天内开源模型权重,是目前唯一同时具备前沿编程、1M上下文、原生多模态的开源模型
编程能力实测:超越GPT-5.5
MiniMax M3在国际公认的编程基准测试上的表现:
- SWE-Bench Pro:59.0% — 超过GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7
- Terminal-Bench 2.1:66.0% — 终端操作能力
- MCP Atlas:74.2% — 工具调用能力
- KernelBench Hard:28.8% — CUDA内核优化
- SVG-Bench:超过Opus 4.7
这些不是自吹的数据。MiniMax用Claude Code作为脚手架跑了4次取平均值,Terminal-Bench用的是Terminus 2官方评估框架。
真实任务表现:12小时独立复现论文
基准测试是一回事,真实任务是另一回事。MiniMax给了M3一篇ICLR 2025杰出论文《Learning Dynamics of LLM Finetuning》,让它独立复现。结果:
- 自主运行近12小时,产出18个commit和23个实验文件
- 成功匹配SFT阶段的预测概率变化趋势
- 清晰观察到DPO实验中的挤压效应
- 需要同时用到多模态(理解论文中的曲线和公式)、长上下文(论文+代码+实验日志同时放入上下文)、强编程能力
另一个测试:让M3优化Hopper架构GPU上的FP8矩阵乘法CUDA内核。24小时内完成147次benchmark提交、1959次工具调用,硬件峰值利用率从7.6%提升到71.3%,实现9.4倍加速。除了Opus 4.7和M3,其他模型都在前30次提交内停止了进步。
价格对比:$20=10倍Claude Pro
这是最让人兴奋的部分。MiniMax的Token Plan:
- Plus $20/月:约17亿token/月的M3使用量
- Max $50/月:约51亿token/月
- Ultra $120/月:约98亿token/月
对比一下:Claude Pro也是$20/月,但token配额只有M3的十分之一。文字、图片、语音、音乐共用同一个额度池。在同价位订阅方案中,MiniMax Token Plan的token配额是全球最高的之一。
API定价方面,OpenRouter上M3的价格是$0.30/百万输入token,$1.20/百万输出token,1M上下文窗口,最大输出512K token。
免费体验方式
三种方式可以免费或低成本体验M3:
- 注册送¥15:在platform.minimaxi.com注册新账号,自动获得¥15体验金,足够跑大量测试
- OpenRouter免费额度:通过OpenRouter API调用M3,新用户有免费额度
- MiniMax Code桌面端:下载agent.minimaxi.com/download,配合Token Plan使用
MiniMax Code:专为M3打造的编程工具
MiniMax Code是MiniMax官方的Agent编程产品,基于开源项目OpenCode和Pi构建。核心功能:
- Agent Team:把大任务拆成多阶段、并发、可动态调整的工作流,由一组Agent协作推进
- Producer + Verifier:一个Agent写代码,另一个验证,形成自我纠错循环
- Computer Use:支持电脑操作,比如"帮我打开本地ERP客户端,根据这个Excel表格批量录入发票信息"
- Skills和Memories:学习你的工作习惯,把重复任务变成自定义技能
MiniMax Code的Agent Team和Claude Code最近发布的Dynamic Workflows方向类似,但Claude Code更强调基于JS代码的固定编排,MiniMax Code更注重"深度反思和持续纠错"。
M3 vs 主流编程模型对比
- M3 vs Claude Opus 4.7:SWE-Bench Pro上M3接近Opus 4.7,但价格只有后者的几分之一。Opus 4.7定价$5/$25每百万token,M3是$0.30/$1.20
- M3 vs GPT-5.5:M3在SWE-Bench Pro上超过GPT-5.5。GPT-5.5通过Codex CLI跑出83.4%(不同脚手架),M3用Claude Code跑出59%(官方评估)
- M3 vs Gemini 3.1 Pro:M3在多个基准上超过Gemini 3.1 Pro,包括编程和多模态任务
- M3 vs M2.7:M3是M2.7的全面升级,编程能力、上下文长度、多模态都有显著提升
MSA架构:为什么1M上下文很重要
MSA(MiniMax Sparse Attention)是M3的核心技术创新。相比传统的DSA和MoBA稀疏注意力方案,MSA能更精确地把KV分成块,实现更高的有效上下文覆盖率。
实际意义:1M token的上下文窗口意味着你可以把整个代码仓库、论文、实验日志同时塞进去,模型能"看到"所有内容。对于编程Agent来说,这决定了它能不能处理真实的大型项目。
在1M上下文长度下,M3每个token的计算量只有上一代模型的1/20。这不是靠堆算力实现的,而是架构层面的创新。
局限性
说几句实话:
- M3的SWE-Bench Pro成绩(59%)虽然超过GPT-5.5,但和Opus 4.7还有差距
- 开源权重承诺"10天内发布",目前还没兑现,需要等
- MiniMax是相对年轻的公司,生态和社区不如OpenAI/Anthropic成熟
- API稳定性还需要时间验证,官网提到"持续改进模型服务稳定性"
- 免费额度有限(¥15),重度使用需要付费
适合谁
- 预算有限的开发者:$20/月获得17亿token,性价比极高
- 需要长上下文的项目:1M上下文窗口,适合大型代码库分析
- Agent/自动化场景:M3在Agent基准上表现突出
- 想用开源模型的团队:权重即将开源,可以本地部署