系列导语 本文是【大模型API中转站】系列篇。本系列致力于用最低的成本、最清晰的方法,帮你打通多模型 API 的任督二脉。建议先收藏,随用随查。 上一期讲了 Gemini 多模态传文件的正确姿势,这一期把镜头转回国产阵营:2026 年上半年最猛的三款开源旗舰——MiniMax M3、Kimi K2.7、GLM-5.1——到底开没开源、什么时候开的、许可证能不能商用、活该用谁,一次性讲透。顺带澄清一个高频误会:GLM-5.2 目前并不存在。
先给最忙的人一句话结论:三家都已经放出权重(open-weight),但"开权重"不等于"随便商用"——Kimi K2.7(Modified MIT)和 GLM-5.1(MIT)许可证干净,MiniMax M3 用的是自家 Community License、有商用条款要先读。 选型上:最大上下文 + 多模态选 M3;agentic 工具调用选 K2.7;结构化代码生成 + 低幻觉选 GLM-5.1。 三家都不想自建机房的——往下看第 4 节,用 4SAPI 一个 Key、一套 OpenAI 格式代码,改个 model= 就在三家之间横跳。
1. 开篇:开源模型,最贵的从来不是"权重"
很多人一听"开源"就以为=免费。错。这三个旗舰的参数量是 427B / 1T / 744B 级别——光权重就几百 GB,跑起来要好几张 H200。你把权重下回来,真正的账单才刚开始:
- 自建:8 卡 H200 一个月租金顶你烧几千万 token;还要搞推理引擎、量化、并发、运维。
- 官方 API:要么没有国内直连,要么计费、发票、网络都得自己折腾。
所以"开源旗舰"对绝大多数人的正确打开方式不是自建,而是按 token 调用。本文先把三家的开源状态、许可证、跑分、价格摆清楚,再给一套"一个 Key 同时调三家"的接入法,让你自己验证选型,而不是看营销跑分拍脑袋。
2. 开源状态速查:开没开、什么时候开、许可证
这是本期的核心表,直接回答"开没开源、何时开、能不能商用"(数据截至 2026 年 6 月):
| 模型 | 开源状态 | 权重放出时间 | 许可证 | 商用 | 备注 |
|---|---|---|---|---|---|
| MiniMax M3 | ✅ 开放权重 | 6/1 上线 API,6 月中权重上 HF | MiniMax Community License | ⚠️ 有条款 | 只开权重,未开训练代码 / 推理算子 |
| Kimi K2.7(K2.7-Code) | ✅ 开放权重 | 6/12 上 HF | Modified MIT | ✅ 可商用 | coding 专精版,许可证干净 |
| GLM-5.1 | ✅ 开放权重 | 2026 年 4 月 | MIT | ✅ 可商用 | 基座 GLM-5(2 月)同为 MIT |
| GLM-5.2 | ❌ 不存在 | —— | —— | —— | 现役最新是 5.1,没有 5.2 |
几个最容易被坑的点:
- "开权重" ≠ "完全开源"。MiniMax M3 只放了权重,训练代码和 MSA 稀疏注意力的推理算子没开——你想复现架构、自己写 kernel 优化,没源码。Kimi、GLM 在这点上更彻底一些。
- 许可证才是商用红线。Kimi K2.7 是 Modified MIT、GLM-5.1/GLM-5 是标准 MIT,商用基本无脑放心;MiniMax M3 用的是自家 Community License,带商用条件——上生产前一定把 license 原文读一遍,确认你的用法在允许范围内。
- GLM-5.2 是个误传。z.ai(原智谱)目前公开的最新就是 GLM-5.1(4 月)和基座 GLM-5(2 月),没有 5.2。社区预测市场里在押的是更远的版本,无官方日期。要找"最新 GLM",认准 5.1。
3. 跑分 + 规格:各有各的杀手锏
公开 benchmark + 官方规格(2026 年 6 月,标注胜负方):
| 维度 | MiniMax M3 | Kimi K2.7 | GLM-5.1 | 赢家 |
|---|---|---|---|---|
| 参数(MoE) | 427B | 1T(32B 激活 / 384 experts) | 744B(44B 激活) | —— |
| SWE-bench Pro(真实代码工程) | 59.0% | ~60.4%¹ | 58.4% | 🟡 Kimi/M3 |
| MCP Mark Verified(工具调用) | — | 81.1(>Opus 4.8 的 76.4) | — | 🔵 Kimi |
| 上下文窗口 | 1M | 256K | 200K | 🟣 M3 |
| 原生多模态 | ✅ 文/图/视频 | 偏文本 + 工具 | 偏文本/代码 | 🟣 M3 |
| 幻觉率 | — | — | 比 GLM-4.7 低 56% | 🟢 GLM |
| token 效率 | MSA 架构,1M 下解码比 M2 快 ~15.6x | 比 K2.6 少烧 ~30% thinking token | 结构化输出稳 | —— |
¹ Kimi K2.7 标的是 SWE-bench Verified(约 60.4%),M3/GLM 标的是 SWE-bench Pro(59.0% / 58.4%),两套榜口径不同,不能直接横比绝对值,看相对定位即可。
读法(别看总分,看你的活落哪行):
- 改大型代码库 / 跑 agent 修 bug → M3 与 K2.7 都在第一梯队,差距很小,看你更吃哪条长板。
- 要连续调一堆工具的 agentic 工作流 → Kimi K2.7,MCP Mark 上甚至压过 Opus 4.8,工具调用准。
- 喂整库代码 / 长手册 / 视频做问答 → MiniMax M3,1M 上下文 + 原生多模态是这三家里唯一的全能选手。
- 要结构化输出稳、幻觉低(写 JSON / 调 schema / 生成可解析代码) → GLM-5.1。
4. 价格对比:开源旗舰把成本打到脚踝
按 token 调用的官方/主流渠道价(每百万 Token,2026 年 6 月):
| 模型 | 输入 | 输出 | 备注 |
|---|---|---|---|
| MiniMax M3 | $0.30(促销)/ $0.60 全价 | $1.20(促销)/ $2.40 全价 | 约为美国闭源旗舰的 8–20% 成本 |
| Kimi K2.7-Code | $0.95 | $4.00 | model id kimi-k2.7-code |
| GLM-5.1 | ~$0.80–0.98 | ~$2.40–3.08 | 各渠道略有差异 |
对照上一期讲的 Claude Opus 4.8($5/$25)、GPT-5.5($5/$30),这三家国产开源旗舰的输入价基本是闭源旗舰的零头。也就是说:很多原来非 Opus/GPT 不可的活,现在用国产开源就能干,单位成本降一个数量级。
💡 自建 vs 调用,算笔账:1T 的 K2.7 想自托管,光显卡门槛就劝退;而按 token 调,$0.95/$4.00 你随便压测。除非你有持续的高并发独占需求且自带机房,否则按 token 调用几乎永远更划算——这正是"开源旗舰最佳打开方式是 API"的原因。
5. 实战:一个 Key,同时压测三家开源旗舰
横评最大的痛点:三家官方 SDK、Key、base_url 各不相同,光搭环境就劝退。中转站的价值在这里被放大——一个 Key、一个端点、一套 OpenAI 格式代码,改一个 model= 字符串就切三家。 下面以 4SAPI 接入为样例。
5.1 环境准备
python -m venv venv
source venv/bin/activate # Windows: venv\Scripts\activate
pip install openai
5.2 配置(改 base_url + 换 Key,两步搞定)
from openai import OpenAI
client = OpenAI(
api_key="sk-你的中转Key",
base_url="https://api.4sapi.com/v1", # 指向中转站
)
5.3 同一段代码,三家一起跑对比
PROMPT = "用 Python 写一个带重试和指数退避的 HTTP 客户端,要求生产可用、含类型注解。"
# 模型名以平台控制台为准;这里用常见映射
for model in ["minimax-m3", "kimi-k2.7", "glm-5.1"]:
resp = client.chat.completions.create(
model=model,
messages=[
{"role": "system", "content": "你是一名资深后端工程师,代码要简洁、健壮。"},
{"role": "user", "content": PROMPT},
],
temperature=0.2,
)
print(f"\n{'='*20} {model} {'='*20}")
print(resp.choices[0].message.content)
# 顺手记录 token 消耗,方便算成本
print(f"[tokens] in={resp.usage.prompt_tokens} out={resp.usage.completion_tokens}")
跑完你就拿到同一任务下三家的输出质量 + Token 成本,选型不再靠感觉。
5.4 各取所长:按任务路由
成熟做法不是"三选一",而是按任务类型路由——把第 3 节的长板表写成一个函数:
def pick_model(task_type: str) -> str:
return {
"long_context": "minimax-m3", # 整库代码 / 长手册 / 视频问答(1M + 多模态)
"multimodal": "minimax-m3", # 图 / 视频输入
"tool_agent": "kimi-k2.7", # 密集工具调用 / MCP agentic
"code_gen": "glm-5.1", # 结构化代码生成、低幻觉
"chat": "glm-5.1", # 通用对话,便宜稳
}.get(task_type, "minimax-m3")
model = pick_model("tool_agent")
这就是中转站对团队最实在的价值:模型选型、灰度对比、降级容灾,全收敛到一个函数里,开源/闭源混着路由也是改一行的事(要 Opus 4.8 兜底就加一行映射)。
6. 选型决策表 + 合规提示
该用谁?
| 你的场景 | 推荐 | 理由 |
|---|---|---|
| 整库代码 / 长文档 / 视频问答 | MiniMax M3 | 1M 上下文 + 原生多模态,三家唯一全能 |
| 密集工具调用 / MCP agent | Kimi K2.7 | MCP Mark 81.1,工具调用准 |
| 结构化代码生成 / 低幻觉 | GLM-5.1 | 幻觉比上代低 56%,结构化输出稳 |
| 要无脑商用、许可证省心 | Kimi K2.7 / GLM-5.1 | Modified MIT / MIT |
| 想自托管做二次开发 | GLM-5.1 / Kimi K2.7 | 许可证宽松;M3 商用前先读 Community License |
| 极致压成本的通用活 | MiniMax M3 | 促销价 $0.30/$1.20,闭源旗舰的零头 |
风险与合规提示
- "开权重 ≠ 开源代码":M3 没开训练代码 / 推理算子,想深度定制架构的注意这点。
- 计费透明:选能给出每次请求 Token 明细的中转站,算不清账的直接 pass。
- 别大额预充:新平台小额试用,看稳定性和客服响应再加码。
- 合规红线:本文是为解决国内网络与成本问题的正常技术接入,不鼓励、不提供任何恶意绕过官方限制或违规用途的方案。
7. 总结与系列导航
一句话总结:
三家都已开放权重,但"开权重"不是"随便用"。 MiniMax M3 = 1M 上下文 + 多模态的全能王,但 Community License 商用有条款;Kimi K2.7 = agentic 工具调用王,Modified MIT 干净;GLM-5.1 = 结构化代码 + 低幻觉王,MIT 干净。GLM-5.2 不存在,认准 5.1。 开源旗舰最划算的用法不是自建机房,而是按 token 调——选型也别站队,用中转站收进一套代码,按任务路由各取所长。
对国内开发者来说,通过 4SAPI 这类中转站接入,等于用一个 Key 同时握住国产三大开源旗舰(要闭源的 Opus 4.8 / GPT-5.5 兜底也是加一行映射),还省掉自建 H200 机房的天价账单——这笔账怎么算都划算。