系列导语 本文是【大模型API中转站】系列篇。本系列致力于用最低的成本、最清晰的方法,帮你打通多模型 API 的任督二脉。建议先收藏,随用随查。 上一期讲了 Gemini 多模态传文件的正确姿势,这一期把镜头转回国产阵营:2026 年上半年最猛的三款开源旗舰——MiniMax M3、Kimi K2.7、GLM-5.1——到底开没开源、什么时候开的、许可证能不能商用、活该用谁,一次性讲透。顺带澄清一个高频误会:GLM-5.2 目前并不存在。

先给最忙的人一句话结论:三家都已经放出权重(open-weight),但"开权重"不等于"随便商用"——Kimi K2.7(Modified MIT)和 GLM-5.1(MIT)许可证干净,MiniMax M3 用的是自家 Community License、有商用条款要先读。 选型上:最大上下文 + 多模态选 M3;agentic 工具调用选 K2.7;结构化代码生成 + 低幻觉选 GLM-5.1。 三家都不想自建机房的——往下看第 4 节,用 4SAPI 一个 Key、一套 OpenAI 格式代码,改个 model= 就在三家之间横跳。


1. 开篇:开源模型,最贵的从来不是"权重"

很多人一听"开源"就以为=免费。错。这三个旗舰的参数量是 427B / 1T / 744B 级别——光权重就几百 GB,跑起来要好几张 H200。你把权重下回来,真正的账单才刚开始:

所以"开源旗舰"对绝大多数人的正确打开方式不是自建,而是按 token 调用。本文先把三家的开源状态、许可证、跑分、价格摆清楚,再给一套"一个 Key 同时调三家"的接入法,让你自己验证选型,而不是看营销跑分拍脑袋。


2. 开源状态速查:开没开、什么时候开、许可证

这是本期的核心表,直接回答"开没开源、何时开、能不能商用"(数据截至 2026 年 6 月):

模型 开源状态 权重放出时间 许可证 商用 备注
MiniMax M3 ✅ 开放权重 6/1 上线 API,6 月中权重上 HF MiniMax Community License ⚠️ 有条款 只开权重,未开训练代码 / 推理算子
Kimi K2.7(K2.7-Code) ✅ 开放权重 6/12 上 HF Modified MIT ✅ 可商用 coding 专精版,许可证干净
GLM-5.1 ✅ 开放权重 2026 年 4 月 MIT ✅ 可商用 基座 GLM-5(2 月)同为 MIT
GLM-5.2 不存在 —— —— —— 现役最新是 5.1,没有 5.2

几个最容易被坑的点:

  1. "开权重" ≠ "完全开源"。MiniMax M3 只放了权重,训练代码和 MSA 稀疏注意力的推理算子没开——你想复现架构、自己写 kernel 优化,没源码。Kimi、GLM 在这点上更彻底一些。
  2. 许可证才是商用红线。Kimi K2.7 是 Modified MIT、GLM-5.1/GLM-5 是标准 MIT,商用基本无脑放心;MiniMax M3 用的是自家 Community License,带商用条件——上生产前一定把 license 原文读一遍,确认你的用法在允许范围内。
  3. GLM-5.2 是个误传。z.ai(原智谱)目前公开的最新就是 GLM-5.1(4 月)和基座 GLM-5(2 月),没有 5.2。社区预测市场里在押的是更远的版本,无官方日期。要找"最新 GLM",认准 5.1。

3. 跑分 + 规格:各有各的杀手锏

公开 benchmark + 官方规格(2026 年 6 月,标注胜负方):

维度 MiniMax M3 Kimi K2.7 GLM-5.1 赢家
参数(MoE) 427B 1T(32B 激活 / 384 experts) 744B(44B 激活) ——
SWE-bench Pro(真实代码工程) 59.0% ~60.4%¹ 58.4% 🟡 Kimi/M3
MCP Mark Verified(工具调用) 81.1(>Opus 4.8 的 76.4) 🔵 Kimi
上下文窗口 1M 256K 200K 🟣 M3
原生多模态 ✅ 文/图/视频 偏文本 + 工具 偏文本/代码 🟣 M3
幻觉率 比 GLM-4.7 低 56% 🟢 GLM
token 效率 MSA 架构,1M 下解码比 M2 快 ~15.6x 比 K2.6 少烧 ~30% thinking token 结构化输出稳 ——

¹ Kimi K2.7 标的是 SWE-bench Verified(约 60.4%),M3/GLM 标的是 SWE-bench Pro(59.0% / 58.4%),两套榜口径不同,不能直接横比绝对值,看相对定位即可。

读法(别看总分,看你的活落哪行):


4. 价格对比:开源旗舰把成本打到脚踝

按 token 调用的官方/主流渠道价(每百万 Token,2026 年 6 月):

模型 输入 输出 备注
MiniMax M3 $0.30(促销)/ $0.60 全价 $1.20(促销)/ $2.40 全价 约为美国闭源旗舰的 8–20% 成本
Kimi K2.7-Code $0.95 $4.00 model id kimi-k2.7-code
GLM-5.1 ~$0.80–0.98 ~$2.40–3.08 各渠道略有差异

对照上一期讲的 Claude Opus 4.8($5/$25)、GPT-5.5($5/$30),这三家国产开源旗舰的输入价基本是闭源旗舰的零头。也就是说:很多原来非 Opus/GPT 不可的活,现在用国产开源就能干,单位成本降一个数量级。

💡 自建 vs 调用,算笔账:1T 的 K2.7 想自托管,光显卡门槛就劝退;而按 token 调,$0.95/$4.00 你随便压测。除非你有持续的高并发独占需求且自带机房,否则按 token 调用几乎永远更划算——这正是"开源旗舰最佳打开方式是 API"的原因。


5. 实战:一个 Key,同时压测三家开源旗舰

横评最大的痛点:三家官方 SDK、Key、base_url 各不相同,光搭环境就劝退。中转站的价值在这里被放大——一个 Key、一个端点、一套 OpenAI 格式代码,改一个 model= 字符串就切三家。 下面以 4SAPI 接入为样例。

5.1 环境准备

python -m venv venv
source venv/bin/activate          # Windows: venv\Scripts\activate
pip install openai

5.2 配置(改 base_url + 换 Key,两步搞定)

from openai import OpenAI

client = OpenAI(
    api_key="sk-你的中转Key",
    base_url="https://api.4sapi.com/v1",   # 指向中转站
)

5.3 同一段代码,三家一起跑对比

PROMPT = "用 Python 写一个带重试和指数退避的 HTTP 客户端,要求生产可用、含类型注解。"

# 模型名以平台控制台为准;这里用常见映射
for model in ["minimax-m3", "kimi-k2.7", "glm-5.1"]:
    resp = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "system", "content": "你是一名资深后端工程师,代码要简洁、健壮。"},
            {"role": "user", "content": PROMPT},
        ],
        temperature=0.2,
    )
    print(f"\n{'='*20} {model} {'='*20}")
    print(resp.choices[0].message.content)
    # 顺手记录 token 消耗,方便算成本
    print(f"[tokens] in={resp.usage.prompt_tokens} out={resp.usage.completion_tokens}")

跑完你就拿到同一任务下三家的输出质量 + Token 成本,选型不再靠感觉。

5.4 各取所长:按任务路由

成熟做法不是"三选一",而是按任务类型路由——把第 3 节的长板表写成一个函数:

def pick_model(task_type: str) -> str:
    return {
        "long_context": "minimax-m3",   # 整库代码 / 长手册 / 视频问答(1M + 多模态)
        "multimodal":   "minimax-m3",   # 图 / 视频输入
        "tool_agent":   "kimi-k2.7",    # 密集工具调用 / MCP agentic
        "code_gen":     "glm-5.1",      # 结构化代码生成、低幻觉
        "chat":         "glm-5.1",      # 通用对话,便宜稳
    }.get(task_type, "minimax-m3")

model = pick_model("tool_agent")

这就是中转站对团队最实在的价值:模型选型、灰度对比、降级容灾,全收敛到一个函数里,开源/闭源混着路由也是改一行的事(要 Opus 4.8 兜底就加一行映射)。


6. 选型决策表 + 合规提示

该用谁?

你的场景 推荐 理由
整库代码 / 长文档 / 视频问答 MiniMax M3 1M 上下文 + 原生多模态,三家唯一全能
密集工具调用 / MCP agent Kimi K2.7 MCP Mark 81.1,工具调用准
结构化代码生成 / 低幻觉 GLM-5.1 幻觉比上代低 56%,结构化输出稳
要无脑商用、许可证省心 Kimi K2.7 / GLM-5.1 Modified MIT / MIT
想自托管做二次开发 GLM-5.1 / Kimi K2.7 许可证宽松;M3 商用前先读 Community License
极致压成本的通用活 MiniMax M3 促销价 $0.30/$1.20,闭源旗舰的零头

风险与合规提示


7. 总结与系列导航

一句话总结

三家都已开放权重,但"开权重"不是"随便用"。 MiniMax M3 = 1M 上下文 + 多模态的全能王,但 Community License 商用有条款;Kimi K2.7 = agentic 工具调用王,Modified MIT 干净;GLM-5.1 = 结构化代码 + 低幻觉王,MIT 干净。GLM-5.2 不存在,认准 5.1。 开源旗舰最划算的用法不是自建机房,而是按 token 调——选型也别站队,用中转站收进一套代码,按任务路由各取所长。

对国内开发者来说,通过 4SAPI 这类中转站接入,等于用一个 Key 同时握住国产三大开源旗舰(要闭源的 Opus 4.8 / GPT-5.5 兜底也是加一行映射),还省掉自建 H200 机房的天价账单——这笔账怎么算都划算。