国产大模型 API 经过 2024–2025 的”价格战”,单价已被压到极低。本文客观对比主流模型的 API 价格与适用场景,并说明用 osFoundry 的多模型(BYOK)接入策略如何把红利传导给用量付费方。
说明:dgm 是独立于 osFoundry 的集成与落地服务商。价格变动极快,以下为 2026-06 公开报道,务必以官方页复核。
价格一览(每百万 tokens,除注明外为人民币 ¥)
| 厂商 / 模型 | 输入 | 输出 | 备注 |
|---|---|---|---|
| DeepSeek Flash | ≈¥1.0($0.14) | ≈¥2.0($0.28) | 缓存命中约 98% off;官方页 USD 计价 |
| DeepSeek Pro(旗舰推理) | ≈¥3.1($0.435,促销) | ≈¥6.2($0.87,促销) | 标准价更高 |
| 豆包 Seed 1.6 | ¥0.8(0–32K) | ¥8(0–32K) | 按输入长度阶梯,特惠档输出可降至 ¥2 |
| Kimi K2.6 | ¥6.5(未命中) | ¥27 | 缓存命中 ¥1.10;上下文 262K |
| 通义 Qwen3-Max(旗舰) | ¥2.5(≤32K) | ¥10(≤32K) | 32K–128K ¥4/¥16;批量 5 折 |
| 通义 Qwen3.5-Plus | ¥0.8(≤128K) | ¥4.8(≤128K) | 性价比档 |
| 文心 ERNIE-4.5-Turbo | ¥0.8 | ¥3.2 | 较 4.5 降价约 80% |
| 智谱 GLM-4.6 | ¥2(起,未核实分档) | ¥5(综合口径) | 输入/输出分档未由官方页确认 |
| 腾讯混元 Turbo S | ¥0.8 | ¥2 | 后付费;混元-lite 免费 |
| 参照:Claude Opus 4.8 | $5(≈¥35.5) | $25(≈¥177.5) | 美国旗舰 |
| 参照:Claude Sonnet 4.6 | $3(≈¥21.3) | $15(≈¥106.5) | 美国 |
三个必须注意的口径
- 国产远低于美国旗舰,但不是同档比较。 输出价上 Claude Opus 约 ¥177/百万,DeepSeek Flash 约 ¥2、混元 Turbo S ¥2——差一到两个数量级。但国产旗舰(Qwen3-Max/GLM-4.6/Kimi-K2.6/DeepSeek-Pro)能力强、价格也更高;廉价档对标的是低成本高吞吐。应同档对比,否则会夸大差距。
- 阶梯与缓存是常态。 豆包、Qwen 按输入长度分档(上下文越长单价越高);DeepSeek、Kimi 有缓存命中折扣(可低至未命中的 1–3%)。引用单一数字务必注明档位与缓存口径。
- 币种陷阱。 DeepSeek、Kimi 国际页以 USD 标价,多数国内平台以 ¥ 标价,换算口径显著影响”便宜多少倍”的结论。
多模型(BYOK)接入策略
单看价格只是第一步,真正省钱靠按场景择优 + 不被锁定。在”自带 provider Key”的编排平台模式下:
- 你支付的是 provider 自己的(低)官方单价,平台不在中间加价(或仅很小的托管代理 markup,用自己的 Key 时按 provider 成本透传);
- 没有按席位订阅费,成本随实际用量线性变化;
- 可在多 provider 间按价格/能力自由切换,廉价档跑高吞吐、旗舰跑难任务,不被单一席位或厂商锁定。
osFoundry 正是这一模式:BYOK 接入 DeepSeek/豆包/通义/混元/文心等任意厂商,按用量计费、无席位费,并可按请求切换模型——把国产 API 本就很低的单价红利直接传导给用量付费方。对数据不出域场景,还可自托管 + 端侧推理(osFoundry 公布数据区为美/欧/日,无中国区,中国落地走自托管,由 dgm 设计)。
dgm 作为独立的 osFoundry 集成伙伴,帮你做多模型选型与成本测算,并以 BYOK 策略落地。欢迎联系 dgm。