国产大模型 API 经过 2024–2025 的”价格战”,单价已被压到极低。本文客观对比主流模型的 API 价格与适用场景,并说明用 osFoundry 的多模型(BYOK)接入策略如何把红利传导给用量付费方。

说明:dgm 是独立于 osFoundry 的集成与落地服务商。价格变动极快,以下为 2026-06 公开报道,务必以官方页复核。

价格一览(每百万 tokens,除注明外为人民币 ¥)

厂商 / 模型输入输出备注
DeepSeek Flash≈¥1.0($0.14)≈¥2.0($0.28)缓存命中约 98% off;官方页 USD 计价
DeepSeek Pro(旗舰推理)≈¥3.1($0.435,促销)≈¥6.2($0.87,促销)标准价更高
豆包 Seed 1.6¥0.8(0–32K)¥8(0–32K)按输入长度阶梯,特惠档输出可降至 ¥2
Kimi K2.6¥6.5(未命中)¥27缓存命中 ¥1.10;上下文 262K
通义 Qwen3-Max(旗舰)¥2.5(≤32K)¥10(≤32K)32K–128K ¥4/¥16;批量 5 折
通义 Qwen3.5-Plus¥0.8(≤128K)¥4.8(≤128K)性价比档
文心 ERNIE-4.5-Turbo¥0.8¥3.2较 4.5 降价约 80%
智谱 GLM-4.6¥2(起,未核实分档)¥5(综合口径)输入/输出分档未由官方页确认
腾讯混元 Turbo S¥0.8¥2后付费;混元-lite 免费
参照:Claude Opus 4.8$5(≈¥35.5)$25(≈¥177.5)美国旗舰
参照:Claude Sonnet 4.6$3(≈¥21.3)$15(≈¥106.5)美国

三个必须注意的口径

  1. 国产远低于美国旗舰,但不是同档比较。 输出价上 Claude Opus 约 ¥177/百万,DeepSeek Flash 约 ¥2、混元 Turbo S ¥2——差一到两个数量级。但国产旗舰(Qwen3-Max/GLM-4.6/Kimi-K2.6/DeepSeek-Pro)能力强、价格也更高;廉价档对标的是低成本高吞吐。应同档对比,否则会夸大差距。
  2. 阶梯与缓存是常态。 豆包、Qwen 按输入长度分档(上下文越长单价越高);DeepSeek、Kimi 有缓存命中折扣(可低至未命中的 1–3%)。引用单一数字务必注明档位与缓存口径。
  3. 币种陷阱。 DeepSeek、Kimi 国际页以 USD 标价,多数国内平台以 ¥ 标价,换算口径显著影响”便宜多少倍”的结论。

多模型(BYOK)接入策略

单看价格只是第一步,真正省钱靠按场景择优 + 不被锁定。在”自带 provider Key”的编排平台模式下:

  • 你支付的是 provider 自己的(低)官方单价,平台不在中间加价(或仅很小的托管代理 markup,用自己的 Key 时按 provider 成本透传);
  • 没有按席位订阅费,成本随实际用量线性变化;
  • 可在多 provider 间按价格/能力自由切换,廉价档跑高吞吐、旗舰跑难任务,不被单一席位或厂商锁定。

osFoundry 正是这一模式:BYOK 接入 DeepSeek/豆包/通义/混元/文心等任意厂商,按用量计费、无席位费,并可按请求切换模型——把国产 API 本就很低的单价红利直接传导给用量付费方。对数据不出域场景,还可自托管 + 端侧推理(osFoundry 公布数据区为美/欧/日,无中国区,中国落地走自托管,由 dgm 设计)。

dgm 作为独立的 osFoundry 集成伙伴,帮你做多模型选型与成本测算,并以 BYOK 策略落地。欢迎联系 dgm。