“开源大模型怎么在本地/私有环境跑起来?”——本文讲清服务栈、显存与选型,并说明 osFoundry 的做法。

说明:dgm 是独立于 osFoundry 的集成与落地服务商。

服务栈按场景选

适合
Ollama入门/原型,一行命令,消费级硬件
vLLM生产、多卡高并发(PagedAttention)
SGLang高并发 + 结构化输出
llama.cpp边缘/CPU/Apple Silicon

国产栈:昇腾走 vLLM-on-Ascend + CANN + MindIE(无 NVIDIA 依赖);海光走 ROCm 派生栈。

显存估算

按规模与量化:32B 量化可单卡 RTX 4090;671B FP16 约 1.34TB、4-bit 约 350GB(需多卡)。量化质量:FP8 损失 <0.5%,AWQ INT4 约 1–3% 能力下降(按基准)。

信创适配

可走全国产栈,但每种芯片的算子/迁移需逐一验证(信创适配成本),选型时要把适配工作量算进去。

用 osFoundry

osFoundry 端侧用 llama.cpp 做本地推理(数据不离设备),服务端可接 vLLM/昇腾栈;模型与服务栈无关,可换 DeepSeek/Qwen/GLM。osFoundry 公布数据区为美/欧/日(无中国区),中国落地走自托管,由 dgm 设计。

dgm 作为独立的 osFoundry 集成伙伴,负责本地/私有化部署、栈选型与运维落地。欢迎联系 dgm。