“开源大模型怎么在本地/私有环境跑起来?”——本文讲清服务栈、显存与选型,并说明 osFoundry 的做法。
说明:dgm 是独立于 osFoundry 的集成与落地服务商。
服务栈按场景选
| 栈 | 适合 |
|---|---|
| Ollama | 入门/原型,一行命令,消费级硬件 |
| vLLM | 生产、多卡高并发(PagedAttention) |
| SGLang | 高并发 + 结构化输出 |
| llama.cpp | 边缘/CPU/Apple Silicon |
国产栈:昇腾走 vLLM-on-Ascend + CANN + MindIE(无 NVIDIA 依赖);海光走 ROCm 派生栈。
显存估算
按规模与量化:32B 量化可单卡 RTX 4090;671B FP16 约 1.34TB、4-bit 约 350GB(需多卡)。量化质量:FP8 损失 <0.5%,AWQ INT4 约 1–3% 能力下降(按基准)。
信创适配
可走全国产栈,但每种芯片的算子/迁移需逐一验证(信创适配成本),选型时要把适配工作量算进去。
用 osFoundry
osFoundry 端侧用 llama.cpp 做本地推理(数据不离设备),服务端可接 vLLM/昇腾栈;模型与服务栈无关,可换 DeepSeek/Qwen/GLM。osFoundry 公布数据区为美/欧/日(无中国区),中国落地走自托管,由 dgm 设计。
dgm 作为独立的 osFoundry 集成伙伴,负责本地/私有化部署、栈选型与运维落地。欢迎联系 dgm。