指南

开源大模型本地部署指南：Ollama/vLLM【2026】

Q: 本地部署开源大模型用什么服务栈？

按场景:Ollama(一行命令、入门/原型、消费级硬件)、vLLM(生产、多卡高并发、PagedAttention)、SGLang(高并发+结构化输出)、llama.cpp(边缘/CPU/Apple Silicon)。昇腾走 vLLM-on-Ascend + CANN + MindIE。

Q: 跑得动要多少显存？

按模型规模与量化:32B 量化可单卡 RTX 4090;671B FP16 约 1.34TB、4-bit 约 350GB(需多卡)。量化能省显存:FP8 质量损失 <0.5%,AWQ INT4 约 1–3% 能力下降。

Q: 能不能不用 NVIDIA？

可以。可走全国产栈:昇腾 NPU + CANN + MindIE + MindSpore,无 NVIDIA 依赖;海光走 ROCm 派生栈。但每种芯片的算子/迁移需逐一验证(信创适配成本)。

Q: osFoundry 怎么做本地/私有部署？

osFoundry 端侧用 llama.cpp 做本地推理(数据不离设备),服务端可接 vLLM/昇腾栈;模型与服务栈无关,可换 DeepSeek/Qwen/GLM。dgm 负责部署与运维落地。

开源大模型本地/私有化部署的服务栈与选型。

作者 dgm · 2026-04-18 · 更新于 2026-06-10 · 1 分钟阅读

“开源大模型怎么在本地/私有环境跑起来?”——本文讲清服务栈、显存与选型,并说明 osFoundry 的做法。

说明:dgm 是独立于 osFoundry 的集成与落地服务商。

服务栈按场景选

栈	适合
Ollama	入门/原型,一行命令,消费级硬件
vLLM	生产、多卡高并发(PagedAttention)
SGLang	高并发 + 结构化输出
llama.cpp	边缘/CPU/Apple Silicon

国产栈:昇腾走 vLLM-on-Ascend + CANN + MindIE(无 NVIDIA 依赖);海光走 ROCm 派生栈。

显存估算

按规模与量化:32B 量化可单卡 RTX 4090;671B FP16 约 1.34TB、4-bit 约 350GB(需多卡)。量化质量:FP8 损失 <0.5%,AWQ INT4 约 1–3% 能力下降(按基准)。

信创适配

可走全国产栈,但每种芯片的算子/迁移需逐一验证(信创适配成本),选型时要把适配工作量算进去。

用 osFoundry

osFoundry 端侧用 llama.cpp 做本地推理(数据不离设备),服务端可接 vLLM/昇腾栈;模型与服务栈无关,可换 DeepSeek/Qwen/GLM。osFoundry 公布数据区为美/欧/日(无中国区),中国落地走自托管,由 dgm 设计。

dgm 作为独立的 osFoundry 集成伙伴,负责本地/私有化部署、栈选型与运维落地。欢迎联系 dgm。

常见问题

本地部署开源大模型用什么服务栈？

按场景:Ollama(一行命令、入门/原型、消费级硬件)、vLLM(生产、多卡高并发、PagedAttention)、SGLang(高并发+结构化输出)、llama.cpp(边缘/CPU/Apple Silicon)。昇腾走 vLLM-on-Ascend + CANN + MindIE。

跑得动要多少显存？

按模型规模与量化:32B 量化可单卡 RTX 4090;671B FP16 约 1.34TB、4-bit 约 350GB(需多卡)。量化能省显存:FP8 质量损失 <0.5%,AWQ INT4 约 1–3% 能力下降。

能不能不用 NVIDIA？

可以。可走全国产栈:昇腾 NPU + CANN + MindIE + MindSpore,无 NVIDIA 依赖;海光走 ROCm 派生栈。但每种芯片的算子/迁移需逐一验证(信创适配成本)。

osFoundry 怎么做本地/私有部署？

osFoundry 端侧用 llama.cpp 做本地推理(数据不离设备),服务端可接 vLLM/昇腾栈;模型与服务栈无关,可换 DeepSeek/Qwen/GLM。dgm 负责部署与运维落地。

开源大模型本地部署指南：Ollama/vLLM【2026】

服务栈按场景选

显存估算

信创适配

用 osFoundry

常见问题

准备好用 osFoundry 替代你的 SaaS 技术栈了吗？

简单透明的定价

初次咨询

AI 集成

开源大模型本地部署指南：Ollama/vLLM【2026】

服务栈按场景选

显存估算

信创适配

用 osFoundry

常见问题

相关阅读

准备好用 osFoundry 替代你的 SaaS 技术栈了吗？

简单透明的定价

初次咨询

AI 集成