DeepSeek R1 GPU 主机部署教程
私有化和本地部署
如果你希望更深入地私有化集成 AI 功能,保护数据隐私,可以通过【七牛云市场】购买【专用云服务器】,将 DeepSeek-R1 部署到服务器上。这种方式适合需要定制化需求的客户,例如对模型进行训练、优化或扩展。
我们提供效果最完整和最具性价比的 1.73bit 量化 DeepSeek-R1 671b 全参版本供您部署使用:
- 1.73-bit 量化 671b 全参模型,显存需求大幅度下降到 158GB, 经我们测试验证,在七牛云提供的A100、V100、A10 等高性价比类型 GPU 服务器,均能快速推理,效率达到 7-8 token/s。
- 相对于 70B 及以下参数规模的蒸馏模型,671b 的全参模型激活的专家数更多,推理过程更精细、结果也更准确。
三步在线部署运行(小贴士)
- STEP 1 从七牛云下载合并后的 DeepSeek-R1 量化模型(GGUF 文件)
wget https://algorithm.qnaigc.com/DeepSeek/DeepSeek-R1-UD-IQ1_M.gguf
- STEP 2 安装ollama,并创建Modelfile
# 2.1 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 2.2 创建 Modelfile 描述文件
# 需要填写模型存放的路径
cat <<EOF > DeepSeekQ1_Modelfile
FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"
EOF
# 2.3 创建 ollama 模型
# Ollama 会创建一个新模型,且大小与原始模型一样,如果 /usr/ 路径下空间不足,
# 可以手动指定存储路径:vim /etc/systemd/system/ollama.service
Environment="OLLAMA_MODELS=/disk5/ollama/model"
# 2.4 配置完成后需要重启 Ollama:
sudo systemctl daemon-reload
sudo systemctl restart ollama
/usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile
- STEP 3 运行模型
ollama run DeepSeek-R1-UD-IQ1_M --verbose
# 查看 Ollama 日志:
journalctl -u ollama --no-pager
# 或访问本地 API
curl -X POST http://127.0.0.1:11434/api/generate -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'
# 1.通过脚本 hfd.sh 从国内 huggingface 镜像模下载型
wget https://algorithm.qnaigc.com/DeepSeek/hfd.sh
bash hfd.sh unsloth/DeepSeek-R1-GGUF --include "DeepSeek-R1-UD-IQ1_M" --tool aria2c -x 8
# 2.安装 llama.cpp 用于模型合并
下载 zip 压缩包:https://github.com/ggerganov/llama.cpp/archive/refs/heads/master.zip
解压并命名为 llama.cpp:mv llama.cpp-master llama.cpp
执行如下指令:
apt-get update
apt-get install build-essential cmake curl libcurl4-openssl-dev -y
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
合并模型:./llama.cpp/llama-gguf-split --merge ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_M.gguf
# 3.安装 ollama 用于模型运行
curl -fsSL https://ollama.com/install.sh | sh
(可能上面因为网络原因会失败,多尝试几次)
# 4.编辑模型描述文件
创建文件:vim DeepSeekQ1_Modelfile
描述文件需要填写模型存放的路径,内容如下;
FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"
# 5.创建 Ollama 模型
Ollama 会创建一个新模型,且大小与原始模型一样,如果 /usr/ 路径下空间不足,
可以手动指定存储路径:vim /etc/systemd/system/ollama.service
Environment="OLLAMA_MODELS=/disk5/ollama/model"
配置完成后需要重启:
sudo systemctl daemon-reload
sudo systemctl restart ollama
/usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile
# 6.运行模型
ollama run DeepSeek-R1-UD-IQ1_M --verbose
查看 Ollama 日志:journalctl -u ollama --no-pager
# 7.本地 API
curl -X POST http://127.0.0.1:11434/api/generate -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'
推荐七牛 GPU 云主机
模型名称 | 模型大小 | 显存推荐 | GPU推荐 | 主机型号推荐 | 适用场景 |
---|---|---|---|---|---|
DeepSeek-R1-Distill-Qwen-7B | 5GB | 8GB+ | P4 8GB | GPU计算型 gn5i | 本地开发测试(中小型企业) 中等复杂度 NLP 任务(文本摘要、翻译) 轻量级多轮对话系统 |
DeepSeek-R1-Distill-Llama-8B | 5GB | 8GB+ | P4 8GB | GPU计算型 gn5i | 本地开发测试(中小型企业) 中等复杂度 NLP 任务(文本摘要、翻译) 轻量级多轮对话系统 |
DeepSeek-R1-Distill-Qwen-14B | 9GB | 16GB+ | P100 16GB T4 16GB |
GPU计算型 gn5 GPU计算型 gn6i |
企业级复杂任务(合同分析、报告生成) 长文本理解与生成(书籍/论文辅助写作) |
DeepSeek-R1-Distill-Qwen-32B | 20GB | 24GB+ | P100 16GB *2 T4 16GB *2 |
GPU计算型 gn5 GPU计算型 gn6i |
高精度专业领域任务(医疗/法律咨询) 多模态任务预处理(需结合其他框架) |
DeepSeek-R1-Distill-Llama-70B | 43GB | 48GB+ | P100 16GB * 4 A10 24GB * 2 |
GPU计算型 gn5 GPU计算型 gn7i |
科研机构/大型企业(金融预测、大规模数据分析) 高复杂度生成任务(创意写作、算法设计) |
DeepSeek-R1-671B (全参1.73bit量化) |
158GB | 200GB+ | V100 32GB * 8 | GPU计算型 gn6e | 全能力 全场景 |
专属 GPU 主机限时优惠:立即前往活动页领取购买
文档反馈
(如有产品使用问题,请 提交工单)