AI 大模型推理 > 最佳实践 > DeepSeek R1 GPU 主机部署教程

DeepSeek R1 GPU 主机部署教程

最近更新时间: 2025-02-11 23:32:29

私有化和本地部署

如果你希望更深入地私有化集成 AI 功能，保护数据隐私，可以通过【七牛云市场】购买【专用云服务器】，将 DeepSeek-R1 部署到服务器上。这种方式适合需要定制化需求的客户，例如对模型进行训练、优化或扩展。

我们提供效果最完整和最具性价比的 1.73bit 量化 DeepSeek-R1 671b 全参版本供您部署使用：

1.73-bit 量化 671b 全参模型，显存需求大幅度下降到 158GB, 经我们测试验证，在七牛云提供的A100、V100、A10 等高性价比类型 GPU 服务器，均能快速推理，效率达到 7-8 token/s。
相对于 70B 及以下参数规模的蒸馏模型，671b 的全参模型激活的专家数更多，推理过程更精细、结果也更准确。

三步在线部署运行（小贴士）

STEP 1 从七牛云下载合并后的 DeepSeek-R1 量化模型（GGUF 文件）

wget https://algorithm.qnaigc.com/DeepSeek/DeepSeek-R1-UD-IQ1_M.gguf

STEP 2 安装ollama，并创建Modelfile

# 2.1 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 2.2 创建 Modelfile 描述文件
# 需要填写模型存放的路径
cat <<EOF > DeepSeekQ1_Modelfile
FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>"
EOF

# 2.3 创建 ollama 模型
# Ollama 会创建一个新模型，且大小与原始模型一样，如果 /usr/ 路径下空间不足，
# 可以手动指定存储路径：vim /etc/systemd/system/ollama.service
Environment="OLLAMA_MODELS=/disk5/ollama/model"

# 2.4 配置完成后需要重启 Ollama：
sudo systemctl daemon-reload
sudo systemctl restart ollama

/usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile

STEP 3 运行模型

ollama run DeepSeek-R1-UD-IQ1_M --verbose
# 查看 Ollama 日志：
journalctl -u ollama --no-pager
# 或访问本地 API
curl -X POST http://127.0.0.1:11434/api/generate -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'

# 1.通过脚本 hfd.sh 从国内 huggingface 镜像模下载型

wget https://algorithm.qnaigc.com/DeepSeek/hfd.sh
    bash hfd.sh unsloth/DeepSeek-R1-GGUF --include "DeepSeek-R1-UD-IQ1_M" --tool aria2c -x 8
 
 
# 2.安装 llama.cpp 用于模型合并
    下载 zip 压缩包：https://github.com/ggerganov/llama.cpp/archive/refs/heads/master.zip
    解压并命名为 llama.cpp：mv llama.cpp-master llama.cpp
    执行如下指令：
    apt-get update
    apt-get install build-essential cmake curl libcurl4-openssl-dev -y
    cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
    cp llama.cpp/build/bin/llama-* llama.cpp
    合并模型：./llama.cpp/llama-gguf-split --merge ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_M.gguf
     
# 3.安装 ollama 用于模型运行
    curl -fsSL https://ollama.com/install.sh | sh
    （可能上面因为网络原因会失败，多尝试几次）
 
 
# 4.编辑模型描述文件
    创建文件：vim DeepSeekQ1_Modelfile
    描述文件需要填写模型存放的路径，内容如下；
    FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
    PARAMETER num_gpu 28
    PARAMETER num_ctx 2048
    PARAMETER temperature 0.6
    TEMPLATE "<｜User｜>{{ .Prompt }}<｜Assistant｜>"
 
 
# 5.创建 Ollama 模型
    Ollama 会创建一个新模型，且大小与原始模型一样，如果 /usr/ 路径下空间不足，
    可以手动指定存储路径：vim /etc/systemd/system/ollama.service
    Environment="OLLAMA_MODELS=/disk5/ollama/model"
    配置完成后需要重启：
    sudo systemctl daemon-reload
    sudo systemctl restart ollama
    /usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile
 
 
# 6.运行模型
    ollama run DeepSeek-R1-UD-IQ1_M --verbose
    查看 Ollama 日志：journalctl -u ollama --no-pager
 
 
# 7.本地 API
    curl -X POST http://127.0.0.1:11434/api/generate -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'

推荐七牛 GPU 云主机

模型名称	模型大小	显存推荐	GPU推荐	主机型号推荐	适用场景
DeepSeek-R1-Distill-Qwen-7B	5GB	8GB+	P4 8GB	GPU计算型 gn5i	本地开发测试（中小型企业）中等复杂度 NLP 任务（文本摘要、翻译）轻量级多轮对话系统
DeepSeek-R1-Distill-Llama-8B	5GB	8GB+	P4 8GB	GPU计算型 gn5i	本地开发测试（中小型企业）中等复杂度 NLP 任务（文本摘要、翻译）轻量级多轮对话系统
DeepSeek-R1-Distill-Qwen-14B	9GB	16GB+	P100 16GB T4 16GB	GPU计算型 gn5 GPU计算型 gn6i	企业级复杂任务（合同分析、报告生成）长文本理解与生成（书籍/论文辅助写作）
DeepSeek-R1-Distill-Qwen-32B	20GB	24GB+	P100 16GB 2 T4 16GB 2	GPU计算型 gn5 GPU计算型 gn6i	高精度专业领域任务（医疗/法律咨询）多模态任务预处理（需结合其他框架）
DeepSeek-R1-Distill-Llama-70B	43GB	48GB+	P100 16GB * 4 A10 24GB * 2	GPU计算型 gn5 GPU计算型 gn7i	科研机构/大型企业（金融预测、大规模数据分析）高复杂度生成任务（创意写作、算法设计）
DeepSeek-R1-671B (全参1.73bit量化)	158GB	200GB+	V100 32GB * 8	GPU计算型 gn6e	全能力全场景

专属 GPU 主机限时优惠：立即前往活动页领取购买

以上内容是否对您有帮助？