AI推理

  • AI推理 > 最佳实践 > DeepSeek R1 GPU 主机部署教程

    DeepSeek R1 GPU 主机部署教程

    最近更新时间: 2025-02-11 16:13:53

    私有化和本地部署

    如果你希望更深入地私有化集成 AI 功能,保护数据隐私,可以通过【七牛云市场】购买【专用云服务器】,将 DeepSeek-R1 部署到服务器上。这种方式适合需要定制化需求的客户,例如对模型进行训练、优化或扩展。

    我们提供效果最完整和最具性价比的 1.73bit 量化 DeepSeek-R1 671b 全参版本供您部署使用:

    1. 1.73-bit 量化 671b 全参模型,显存需求大幅度下降到 158GB, 经我们测试验证,在七牛云提供的A100、V100、A10 等高性价比类型 GPU 服务器,均能快速推理,效率达到 7-8 token/s。
    2. 相对于 70B 及以下参数规模的蒸馏模型,671b 的全参模型激活的专家数更多,推理过程更精细、结果也更准确。

    image.png

    三步在线部署运行(小贴士)

    • STEP 1 从七牛云下载合并后的 DeepSeek-R1 量化模型(GGUF 文件)
    wget https://algorithm.qnaigc.com/DeepSeek/DeepSeek-R1-UD-IQ1_M.gguf
    

    • STEP 2 安装ollama,并创建Modelfile
    # 2.1 安装 Ollama
    curl -fsSL https://ollama.com/install.sh | sh
    
    # 2.2 创建 Modelfile 描述文件
    # 需要填写模型存放的路径
    cat <<EOF > DeepSeekQ1_Modelfile
    FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
    PARAMETER num_gpu 28
    PARAMETER num_ctx 2048
    PARAMETER temperature 0.6
    TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"
    EOF
    
    # 2.3 创建 ollama 模型
    # Ollama 会创建一个新模型,且大小与原始模型一样,如果 /usr/ 路径下空间不足,
    # 可以手动指定存储路径:vim /etc/systemd/system/ollama.service
    Environment="OLLAMA_MODELS=/disk5/ollama/model"
    
    # 2.4 配置完成后需要重启 Ollama:
    sudo systemctl daemon-reload
    sudo systemctl restart ollama
    
    /usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile
    

    • STEP 3 运行模型
    ollama run DeepSeek-R1-UD-IQ1_M --verbose
    # 查看 Ollama 日志:
    journalctl -u ollama --no-pager
    # 或访问本地 API
    curl -X POST http://127.0.0.1:11434/api/generate -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'
    
    # 1.通过脚本 hfd.sh 从国内 huggingface 镜像模下载型
    
    wget https://algorithm.qnaigc.com/DeepSeek/hfd.sh
        bash hfd.sh unsloth/DeepSeek-R1-GGUF --include "DeepSeek-R1-UD-IQ1_M" --tool aria2c -x 8
     
     
    # 2.安装 llama.cpp 用于模型合并
        下载 zip 压缩包:https://github.com/ggerganov/llama.cpp/archive/refs/heads/master.zip
        解压并命名为 llama.cpp:mv llama.cpp-master llama.cpp
        执行如下指令:
        apt-get update
        apt-get install build-essential cmake curl libcurl4-openssl-dev -y
        cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
        cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
        cp llama.cpp/build/bin/llama-* llama.cpp
        合并模型:./llama.cpp/llama-gguf-split --merge ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_M.gguf
         
    # 3.安装 ollama 用于模型运行
        curl -fsSL https://ollama.com/install.sh | sh
        (可能上面因为网络原因会失败,多尝试几次)
     
     
    # 4.编辑模型描述文件
        创建文件:vim DeepSeekQ1_Modelfile
        描述文件需要填写模型存放的路径,内容如下;
        FROM ${PATH-TO-MODEL}/DeepSeek-R1-UD-IQ1_M.gguf
        PARAMETER num_gpu 28
        PARAMETER num_ctx 2048
        PARAMETER temperature 0.6
        TEMPLATE "<|User|>{{ .Prompt }}<|Assistant|>"
     
     
    # 5.创建 Ollama 模型
        Ollama 会创建一个新模型,且大小与原始模型一样,如果 /usr/ 路径下空间不足,
        可以手动指定存储路径:vim /etc/systemd/system/ollama.service
        Environment="OLLAMA_MODELS=/disk5/ollama/model"
        配置完成后需要重启:
        sudo systemctl daemon-reload
        sudo systemctl restart ollama
        /usr/local/bin/ollama create DeepSeek-R1-UD-IQ1_M -f ${PATH-TO-MODEL}/DeepSeekQ1_Modelfile
     
     
    # 6.运行模型
        ollama run DeepSeek-R1-UD-IQ1_M --verbose
        查看 Ollama 日志:journalctl -u ollama --no-pager
     
     
    # 7.本地 API
        curl -X POST http://127.0.0.1:11434/api/generate -d '{"model":"DeepSeek-R1-UD-IQ1_M", "prompt": "hello"}'
    

    推荐七牛 GPU 云主机

    模型名称 模型大小 显存推荐 GPU推荐 主机型号推荐 适用场景
    DeepSeek-R1-Distill-Qwen-7B 5GB 8GB+ P4 8GB GPU计算型 gn5i 本地开发测试(中小型企业)
    中等复杂度 NLP 任务(文本摘要、翻译)
    轻量级多轮对话系统
    DeepSeek-R1-Distill-Llama-8B 5GB 8GB+ P4 8GB GPU计算型 gn5i 本地开发测试(中小型企业)
    中等复杂度 NLP 任务(文本摘要、翻译)
    轻量级多轮对话系统
    DeepSeek-R1-Distill-Qwen-14B 9GB 16GB+ P100 16GB
    T4 16GB
    GPU计算型 gn5
    GPU计算型 gn6i
    企业级复杂任务(合同分析、报告生成)
    长文本理解与生成(书籍/论文辅助写作)
    DeepSeek-R1-Distill-Qwen-32B 20GB 24GB+ P100 16GB *2
    T4 16GB *2
    GPU计算型 gn5
    GPU计算型 gn6i
    高精度专业领域任务(医疗/法律咨询)
    多模态任务预处理(需结合其他框架)
    DeepSeek-R1-Distill-Llama-70B 43GB 48GB+ P100 16GB * 4
    A10 24GB * 2
    GPU计算型 gn5
    GPU计算型 gn7i
    科研机构/大型企业(金融预测、大规模数据分析)
    高复杂度生成任务(创意写作、算法设计)
    DeepSeek-R1-671B
    (全参1.73bit量化)
    158GB 200GB+ V100 32GB * 8 GPU计算型 gn6e 全能力
    全场景

    专属 GPU 主机限时优惠:立即前往活动页领取购买

    以上内容是否对您有帮助?
  • Qvm free helper
    Close