AI 大模型推理 > 常见问题 > 常见问题

常见问题

最近更新时间: 2025-02-12 17:52:34

Q1：如何调用 API 以及部署？
可参考此处文档：https://www.qiniu.com/products/ai-token-api#document

Q2：API 接口是什么风格？请求参数和响应参数是怎样的？
接口兼容 OpenAI 风格，参数也完全兼容 OpenAI 的 sdk，比如 maxtoken、tempeature 等常见参数可以直接使用 sdk 中的参数；常见容易搞错的是 OpenAI sdk 配的 baseurl 一般是域名 + /v1，比如：https://api.qnaigc.com/v1，而不是（https://api.qnaigc.com/ 或者 https://api.qnaigc.com/v1/chat/completions）

Q3：API 支持哪些模型？
除了 DeepSeek-R1、V3 模型，也支持 Qwen 模型，模型列表参考：七牛云支持DeepSeek-R1/V3 和 Qwen2大模型列表

Q4：API 是否有 token 限制、RPM 限制等？
目前在体验阶段，对 deepseek 模型并未有特殊的限制，Qwen 模型目前有 10K 的 token 数量限制，近期有望放开

Q5：各种 AI App 或大模型聚合平台（如 cherrystudio 等），如何接入七牛的 API ？
可以选择 OpenAI 的接入方式进行接入，常见容易搞错的是 url 配置一般是域名，比如：https://api.qnaigc.com，而不是 https://api.qnaigc.com/v1/chat/completions

主流 Chat 客户端配置方式可以参考：

Q6：API 的回答为什么没有思考过程？
只有 deepseek-r1 模型是默认有思考过程的，回答内容开头有标签。也有小概率遇到标签内容为空的情况，属正常情况

Q7：API 调用报错：`openai.InternalServerError: Error code: 503 - {'error': {'message': 'the price of the model is not set (model: deepseek-r1:671b)', 'type': 'quota_exceeded_error'}}`，怎么解决？
model 字段的值传错了，需要严格和七牛云支持DeepSeek-R1/V3 和 Qwen2大模型列表里面的“API model参数“的值保持一致，否则找不到模型

Q8：API 调用报错包含 header 字段的，比如：`"error":"authorization header missing", "status": false`，怎么解决？
往往是请求 header 或请求字段有问题，建议对照教程文档检查下；如果还未解决，可以咨询我们的技术支持，注意抹掉 api key 敏感信息

Q9：API 如何调用 DeepSeek 671B 的模型？
当前支持的 deepseek-r1 就是 671B 的全参数模型，也是所谓的满血版

Q10：七牛云有哪些 GPU 主机可用来私有部署？支持多少人并发使用？
GPU 主机 A100、V100、A10、H20、4090 等都有，可以部署 671b 量化全参模型，也可以跑中小参的 DeepSeek-R1-Qwen、DeepSeek-R1-Llama 蒸馏模型；具体规格示例：6张 40G 的 A100 显卡可以满足 10 tokens/s；8张 32G 的 V100 显卡大概 5 tokens/s

如需私有部署，可参考此文档：DeepSeek R1 GPU 主机部署教程

Q11：ollma 与 vllm 部署方式如何选择？
ollama 推荐个人开发者，高并发推荐 vllm 部署，目前全参数模型要求配置高，也可以使用 32b 的蒸馏模型

vllm 部署速度对比

模型：DeepSeek-R1-Distill-Qwen-32B
环境：显卡 4 x 32G V100 CPU 48 x Intel® Xeon® Silver 4116 CPU @ 2.10 GHz

GPU 显存、内存消耗	并发数	速度
显存 95.9 GB VIRT（虚拟内存）: 56.7G；RES（物理内存）: 5.8G	1	13.848 tokens/s
显存 95.9 GB VIRT（虚拟内存）: 56.7G；RES（物理内存）: 5.8G	10	14.12 tokens/s
显存 95.9 GB VIRT（虚拟内存）: 56.7G；RES（物理内存）: 5.8G	100	13.41 tokens/s

Q12：使用 Token API 和购买 GPU 主机进行专属私有化部署有什么差别？
差别1：数据安全隐私。API 背后的模型归属云厂商，客户的问题和答案都经过云厂商的模型处理；私有化部署的模型归属客户，客户的问题和答案数据有更好的隐私保护，尤其是如果客户场景是 RAG 应用，涉及客户的内部资料和数据，更建议用私有化部署的方式
差别2：灵活性。API 一般是按 token 计费，RPM/TPM 等指标并不明显；私有化部署则租期可长可短，token 数无限制，RPM/TPM 等通过扩容比较可控。

Q13：获取 API KEY 的 /llmapikey 的接口可以调用多次吗？API KEY 需要重新获取吗？API KEY 泄漏了怎么办？
第一次调用 /llmapikey 接口获取 API KEY，保存下来可以一直用；如果泄漏或者单纯想要重置 API KEY，可以再次调用 /llmapikey 接口，获取新的 API KEY，旧的 API KEY失效。

Q14：支持联网搜索吗？
支持，在模型 id 后面加 `?search` 即可联网搜索，例如：`deepseek-v3?search`，参考 API 文档：API 使用说明

附录：

API文档：https://developer.qiniu.com/aitokenapi/12882/ai-inference-api
API定价：https://developer.qiniu.com/aitokenapi/12898/ai-token-api-pricing
支持的模型列表：https://developer.qiniu.com/aitokenapi/12883/model-list
专属 GPU 主机购买：https://marketing.qiniu.com/activity/2024-1111-act
DeepSeek R1 GPU 主机部署教程：https://developer.qiniu.com/aitokenapi/12885/host-deployment-tutorial
更多文档：https://www.qiniu.com/products/ai-token-api#document

以上内容是否对您有帮助？