常见问题
Q1:如何调用 API 以及部署? |
---|
可参考此处文档:https://www.qiniu.com/products/ai-token-api#document |
Q2:API 接口是什么风格?请求参数和响应参数是怎样的? |
---|
接口兼容 OpenAI 风格,参数也完全兼容 OpenAI 的 sdk,比如 maxtoken、tempeature 等常见参数可以直接使用 sdk 中的参数;常见容易搞错的是 OpenAI sdk 配的 baseurl 一般是域名 + /v1,比如:https://api.qnaigc.com/v1,而不是(https://api.qnaigc.com/ 或者 https://api.qnaigc.com/v1/chat/completions) |
Q3:API 支持哪些模型? |
---|
除了 DeepSeek-R1、V3 模型,也支持 Qwen 模型,模型列表参考:七牛云支持DeepSeek-R1/V3 和 Qwen2大模型列表 |
Q4:API 是否有 token 限制、RPM 限制等? |
---|
目前在体验阶段,对 deepseek 模型并未有特殊的限制,Qwen 模型目前有 10K 的 token 数量限制,近期有望放开 |
Q5:各种 AI App 或大模型聚合平台(如 cherrystudio 等),如何接入七牛的 API ? |
---|
可以选择 OpenAI 的接入方式进行接入,常见容易搞错的是 url 配置一般是域名,比如:https://api.qnaigc.com,而不是 https://api.qnaigc.com/v1/chat/completions |
主流 Chat 客户端配置方式可以参考:
Q6:API 的回答为什么没有思考过程? |
---|
只有 deepseek-r1 模型是默认有思考过程的,回答内容开头有 |
Q7:API 调用报错:openai.InternalServerError: Error code: 503 - {'error': {'message': 'the price of the model is not set (model: deepseek-r1:671b)', 'type': 'quota_exceeded_error'}} ,怎么解决? |
---|
model 字段的值传错了,需要严格和 七牛云支持DeepSeek-R1/V3 和 Qwen2大模型列表 里面的“API model参数“的值保持一致,否则找不到模型 |
Q8:API 调用报错包含 header 字段的,比如:"error":"authorization header missing", "status": false ,怎么解决? |
---|
往往是请求 header 或请求字段有问题,建议对照教程文档检查下;如果还未解决,可以咨询我们的技术支持,注意抹掉 api key 敏感信息 |
Q9:API 如何调用 DeepSeek 671B 的模型? |
---|
当前支持的 deepseek-r1 就是 671B 的全参数模型,也是所谓的满血版 |
Q10:七牛云有哪些 GPU 主机可用来私有部署?支持多少人并发使用? |
---|
GPU 主机 A100、V100、A10、H20、4090 等都有,可以部署 671b 量化全参模型,也可以跑中小参的 DeepSeek-R1-Qwen、DeepSeek-R1-Llama 蒸馏模型;具体规格示例:6张 40G 的 A100 显卡可以满足 10 tokens/s;8张 32G 的 V100 显卡大概 5 tokens/s |
如需私有部署,可参考此文档:DeepSeek R1 GPU 主机部署教程
Q11:ollma 与 vllm 部署方式如何选择? |
---|
ollama 推荐个人开发者,高并发推荐 vllm 部署,目前全参数模型要求配置高,也可以使用 32b 的蒸馏模型 |
vllm 部署 速度对比
- 模型:DeepSeek-R1-Distill-Qwen-32B
- 环境:显卡 4 x 32G V100 CPU 48 x Intel® Xeon® Silver 4116 CPU @ 2.10 GHz
GPU 显存、内存消耗 | 并发数 | 速度 |
---|---|---|
显存 95.9 GB VIRT(虚拟内存): 56.7G;RES(物理内存): 5.8G | 1 | 13.848 tokens/s |
显存 95.9 GB VIRT(虚拟内存): 56.7G;RES(物理内存): 5.8G | 10 | 14.12 tokens/s |
显存 95.9 GB VIRT(虚拟内存): 56.7G;RES(物理内存): 5.8G | 100 | 13.41 tokens/s |
Q12:使用 Token API 和购买 GPU 主机进行专属私有化部署有什么差别? |
---|
差别1:数据安全隐私。API 背后的模型归属云厂商,客户的问题和答案都经过云厂商的模型处理;私有化部署的模型归属客户,客户的问题和答案数据有更好的隐私保护,尤其是如果客户场景是 RAG 应用,涉及客户的内部资料和数据,更建议用私有化部署的方式 |
差别2:灵活性。API 一般是按 token 计费,RPM/TPM 等指标并不明显;私有化部署则租期可长可短,token 数无限制,RPM/TPM 等通过扩容比较可控。 |
Q13:获取 API KEY 的 /llmapikey 的接口可以调用多次吗?API KEY 需要重新获取吗?API KEY 泄漏了怎么办? |
---|
第一次调用 /llmapikey 接口获取 API KEY,保存下来可以一直用;如果泄漏或者单纯想要重置 API KEY,可以再次调用 /llmapikey 接口,获取新的 API KEY,旧的 API KEY失效。 |
Q14:支持联网搜索吗? |
---|
支持,在模型 id 后面加 ?search 即可联网搜索,例如:deepseek-v3?search ,参考 API 文档:API 使用说明 |
附录:
- API文档:https://developer.qiniu.com/aitokenapi/12882/ai-inference-api
- API定价:https://developer.qiniu.com/aitokenapi/12898/ai-token-api-pricing
- 支持的模型列表:https://developer.qiniu.com/aitokenapi/12883/model-list
- 专属 GPU 主机购买:https://marketing.qiniu.com/activity/2024-1111-act
- DeepSeek R1 GPU 主机部署教程:https://developer.qiniu.com/aitokenapi/12885/host-deployment-tutorial
- 更多文档:https://www.qiniu.com/products/ai-token-api#document
文档反馈
(如有产品使用问题,请 提交工单)