图片生成 (gemini系列)
七牛云 AI 大模型推理 API 支持 Google Gemini 系列模型的图像生成功能,包括文生图(Text-to-Image)和图生图(Image-to-Image),兼容 OpenAI Images API 接口格式,方便您集成到各种业务和应用场景中。
Gemini 模型核心特点
- 同步接口: Gemini 模型采用同步调用方式,请求后直接返回生成结果
- Base64 返回格式: 接口返回的图片是 Base64 编码而不是 URL
- 高质量生成: 支持高质量的图像生成和编辑
- 最高支持输出4K图片: gemini-3.0-pro-image-preview 模型支持多种分辨率配置(1K、2K、4K),gemini-2.5-flash-image 仅支持1K
- 丰富比例: 支持多种宽高比例(1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9)
- 多种功能:
- 文生图 (Text-to-Image): 根据文本描述生成图像
- 图生图 (Image-to-Image): 基于参考图片进行编辑和改造
- 多图输入: 支持多张参考图片同时输入
- 遮罩编辑: 支持使用遮罩指定编辑区域
接口说明
Token API 接入点
七牛云 AI 大模型推理 API 接入域名:
- 接入点:
https://api.qnaigc.com/v1 - 使用前提:获取 API KEY(API 密钥)
支持接口列表
| 接口名 | 说明 |
|---|---|
| /chat/completions | 通用对话接口,支持文生图、图生图、纯对话 输出格式:Base64 编码的图像数据,支持流式输出,可展示思考过程 |
| /images/generations | 文生图接口,根据文本描述生成图像 输出格式:Base64 编码的图像数据 |
| /images/edits | 图生图接口,根据输入图像和文本描述生成新的图像 输出格式:Base64 编码的图像数据 |
支持的模型
| 模型 ID | 模型名称 | 说明 | 状态 |
|---|---|---|---|
| gemini-3.0-pro-image-preview | Gemini 3.0 Pro Image Preview (🍌 Nano Banana Pro) | 又称 Nano Banana Pro,谷歌最新预览版图像模型,提供更强大的图像编辑和生成能力,支持复杂的图像处理任务,支持输出4K高分辨率图像 | ✅ 已上线 |
| gemini-2.5-flash-image | Gemini 2.5 Flash Image (🍌 Nano Banana) | 又称 Nano Banana,谷歌的快速图像模型,支持高质量图像生成和编辑 | ✅ 已上线 |
请求参数说明
对话接口 (POST /chat/completions)
接口说明: 通用对话接口,支持 Gemini 模型的文生图、图生图和纯对话功能。相比专用图像接口,此接口具有以下特点:
- 支持流式输出:可以实时接收生成进度
- 展示思考过程:返回模型的推理过程(reasoning_content)
- 更灵活的交互:可以只聊天不生图,也可以生成图像
Header 参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| Authorization | string | 是 | API Key,格式:Bearer YOUR_API_KEY |
| Content-Type | string | 是 | 请求内容类型,固定值:application/json |
Body 参数 (JSON)
| 参数名 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| model | string | 是 | - | 模型名称 详细说明: • 可选值: gemini-3.0-pro-image-preview、gemini-2.5-flash-image• 同一模型支持聊天和图像生成 |
| messages | array | 是 | - | 对话消息数组 详细说明: • 每个消息包含 role 和 content 字段 • role 可以是 “user” 或 “assistant” • content 可以是字符串(纯文本)或对象数组(多模态) • 多模态 content 支持: - text 类型:文本内容 - image_url 类型:图片 URL 或 Base64 data URI |
| stream | boolean | 否 | false | 是否启用流式输出 详细说明: • true:流式返回,可实时接收生成进度 • false:等待生成完成后返回完整结果 |
| image_config | object | 否 | - | 图像配置对象,用于控制图像比例和分辨率(推荐使用) 详细说明: • 包含以下字段: - aspect_ratio (string, 可选):图像宽高比 可选值: 1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9- image_size (string, 可选):图像分辨率 仅 gemini-3.0-pro-image-preview 模型支持可选值: 1K、2K、4K• 示例: {"aspect_ratio": "9:16","image_size": "4K"} |
| temperature | float | 否 | - | 生成温度,取值范围:0.0-2.0 |
| top_p | float | 否 | - | 核采样参数,取值范围:0.0-1.0 |
| top_k | integer | 否 | - | Top-K 采样参数,最小值:1 |
响应体说明
对话接口采用同步或流式调用,响应格式如下:
| 字段名 | 类型 | 说明 |
|---|---|---|
| id | string | 对话完成 ID |
| object | string | 对象类型,固定值:chat.completion |
| created | integer | 响应创建时间戳(Unix 时间戳,秒) |
| model | string | 使用的模型名称 |
| choices | array | 生成结果数组 |
| choices[].index | integer | 结果索引 |
| choices[].message | object | 消息对象 |
| choices[].message.role | string | 角色,固定值:assistant |
| choices[].message.content | string | 文本内容(如果只是聊天) |
| choices[].message.reasoning_content | string | 模型的思考过程和推理内容 |
| choices[].message.images | array | 生成的图像数组(如果有图像生成) |
| choices[].message.images[].type | string | 图像类型,固定值:image_url |
| choices[].message.images[].image_url | object | 图像 URL 对象 |
| choices[].message.images[].image_url.url | string | Base64 data URI 格式的图像数据 |
| choices[].message.images[].index | integer | 图像索引,从 0 开始 |
| choices[].finish_reason | string | 完成原因,通常为 stop |
| usage | object | Token 使用统计信息 |
| usage.prompt_tokens | integer | 输入 token 数 |
| usage.completion_tokens | integer | 输出 token 数 |
| usage.total_tokens | integer | 总 token 数 |
| usage.prompt_tokens_details | object | 输入 token 详情 |
| usage.prompt_tokens_details.text_tokens | integer | 文本 token 数 |
| usage.completion_tokens_details | object | 输出 token 详情 |
| usage.completion_tokens_details.reasoning_tokens | integer | 推理 token 数 |
| usage.completion_tokens_details.image_tokens | integer | 图像 token 数 |
响应示例(图生图):
{
"id": "chatcmpl-2f8236e9f2b34bd391289576d0e23e72",
"object": "chat.completion",
"created": 1764574464,
"model": "gemini-3.0-pro-image-preview",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "",
"reasoning_content": "**Analyzing the Icon Redesign**\n\nI'm focused on the icon's elements, taking note of the rounded rectangle, the \"Ocr\" text, and the camera viewfinder with dots. My current work involves mentally converting the black elements to red.\n\n\n**Considering Color Swaps**\n\nI've been thinking about the color transformation. The goal is a straightforward color swap: black to red. I'm prioritizing the main \"Ocr\" text, the viewfinder, and the dots within the icon. Maintaining the original style is key to a smooth transition.\n\n\n**Verifying Color Changes**\n\nI'm verifying that the image accurately reflects the color adjustments requested. The model successfully altered the designated elements, precisely as instructed. The execution is an accurate translation of the color modification instructions. The outcome seems to fulfill the prompt's requirements.\n\n\n**Analyzing Precise Transformations**\n\nI've examined the changes made to the image based on the prompt. The model successfully isolated and modified the black components, converting them to red. The output is a direct application of the requested color shift. I'm satisfied that it matches the user's intent.\n\n\n",
"images": [
{
"type": "image_url",
"image_url": {
"url": "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABYAAAAMACAIAAAASU1SbA.........."
},
"index": 0
}
]
},
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 19,
"completion_tokens": 1322,
"total_tokens": 1341,
"prompt_tokens_details": {
"text_tokens": 19
},
"completion_tokens_details": {
"reasoning_tokens": 202,
"image_tokens": 1120
}
}
}
文生图接口 (POST /images/generations)
接口说明: 根据文本描述生成全新的图像,支持多种分辨率和宽高比配置。
Header 参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| Authorization | string | 是 | API Key,格式:Bearer YOUR_API_KEY |
| Content-Type | string | 是 | 请求内容类型,固定值:application/json |
Body 参数 (JSON)
| 参数名 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| model | string | 是 | - | 图像生成模型名称 详细说明: • 可选值: gemini-3.0-pro-image-preview、gemini-2.5-flash-image• 不同模型支持的参数和功能可能有所不同 |
| prompt | string | 是 | - | 图像生成的文本描述提示词 详细说明: • 建议:提示词越详细、具体,生成的图像质量越好 • 建议包含:风格、光线、构图、色彩等细节 • 使用逗号分隔不同的描述要素 • 示例: "一只橘色的猫,坐在窗台上,温暖的阳光,柔和的阴影,专业摄影,高清画质,4K 分辨率" |
| image_config | object | 否 | - | 图像配置对象,用于控制图像比例和分辨率(推荐使用) 详细说明: • 包含以下字段: - aspect_ratio (string, 可选):图像宽高比 可选值: 1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9- image_size (string, 可选):图像分辨率 仅 gemini-3.0-pro-image-preview 模型支持可选值: 1K、2K、4K• 示例: {"aspect_ratio": "9:16","image_size": "4K"} |
| temperature | float | 否 | - | 生成温度,取值范围:0.0-2.0 详细说明: • 控制生成的随机性和创意性 • 较低的值(如 0.2)使输出更确定和一致 • 较高的值(如 1.0)使输出更随机和创意 |
| top_p | float | 否 | - | 核采样参数,取值范围:0.0-1.0 详细说明: • 用于控制生成的多样性 • 较低的值会使生成更集中于高概率选项 • 注意:不建议同时修改 temperature 和 top_p |
| top_k | integer | 否 | - | Top-K 采样参数,最小值:1 详细说明: • 限制每步采样时考虑的候选项数量 |
响应体说明
文生图接口采用同步调用,请求成功后会立即返回生成的图像数据。响应体包含以下字段:
| 字段名 | 类型 | 说明 |
|---|---|---|
| created | integer | 响应创建时间戳(Unix 时间戳,秒) |
| data | array | 生成的图像数据数组 |
| data[].b64_json | string | Base64 编码的图像数据 |
| output_format | string | 输出格式,默认为 png |
| usage | object | Token 使用统计信息 |
| usage.total_tokens | integer | 总 token 数 |
| usage.input_tokens | integer | 输入 token 数 |
| usage.output_tokens | integer | 输出 token 数(图像生成消耗) |
| usage.input_tokens_details | object | 输入 token 详情 |
| usage.input_tokens_details.text_tokens | integer | 文本 token 数 |
| usage.input_tokens_details.image_tokens | integer | 图像 token 数 |
响应示例:
{
"created": 1234567890,
"data": [
{
"b64_json": "iVBORw0KGgoAAAANSUhEUgA..."
}
],
"output_format": "png",
"usage": {
"total_tokens": 5234,
"input_tokens": 234,
"output_tokens": 5000,
"input_tokens_details": {
"text_tokens": 234,
"image_tokens": 0
}
}
}
图生图接口 (POST /images/edits)
接口说明: 基于输入图像和文本描述生成新的图像,支持图像编辑、风格转换和内容修改。
Header 参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| Authorization | string | 是 | API Key,格式:Bearer YOUR_API_KEY |
| Content-Type | string | 是 | 请求内容类型,固定值:application/json |
Body 参数 (JSON)
| 参数名 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| model | string | 是 | - | 图像生成模型名称 详细说明: • 可选值: gemini-3.0-pro-image-preview、gemini-2.5-flash-image• 不同模型支持的参数和功能可能有所不同 |
| image | string 或 array | 是 | - | 输入图像,支持以下格式 详细说明: • Base64 data URI:使用 data:image/png;base64, 前缀 + Base64 编码的图像数据• 图片 URL:可访问的公网图片链接,如 https://example.com/image.jpg• 数组形式:支持传入多张图片,格式为 ["url1", "url2"] 或混合 data URI 和 URL• 建议使用高质量的输入图像以获得更好的编辑效果 |
| prompt | string | 是 | - | 图像编辑的文本描述提示词 详细说明: • 清晰描述期望的编辑效果 • 包含风格、色彩、构图等具体细节 • 使用逗号分隔不同的描述要素 • 示例: - "将图片中的天空改为日落时分的橙红色,增加温暖的氛围"- "将照片转换为油画风格,保持主体不变,增强色彩饱和度"- "移除背景中的杂物,让背景变得简洁干净" |
| image_config | object | 否 | - | 图像配置对象,用于控制图像比例和分辨率(推荐使用) 详细说明: • 包含以下字段: - aspect_ratio (string, 可选):图像宽高比 可选值: 1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9- image_size (string, 可选):图像分辨率 仅 gemini-3.0-pro-image-preview 模型支持可选值: 1K、2K、4K• 示例: {"aspect_ratio": "9:16","image_size": "4K"} |
| temperature | float | 否 | - | 生成温度,取值范围:0.0-2.0 详细说明: • 控制生成的随机性和创意性 • 较低的值(如 0.2)使输出更确定和一致 • 较高的值(如 1.0)使输出更随机和创意 |
| top_p | float | 否 | - | 核采样参数,取值范围:0.0-1.0 详细说明: • 用于控制生成的多样性 • 较低的值会使生成更集中于高概率选项 • 注意:不建议同时修改 temperature 和 top_p |
| top_k | integer | 否 | - | Top-K 采样参数,最小值:1 详细说明: • 限制每步采样时考虑的候选项数量 |
响应体说明
图生图接口采用同步调用,请求成功后会立即返回生成的图像数据。响应格式与文生图接口相同:
| 字段名 | 类型 | 说明 |
|---|---|---|
| created | integer | 响应创建时间戳(Unix 时间戳,秒) |
| data | array | 生成的图像数据数组 |
| data[].b64_json | string | Base64 编码的图像数据 |
| output_format | string | 输出格式,默认为 png |
| usage | object | Token 使用统计信息 |
| usage.total_tokens | integer | 总 token 数 |
| usage.input_tokens | integer | 输入 token 数(包括文本和图像) |
| usage.output_tokens | integer | 输出 token 数(图像生成消耗) |
| usage.input_tokens_details | object | 输入 token 详情 |
| usage.input_tokens_details.text_tokens | integer | 文本提示词消耗的 token 数 |
| usage.input_tokens_details.image_tokens | integer | 输入图像消耗的 token 数 |
响应示例:
{
"created": 1234567890,
"data": [
{
"b64_json": "iVBORw0KGgoAAAANSUhEUgA..."
}
],
"output_format": "png",
"usage": {
"total_tokens": 6234,
"input_tokens": 1234,
"output_tokens": 5000,
"input_tokens_details": {
"text_tokens": 234,
"image_tokens": 1000
}
}
}
HTTP 调用示例
使用 /chat/completions 接口进行文生图
使用对话接口进行文生图:
# 使用 /chat/completions 接口进行文生图
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"stream": true,
"messages": [
{
"role": "user",
"content": "画一只可爱的橘猫,坐在窗台上看着夕阳"
}
]
}'
使用 /chat/completions 接口进行图生图
使用对话接口进行图像编辑,可以获得模型的思考过程:
# 使用 /chat/completions 接口进行图生图
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"stream": true,
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Change this image to red."
},
{
"type": "image_url",
"image_url": {
"url": "https://aitoken-public.qnaigc.com/example/generate-image/image-to-image-1.jpg"
}
}
]
}
]
}'
使用 /chat/completions 接口进行纯对话
使用对话接口进行纯对话,不生成图像:
# 使用 /chat/completions 接口进行纯对话
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"stream": true,
"messages": [
{
"role": "user",
"content": "你好,请介绍一下 Gemini 模型的特点"
}
]
}'
基础文生图
使用 Gemini 模型生成高质量图像:
# 调用 Gemini 文生图 API
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/images/generations" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"prompt": "一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质"
}'
使用 image_config 控制分辨率
使用 image_config 参数控制图像比例和分辨率:
# 使用 image_config 参数生成 4K 图像
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/images/generations" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"prompt": "一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质",
"image_config": {
"aspect_ratio": "16:9",
"image_size": "4K"
}
}' | jq -r '.data[0].b64_json' | base64 -d > generated_image.png

使用采样参数控制生成
使用高级采样参数控制图像生成效果:
# 使用采样参数控制图像生成
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/images/generations" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"prompt": "梦幻森林中的精灵小屋,魔法光芒环绕",
"temperature": 0.8,
"top_p": 0.95
}'
基础图生图
使用图片 URL 进行图生图编辑:
# 使用图片 URL 进行图生图
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/images/edits" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"image": "https://aitoken-public.qnaigc.com/example/generate-video/running-man.jpg",
"prompt": "为这个场景添加日落效果,让整体色调更温暖"
}'
使用多张输入图像
使用多张图像作为输入进行创意组合:
# 使用多张图像作为输入
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/images/edits" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"image": [
"https://aitoken-public.qnaigc.com/example/generate-video/running-man.jpg",
"https://aitoken-public.qnaigc.com/example/generate-video/lawn.jpg"
],
"prompt": "结合这两张图片的风格,生成一张新的艺术作品"
}'
使用遮罩进行精确编辑
使用遮罩图像指定需要编辑的区域:
# 使用遮罩进行精确编辑
export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
export OPENAI_API_KEY="<七牛云 AI API KEY>"
curl "$OPENAI_BASE_URL/images/edits" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"image": ["https://aitoken-public.qnaigc.com/example/generate-image/image-to-image-with-mask-1.jpg","https://aitoken-public.qnaigc.com/example/generate-image/image-to-image-with-mask-2.png"],
"prompt": "使用第二张图片作为遮罩图,仅在遮罩图中的白色区域允许生成内容。在第一张图片的对应位置添加两个人正在拥抱的场景。遮罩以白色区域为可生成区域,黑色区域保持第一张图片不变,不要修改遮罩外的背景、建筑或已有物体。不要把遮罩的白色保留到第一个图片。",
"image_config": {
"aspect_ratio": "16:9",
"image_size": "1K"
}
}'

保存生成的图像
使用命令行工具提取并保存 Base64 编码的图像:
# 使用 jq 和 base64 命令提取并保存图像
curl "$OPENAI_BASE_URL/images/generations" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "gemini-3.0-pro-image-preview",
"prompt": "一只可爱的橘猫"
}' | jq -r '.data[0].b64_json' | base64 -d > generated_image.png
常见问题
Q: Gemini 模型的文生图和图生图有什么区别?
A: 文生图 (/images/generations) 是纯粹根据文本描述生成全新的图像;图生图 (/images/edits) 则是基于输入的图像进行编辑和改造,可以保留原图的部分特征。
Q: /chat/completions 接口与专用图像接口有什么区别?
A: /chat/completions 接口相比 /images/generations 和 /images/edits 有以下特点:
- 支持流式输出:可以实时查看生成进度,提升用户体验
- 展示思考过程:返回
reasoning_content字段,包含模型的推理过程 - 更灵活:同一接口既可以生成图像,也可以进行纯文本对话
- 多模态交互:在对话中自然地混合文本和图像输入
Q: 什么时候应该使用 /chat/completions 接口?
A: 建议在以下场景使用 /chat/completions 接口:
- 需要实时反馈和流式输出的应用
- 希望查看模型思考过程,了解生成逻辑
- 需要在对话中灵活切换文本和图像交互
- 构建对话式图像编辑应用
如果只需要简单的图像生成,推荐使用专用的 /images/generations 或 /images/edits 接口。
Q: 如何使用返回的 Base64 图像数据?
A: 响应中的 b64_json 字段包含 Base64 编码的图像数据,可以:
- 在 HTML 中直接显示:
<img src="data:image/png;base64,iVBORw0KGgo..." /> - 使用命令行工具保存:
echo "base64_data" | base64 -d > image.png - 在应用程序中解码并保存为文件
Q: 如何提高图像生成质量?
A:
- 详细的提示词:描述越详细,生成效果越好
- 包含关键要素:风格、光线、构图、色彩等
- 使用具体的风格描述:如"专业摄影"、“高清画质”、"4K 分辨率"等
- 使用高分辨率配置:在
image_config中设置image_size为4K
Q: 图生图如何控制生成结果更接近原图?
A: 可以使用以下方法:
- 使用更具体的 prompt 描述期望的编辑效果
- 使用较低的 temperature 值(如 0.2-0.5)使输出更确定
- 使用遮罩(mask)参数指定需要编辑的特定区域
Q: 如何处理多张输入图像?
A: 将 image 参数设置为数组格式,如 ["url1", "url2"],模型会结合多张输入图像的特征进行编辑。支持混合使用 data URI 和 URL。
Q: 遮罩图像 (mask) 应该如何制作?
A: 遮罩图像应该是黑白图像:
- 白色区域 (#FFFFFF):表示需要编辑的区域
- 黑色区域 (#000000):表示保持不变的区域
- 灰色区域:会部分应用编辑效果
您可以使用 Photoshop、GIMP 等图像编辑软件创建遮罩图像。
Q: 支持哪些输入图像格式?
A: 支持常见的图像格式,包括 PNG、JPEG、WebP 等。可以通过以下方式提供输入图像:
- Base64 data URI(如
data:image/png;base64,...) - 公网可访问的图片 URL(如
https://example.com/image.jpg)
Q: 如何将生成的图像保存到七牛云对象存储?
A: 推荐使用七牛对象存储来存储生成的图像。我们提供了多种语言的上传 SDK,简单易用,欢迎查看我们的【SDK 中心】来了解。更多对象存储信息欢迎参考对象存储的【产品使用文档】。
Q: 生成一张图像大约需要多少 tokens?
A: Token 消耗取决于多个因素:
- 提示词长度(input_tokens 中的 text_tokens)
- 输入图像大小(仅图生图,input_tokens 中的 image_tokens)
- 输出图像分辨率(output_tokens)
具体消耗量会在响应的 usage 字段中返回。