AI 大模型推理

  • AI 大模型推理 > API 文档 > 图片生成 (gemini系列)

    图片生成 (gemini系列)

    最近更新时间: 2025-12-25 19:05:55

    七牛云 AI 大模型推理 API 支持 Google Gemini 系列模型的图像生成功能,包括文生图(Text-to-Image)和图生图(Image-to-Image),兼容 OpenAI Images API 接口格式,方便您集成到各种业务和应用场景中。

    Gemini 模型核心特点

    • 同步接口: Gemini 模型采用同步调用方式,请求后直接返回生成结果
    • Base64 返回格式: 接口返回的图片是 Base64 编码而不是 URL
    • 高质量生成: 支持高质量的图像生成和编辑
    • 最高支持输出4K图片: gemini-3.0-pro-image-preview 模型支持多种分辨率配置(1K、2K、4K),gemini-2.5-flash-image 仅支持1K
    • 丰富比例: 支持多种宽高比例(1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9)
    • 多种功能:
      • 文生图 (Text-to-Image): 根据文本描述生成图像
      • 图生图 (Image-to-Image): 基于参考图片进行编辑和改造
      • 多图输入: 支持多张参考图片同时输入
      • 遮罩编辑: 支持使用遮罩指定编辑区域

    接口说明

    Token API 接入点

    七牛云 AI 大模型推理 API 接入域名:

    支持接口列表

    接口名 说明
    /chat/completions 通用对话接口,支持文生图、图生图、纯对话
    输出格式:Base64 编码的图像数据,支持流式输出,可展示思考过程
    /images/generations 文生图接口,根据文本描述生成图像
    输出格式:Base64 编码的图像数据
    /images/edits 图生图接口,根据输入图像和文本描述生成新的图像
    输出格式:Base64 编码的图像数据

    支持的模型

    模型 ID 模型名称 说明 状态
    gemini-3.0-pro-image-preview Gemini 3.0 Pro Image Preview (🍌 Nano Banana Pro) 又称 Nano Banana Pro,谷歌最新预览版图像模型,提供更强大的图像编辑和生成能力,支持复杂的图像处理任务,支持输出4K高分辨率图像 ✅ 已上线
    gemini-2.5-flash-image Gemini 2.5 Flash Image (🍌 Nano Banana) 又称 Nano Banana,谷歌的快速图像模型,支持高质量图像生成和编辑 ✅ 已上线

    请求参数说明

    对话接口 (POST /chat/completions)

    接口说明: 通用对话接口,支持 Gemini 模型的文生图、图生图和纯对话功能。相比专用图像接口,此接口具有以下特点:

    • 支持流式输出:可以实时接收生成进度
    • 展示思考过程:返回模型的推理过程(reasoning_content)
    • 更灵活的交互:可以只聊天不生图,也可以生成图像

    Header 参数

    参数名 类型 必填 说明
    Authorization string API Key,格式:Bearer YOUR_API_KEY
    Content-Type string 请求内容类型,固定值:application/json

    Body 参数 (JSON)

    参数名 类型 必填 默认值 说明
    model string - 模型名称
    详细说明
    • 可选值:gemini-3.0-pro-image-previewgemini-2.5-flash-image
    • 同一模型支持聊天和图像生成
    messages array - 对话消息数组
    详细说明
    • 每个消息包含 role 和 content 字段
    • role 可以是 “user” 或 “assistant”
    • content 可以是字符串(纯文本)或对象数组(多模态)
    • 多模态 content 支持:
      - text 类型:文本内容
      - image_url 类型:图片 URL 或 Base64 data URI
    stream boolean false 是否启用流式输出
    详细说明
    • true:流式返回,可实时接收生成进度
    • false:等待生成完成后返回完整结果
    image_config object - 图像配置对象,用于控制图像比例和分辨率(推荐使用)
    详细说明
    • 包含以下字段:
      - aspect_ratio (string, 可选):图像宽高比
        可选值:1:12:33:23:44:34:55:49:1616:921:9
      - image_size (string, 可选):图像分辨率
        仅 gemini-3.0-pro-image-preview 模型支持
        可选值:1K2K4K
    • 示例:{"aspect_ratio": "9:16","image_size": "4K"}
    temperature float - 生成温度,取值范围:0.0-2.0
    top_p float - 核采样参数,取值范围:0.0-1.0
    top_k integer - Top-K 采样参数,最小值:1

    响应体说明

    对话接口采用同步或流式调用,响应格式如下:

    字段名 类型 说明
    id string 对话完成 ID
    object string 对象类型,固定值:chat.completion
    created integer 响应创建时间戳(Unix 时间戳,秒)
    model string 使用的模型名称
    choices array 生成结果数组
    choices[].index integer 结果索引
    choices[].message object 消息对象
    choices[].message.role string 角色,固定值:assistant
    choices[].message.content string 文本内容(如果只是聊天)
    choices[].message.reasoning_content string 模型的思考过程和推理内容
    choices[].message.images array 生成的图像数组(如果有图像生成)
    choices[].message.images[].type string 图像类型,固定值:image_url
    choices[].message.images[].image_url object 图像 URL 对象
    choices[].message.images[].image_url.url string Base64 data URI 格式的图像数据
    choices[].message.images[].index integer 图像索引,从 0 开始
    choices[].finish_reason string 完成原因,通常为 stop
    usage object Token 使用统计信息
    usage.prompt_tokens integer 输入 token 数
    usage.completion_tokens integer 输出 token 数
    usage.total_tokens integer 总 token 数
    usage.prompt_tokens_details object 输入 token 详情
    usage.prompt_tokens_details.text_tokens integer 文本 token 数
    usage.completion_tokens_details object 输出 token 详情
    usage.completion_tokens_details.reasoning_tokens integer 推理 token 数
    usage.completion_tokens_details.image_tokens integer 图像 token 数

    响应示例(图生图):

    {
      "id": "chatcmpl-2f8236e9f2b34bd391289576d0e23e72",
      "object": "chat.completion",
      "created": 1764574464,
      "model": "gemini-3.0-pro-image-preview",
      "choices": [
        {
          "index": 0,
          "message": {
            "role": "assistant",
            "content": "",
            "reasoning_content": "**Analyzing the Icon Redesign**\n\nI'm focused on the icon's elements, taking note of the rounded rectangle, the \"Ocr\" text, and the camera viewfinder with dots. My current work involves mentally converting the black elements to red.\n\n\n**Considering Color Swaps**\n\nI've been thinking about the color transformation. The goal is a straightforward color swap: black to red. I'm prioritizing the main \"Ocr\" text, the viewfinder, and the dots within the icon. Maintaining the original style is key to a smooth transition.\n\n\n**Verifying Color Changes**\n\nI'm verifying that the image accurately reflects the color adjustments requested. The model successfully altered the designated elements, precisely as instructed. The execution is an accurate translation of the color modification instructions. The outcome seems to fulfill the prompt's requirements.\n\n\n**Analyzing Precise Transformations**\n\nI've examined the changes made to the image based on the prompt. The model successfully isolated and modified the black components, converting them to red. The output is a direct application of the requested color shift. I'm satisfied that it matches the user's intent.\n\n\n",
            "images": [
              {
                "type": "image_url",
                "image_url": {
                  "url": "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABYAAAAMACAIAAAASU1SbA.........."
                },
                "index": 0
              }
            ]
          },
          "finish_reason": "stop"
        }
      ],
      "usage": {
        "prompt_tokens": 19,
        "completion_tokens": 1322,
        "total_tokens": 1341,
        "prompt_tokens_details": {
          "text_tokens": 19
        },
        "completion_tokens_details": {
          "reasoning_tokens": 202,
          "image_tokens": 1120
        }
      }
    }
    

    文生图接口 (POST /images/generations)

    接口说明: 根据文本描述生成全新的图像,支持多种分辨率和宽高比配置。

    Header 参数

    参数名 类型 必填 说明
    Authorization string API Key,格式:Bearer YOUR_API_KEY
    Content-Type string 请求内容类型,固定值:application/json

    Body 参数 (JSON)

    参数名 类型 必填 默认值 说明
    model string - 图像生成模型名称
    详细说明
    • 可选值:gemini-3.0-pro-image-previewgemini-2.5-flash-image
    • 不同模型支持的参数和功能可能有所不同
    prompt string - 图像生成的文本描述提示词
    详细说明
    • 建议:提示词越详细、具体,生成的图像质量越好
    • 建议包含:风格、光线、构图、色彩等细节
    • 使用逗号分隔不同的描述要素
    • 示例:"一只橘色的猫,坐在窗台上,温暖的阳光,柔和的阴影,专业摄影,高清画质,4K 分辨率"
    image_config object - 图像配置对象,用于控制图像比例和分辨率(推荐使用)
    详细说明
    • 包含以下字段:
      - aspect_ratio (string, 可选):图像宽高比
        可选值:1:12:33:23:44:34:55:49:1616:921:9
      - image_size (string, 可选):图像分辨率
        仅 gemini-3.0-pro-image-preview 模型支持
        可选值:1K2K4K
    • 示例:{"aspect_ratio": "9:16","image_size": "4K"}
    temperature float - 生成温度,取值范围:0.0-2.0
    详细说明
    • 控制生成的随机性和创意性
    • 较低的值(如 0.2)使输出更确定和一致
    • 较高的值(如 1.0)使输出更随机和创意
    top_p float - 核采样参数,取值范围:0.0-1.0
    详细说明
    • 用于控制生成的多样性
    • 较低的值会使生成更集中于高概率选项
    • 注意:不建议同时修改 temperature 和 top_p
    top_k integer - Top-K 采样参数,最小值:1
    详细说明
    • 限制每步采样时考虑的候选项数量

    响应体说明

    文生图接口采用同步调用,请求成功后会立即返回生成的图像数据。响应体包含以下字段:

    字段名 类型 说明
    created integer 响应创建时间戳(Unix 时间戳,秒)
    data array 生成的图像数据数组
    data[].b64_json string Base64 编码的图像数据
    output_format string 输出格式,默认为 png
    usage object Token 使用统计信息
    usage.total_tokens integer 总 token 数
    usage.input_tokens integer 输入 token 数
    usage.output_tokens integer 输出 token 数(图像生成消耗)
    usage.input_tokens_details object 输入 token 详情
    usage.input_tokens_details.text_tokens integer 文本 token 数
    usage.input_tokens_details.image_tokens integer 图像 token 数

    响应示例:

    {
      "created": 1234567890,
      "data": [
        {
          "b64_json": "iVBORw0KGgoAAAANSUhEUgA..."
        }
      ],
      "output_format": "png",
      "usage": {
        "total_tokens": 5234,
        "input_tokens": 234,
        "output_tokens": 5000,
        "input_tokens_details": {
          "text_tokens": 234,
          "image_tokens": 0
        }
      }
    }
    

    图生图接口 (POST /images/edits)

    接口说明: 基于输入图像和文本描述生成新的图像,支持图像编辑、风格转换和内容修改。

    Header 参数

    参数名 类型 必填 说明
    Authorization string API Key,格式:Bearer YOUR_API_KEY
    Content-Type string 请求内容类型,固定值:application/json

    Body 参数 (JSON)

    参数名 类型 必填 默认值 说明
    model string - 图像生成模型名称
    详细说明
    • 可选值:gemini-3.0-pro-image-previewgemini-2.5-flash-image
    • 不同模型支持的参数和功能可能有所不同
    image string 或 array - 输入图像,支持以下格式
    详细说明
    Base64 data URI:使用 data:image/png;base64, 前缀 + Base64 编码的图像数据
    图片 URL:可访问的公网图片链接,如 https://example.com/image.jpg
    数组形式:支持传入多张图片,格式为 ["url1", "url2"] 或混合 data URI 和 URL
    • 建议使用高质量的输入图像以获得更好的编辑效果
    prompt string - 图像编辑的文本描述提示词
    详细说明
    • 清晰描述期望的编辑效果
    • 包含风格、色彩、构图等具体细节
    • 使用逗号分隔不同的描述要素
    • 示例:
      - "将图片中的天空改为日落时分的橙红色,增加温暖的氛围"
      - "将照片转换为油画风格,保持主体不变,增强色彩饱和度"
      - "移除背景中的杂物,让背景变得简洁干净"
    image_config object - 图像配置对象,用于控制图像比例和分辨率(推荐使用)
    详细说明
    • 包含以下字段:
      - aspect_ratio (string, 可选):图像宽高比
        可选值:1:12:33:23:44:34:55:49:1616:921:9
      - image_size (string, 可选):图像分辨率
        仅 gemini-3.0-pro-image-preview 模型支持
        可选值:1K2K4K
    • 示例:{"aspect_ratio": "9:16","image_size": "4K"}
    temperature float - 生成温度,取值范围:0.0-2.0
    详细说明
    • 控制生成的随机性和创意性
    • 较低的值(如 0.2)使输出更确定和一致
    • 较高的值(如 1.0)使输出更随机和创意
    top_p float - 核采样参数,取值范围:0.0-1.0
    详细说明
    • 用于控制生成的多样性
    • 较低的值会使生成更集中于高概率选项
    • 注意:不建议同时修改 temperature 和 top_p
    top_k integer - Top-K 采样参数,最小值:1
    详细说明
    • 限制每步采样时考虑的候选项数量

    响应体说明

    图生图接口采用同步调用,请求成功后会立即返回生成的图像数据。响应格式与文生图接口相同:

    字段名 类型 说明
    created integer 响应创建时间戳(Unix 时间戳,秒)
    data array 生成的图像数据数组
    data[].b64_json string Base64 编码的图像数据
    output_format string 输出格式,默认为 png
    usage object Token 使用统计信息
    usage.total_tokens integer 总 token 数
    usage.input_tokens integer 输入 token 数(包括文本和图像)
    usage.output_tokens integer 输出 token 数(图像生成消耗)
    usage.input_tokens_details object 输入 token 详情
    usage.input_tokens_details.text_tokens integer 文本提示词消耗的 token 数
    usage.input_tokens_details.image_tokens integer 输入图像消耗的 token 数

    响应示例:

    {
      "created": 1234567890,
      "data": [
        {
          "b64_json": "iVBORw0KGgoAAAANSUhEUgA..."
        }
      ],
      "output_format": "png",
      "usage": {
        "total_tokens": 6234,
        "input_tokens": 1234,
        "output_tokens": 5000,
        "input_tokens_details": {
          "text_tokens": 234,
          "image_tokens": 1000
        }
      }
    }
    

    HTTP 调用示例

    使用 /chat/completions 接口进行文生图

    使用对话接口进行文生图:

    # 使用 /chat/completions 接口进行文生图
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/chat/completions" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "stream": true,
            "messages": [
                {
                    "role": "user",
                    "content": "画一只可爱的橘猫,坐在窗台上看着夕阳"
                }
            ]
        }'
    

    使用 /chat/completions 接口进行图生图

    使用对话接口进行图像编辑,可以获得模型的思考过程:

    # 使用 /chat/completions 接口进行图生图
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/chat/completions" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "stream": true,
            "messages": [
                {
                    "role": "user",
                    "content": [
                        {
                            "type": "text",
                            "text": "Change this image to red."
                        },
                        {
                            "type": "image_url",
                            "image_url": {
                                "url": "https://aitoken-public.qnaigc.com/example/generate-image/image-to-image-1.jpg"
                            }
                        }
                    ]
                }
            ]
        }'
    

    使用 /chat/completions 接口进行纯对话

    使用对话接口进行纯对话,不生成图像:

    # 使用 /chat/completions 接口进行纯对话
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/chat/completions" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "stream": true,
            "messages": [
                {
                    "role": "user",
                    "content": "你好,请介绍一下 Gemini 模型的特点"
                }
            ]
        }'
    

    基础文生图

    使用 Gemini 模型生成高质量图像:

    # 调用 Gemini 文生图 API
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/images/generations" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "prompt": "一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质"
        }'
    

    使用 image_config 控制分辨率

    使用 image_config 参数控制图像比例和分辨率:

    # 使用 image_config 参数生成 4K 图像
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/images/generations" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "prompt": "一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质",
            "image_config": {
                "aspect_ratio": "16:9",
                "image_size": "4K"
            }
        }'  | jq -r '.data[0].b64_json' | base64 -d > generated_image.png
    

    4K 图像

    使用采样参数控制生成

    使用高级采样参数控制图像生成效果:

    # 使用采样参数控制图像生成
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/images/generations" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "prompt": "梦幻森林中的精灵小屋,魔法光芒环绕",
            "temperature": 0.8,
            "top_p": 0.95
        }'
    

    基础图生图

    使用图片 URL 进行图生图编辑:

    # 使用图片 URL 进行图生图
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/images/edits" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "image": "https://aitoken-public.qnaigc.com/example/generate-video/running-man.jpg",
            "prompt": "为这个场景添加日落效果,让整体色调更温暖"
        }'
    

    使用多张输入图像

    使用多张图像作为输入进行创意组合:

    # 使用多张图像作为输入
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/images/edits" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "image": [
                "https://aitoken-public.qnaigc.com/example/generate-video/running-man.jpg",
                "https://aitoken-public.qnaigc.com/example/generate-video/lawn.jpg"
            ],
            "prompt": "结合这两张图片的风格,生成一张新的艺术作品"
        }'
    

    使用遮罩进行精确编辑

    使用遮罩图像指定需要编辑的区域:

    # 使用遮罩进行精确编辑
    export OPENAI_BASE_URL="https://api.qnaigc.com/v1"
    export OPENAI_API_KEY="<七牛云 AI API KEY>"
    
    curl "$OPENAI_BASE_URL/images/edits" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "image": ["https://aitoken-public.qnaigc.com/example/generate-image/image-to-image-with-mask-1.jpg","https://aitoken-public.qnaigc.com/example/generate-image/image-to-image-with-mask-2.png"],
            "prompt": "使用第二张图片作为遮罩图,仅在遮罩图中的白色区域允许生成内容。在第一张图片的对应位置添加两个人正在拥抱的场景。遮罩以白色区域为可生成区域,黑色区域保持第一张图片不变,不要修改遮罩外的背景、建筑或已有物体。不要把遮罩的白色保留到第一个图片。",
            "image_config": {
                "aspect_ratio": "16:9",
                "image_size": "1K"
            }
        }'
    

    使用遮罩进行精确编辑

    保存生成的图像

    使用命令行工具提取并保存 Base64 编码的图像:

    # 使用 jq 和 base64 命令提取并保存图像
    curl "$OPENAI_BASE_URL/images/generations" \
        -H "Content-Type: application/json" \
        -H "Authorization: Bearer $OPENAI_API_KEY" \
        -d '{
            "model": "gemini-3.0-pro-image-preview",
            "prompt": "一只可爱的橘猫"
        }' | jq -r '.data[0].b64_json' | base64 -d > generated_image.png
    

    常见问题

    Q: Gemini 模型的文生图和图生图有什么区别?

    A: 文生图 (/images/generations) 是纯粹根据文本描述生成全新的图像;图生图 (/images/edits) 则是基于输入的图像进行编辑和改造,可以保留原图的部分特征。

    Q: /chat/completions 接口与专用图像接口有什么区别?

    A: /chat/completions 接口相比 /images/generations/images/edits 有以下特点:

    • 支持流式输出:可以实时查看生成进度,提升用户体验
    • 展示思考过程:返回 reasoning_content 字段,包含模型的推理过程
    • 更灵活:同一接口既可以生成图像,也可以进行纯文本对话
    • 多模态交互:在对话中自然地混合文本和图像输入

    Q: 什么时候应该使用 /chat/completions 接口?

    A: 建议在以下场景使用 /chat/completions 接口:

    • 需要实时反馈和流式输出的应用
    • 希望查看模型思考过程,了解生成逻辑
    • 需要在对话中灵活切换文本和图像交互
    • 构建对话式图像编辑应用

    如果只需要简单的图像生成,推荐使用专用的 /images/generations/images/edits 接口。

    Q: 如何使用返回的 Base64 图像数据?

    A: 响应中的 b64_json 字段包含 Base64 编码的图像数据,可以:

    • 在 HTML 中直接显示:<img src="data:image/png;base64,iVBORw0KGgo..." />
    • 使用命令行工具保存:echo "base64_data" | base64 -d > image.png
    • 在应用程序中解码并保存为文件

    Q: 如何提高图像生成质量?

    A:

    • 详细的提示词:描述越详细,生成效果越好
    • 包含关键要素:风格、光线、构图、色彩等
    • 使用具体的风格描述:如"专业摄影"、“高清画质”、"4K 分辨率"等
    • 使用高分辨率配置:在 image_config 中设置 image_size4K

    Q: 图生图如何控制生成结果更接近原图?

    A: 可以使用以下方法:

    • 使用更具体的 prompt 描述期望的编辑效果
    • 使用较低的 temperature 值(如 0.2-0.5)使输出更确定
    • 使用遮罩(mask)参数指定需要编辑的特定区域

    Q: 如何处理多张输入图像?

    A: 将 image 参数设置为数组格式,如 ["url1", "url2"],模型会结合多张输入图像的特征进行编辑。支持混合使用 data URI 和 URL。

    Q: 遮罩图像 (mask) 应该如何制作?

    A: 遮罩图像应该是黑白图像:

    • 白色区域 (#FFFFFF):表示需要编辑的区域
    • 黑色区域 (#000000):表示保持不变的区域
    • 灰色区域:会部分应用编辑效果

    您可以使用 Photoshop、GIMP 等图像编辑软件创建遮罩图像。

    Q: 支持哪些输入图像格式?

    A: 支持常见的图像格式,包括 PNG、JPEG、WebP 等。可以通过以下方式提供输入图像:

    • Base64 data URI(如 data:image/png;base64,...
    • 公网可访问的图片 URL(如 https://example.com/image.jpg

    Q: 如何将生成的图像保存到七牛云对象存储?

    A: 推荐使用七牛对象存储来存储生成的图像。我们提供了多种语言的上传 SDK,简单易用,欢迎查看我们的【SDK 中心】来了解。更多对象存储信息欢迎参考对象存储的【产品使用文档】。

    Q: 生成一张图像大约需要多少 tokens?

    A: Token 消耗取决于多个因素:

    • 提示词长度(input_tokens 中的 text_tokens)
    • 输入图像大小(仅图生图,input_tokens 中的 image_tokens)
    • 输出图像分辨率(output_tokens)

    具体消耗量会在响应的 usage 字段中返回。

    参考文档

    以上内容是否对您有帮助?