Nano Banana介绍
Nano Banana 是 Google 于 2024 年推出的革命性 AI 驱动图像生成与编辑模型,正式名称为 Gemini 2.5 Flash Image。以下是对它的详细介绍:
- 技术背景:Nano Banana 基于 Google DeepMind 最新的 Gemini 2.5 Flash Image 架构,采用原生多模态设计理念,将文本理解、图像生成、编辑处理等功能统一在一个模型中。它的发展历程可追溯至 2025 年上半年在 LMArena 的内测阶段,2025 年 8 月 26 日,Google 正式发布了 Gemini 2.5 Flash Image,并向公众开放了 API 及应用接口。
- 核心功能
- 文本到图像生成:不仅支持基础的文本描述转图像,更具备深度的语义理解能力,能根据描述性语言生成更具连贯性和视觉逻辑的图像,生成速度极快,通常在 1-2 秒内即可完成。
- 智能图像编辑:用户可以上传图片,通过自然语言指令进行精确的局部或全局编辑,如面部美化、体型调整、服装替换、背景替换等,编辑效果自然无痕,能精准执行复杂的自然语言指令。
- 角色一致性保持:这是 Nano Banana 最核心、最具突破性的功能,它能够让同一人物在不同场景、不同姿态、甚至不同服装下,保持可识别的、高度连贯的外观特征,其准确率据称高达 95% 以上。
- 多图融合与风格迁移:支持同时上传多张参考图片,能理解并整合不同输入图像中的对象、光照和空间关系,进行复杂的风格转移和场景重组,最多可同时处理 13 张图像。
- 使用平台
- Google AI Studio 平台:使用 Google 账户登录,Token 限制为 32,768 个,点击 “Chat” 功能,输入关键词或上传图片进行操作,支持时代穿越写真等预设应用,适合需要稳定使用的用户。
- OpenRouter 平台:可同时调用多个模型进行对比,提供免费版和付费版 nano - banana 模型,长期稳定使用建议选择付费版,免费版在高峰期可能出现排队或内部错误。
- 优势特点
- 速度快:生成速度极快,从内测阶段的约 10 秒,大幅优化至正式版的 1-2 秒,接近实时的响应速度,彻底改变了用户的创作工作流。
- 成本低:每张图成本约 0.039 美元(约合人民币 0.27 元),相比其他模型成本大幅降低,使得大规模应用成为可能。
- 免费使用:部分平台完全免费,无需注册,如在 OpenRouter 平台将 “battle” 模式切换为 “directchat”,系统自动调用 Gemini 2.5 Flash 模型(显示为 nano - banana),但由于是抽卡机制,可能需要多次尝试才能调用到该模型。
案例示范
首先打开Google AI Studio(需要爬梯子)
右上角有一个【模型选择】
PS:当前是默认选择了Nano Banana模型
点击左上角的【Chat】,在文本框中输入提示词和上传图片文件,然后点击右下角的按钮
以下是模型生成的结果图