谷歌「最强图像模型」横扫一切！3毛钱P图打懵OpenAI

xinwen.mobi · 发表于 2025-9-1 00:47:54

2025年8月26日，谷歌发布了其最新的图像生成和编辑模型Gemini 2.5 Flash Image，被网友誉为“最强图像模型”。Gemini 2.5 Flash Image的核心亮点包括：角色一致性：为模型提供参考图像，它便能生成新的视觉内容，在不同的姿势、光照、环境或风格中保持角色、主体或对象的相似性。例如，用户仅需上传一张自拍，就能生成从50年代到00年代的六张写真，每张都有当时的年代风格，但用户的面貌并没有出现明显的偏离。提示编辑：支持通过自然语言进行目标化转换和精确的局部编辑。比如可以模糊图像背景、去除T恤上的污渍、从照片中移除整个人物、更改主体姿势、为黑白照片上色等。原生世界知识：受益于Gemini的全球知识，能够理解现实世界的深层语义。例如，它可以理解手绘的各类画面，并解答用户提出的各类问题，还能根据图像内容预测未来的变化，如看到气球飞向仙人掌时，能生成气球破碎的画面。多图像融合：能够理解和融合多张输入图像，可以将某个对象放入场景中，使用配色方案或纹理重新设计房间风格，并通过单个提示融合图像，最多可以融合三个输入中的不同元素。在LMArena盲测中，Gemini 2.5 Flash Image成绩一骑绝尘，盲测了500多万场，获得超250万选票，以171分优势领先第二名flux - 1 - knotext - max，取得了LMArena竞技场历史上最大的Elo分数领先优势。此外，Gemini 2.5 Flash Image的价格为每百万输出token 30.00美元，每张图片为1290个输出token，即每张图片约0.039美元，约合人民币0.28元，远低于OpenAI的0.19美元/张的价格。

		自动登录	找回密码
密码			立即注册

谷歌「最强图像模型」横扫一切！3毛钱P图打懵OpenAI

相关帖子