AI生成图片，哪家强？

Wait 5 sec.

文 | 硅基星芒AI的渗透正无远弗届。正如很多插画网站，添加“AI生成”标签已是标配。从艺术角度看，AI生成的图片，似乎争议依然巨大。但不得不承认的是，在工作和学习中，AI图片生成却是一个提高效率的好办法。目前，多模态大模型领域中，支持文生图的模型数量正在指数级增长。为了解决大家的“选择困难症”，这次我们选择了6个模型进行测评。参赛选手如下：腾讯混元、智谱CogView-4、通义千问、即梦、可灵和Gemini 2.5 Flash Image。其中，前段时间在LMarena上爆火的模型nano-Banana，据说吊打一切文生图模型。现在也已经“验明正身”，正是8月27日Google发布的Gemini 2.5 Flash Image。在测评前，先叠个甲：对美术方面，实在是一窍不通。因此，我们不谈复杂的理论，也不聊晦涩的美术史。只是以一个普通人的视角，借助AI给出的评分标准，来评价一下到底“好不好看”。一家之言，仅供参考。01 第一维度：基础美学与真实感考验目标：AI的基本画功，好不好看、真不真实。题目：傍晚阳光下的少女Prompt: 超写实照片，一个有雀斑的年轻女子，面带微笑，在黄金时刻坐在窗边，温暖的阳光穿过她的头发，电影感光线，8K，高细节。评分标准：测评结果：腾讯：人物的皮肤质感过于光滑，仅有微小瑕疵。智谱：皮肤过于光滑，雀斑形状和分布过于均匀和刻意，属于明显瑕疵。千问：双手比例和形态非常不自然，完全没有写实感，“一眼AI”，属于明显瑕疵。即梦和可灵：非常出色，接近完美，不愧是“专业画手”。Gemini：皮肤质感过于光滑细腻，写实感还是差了一些。总体来说，对于人物的塑造，各个AI还是比较拿手的。虽然有些模型生成的图片略有瑕疵，但整体观感不错。02 第二维度：想象力与创意考验目标：AI的脑洞有多大，对于现实中不存在的事物的创造能力。题目：星云构成的雄狮Prompt: 一头雄伟的狮子，由旋转的星系和星云雕刻而成，宇宙尘埃构成了它的鬃毛，眼睛是闪烁的恒星，背景是深邃的宇宙。评分标准：测评结果：这一轮的题目看来对AI难度有点高了。腾讯：第一眼看上去很华丽，很有气势，但似乎理解出现了一些偏差。这并非一个由星云构成的生命体，而是一尊宇宙材质的宏伟雕像。智谱：生成了一个宇宙背景下的实体狮子，完全彻底的概念性跑偏。千问：“半神半兽”的感觉，实体狮子与星云的混合，离要求还是有一定差距。即梦：科幻感十足，但狮子身体仍然是实体而不是星云构成的，观感有一定新意。可灵：本轮的最佳选手，视觉效果很好，实现了与星云的融合。Gemini：狮子的实体也是不透明的，不过神韵、气质和细节都还不错。看来，对于现实中不存在的事物，AI出现概念理解错误的几率会大大增加，而想象能力也是目前模型有所欠缺的地方。可能的原因也比较多，例如训练数据存在一定的局限性、对物理世界存在路径依赖或是概念融合能力的欠缺。03 第三维度：指令理解与执行力考研目标：AI听不听话，能不能正确遵从指令。题目：水果篮里的数学题Prompt: 一个木碗里装着三个红苹果和两个黄香蕉，放在一张白色的桌子上。评分标准：测评结果：这肯定是人类眼中最简单的一道题，但对AI来说难度可不低。六个模型中，只有智谱、千问和Gemini正确完成了如此“简单”的指令。即梦和可灵都搞错了苹果的数量，而混元更是漏洞百出。根据这一轮的结果，我们也可以得到一个推断：AI生图模型并非按照我们的数学概念和美术流程来工作。或者说，它并不是按照我们最直接的思路，画一个苹果，再画一个香蕉，直到数目符合要求。指令中的3这个数字，对AI来说，并不代表一个精确的数量，而是一个需要渲染的“构图特征”。而在向量空间中，“三个苹果”和“四个苹果”可能是非常接近的。同时，我们也无法得知提供给上述AI的训练集到底是什么样的。但是，标签肯定是做不到完全精准的，AI只能长时间在海量但又不完全精确的数据中学习。AI的最终目标，是让生成的图片最接近于它见过的“三个苹果”，而不是“让生成的苹果数量等于3”。04 第四维度：风格模仿与驾驭力考验目标：AI模仿特定的艺术家或艺术流派的能力。题目：水墨风的机甲Prompt：一个巨大的中国古代机甲战士，站立在云雾缭绕的山谷中，中国传统水墨山水画风格。评分标准：测评结果：又是一道有点抽象的题目。表现最好的是Gemini，实打实绘制出了山水画风格，大体符合要求。千问生成的机甲看起来确实气势磅礴，细节处理也很到位，但很明显，这是素描而不是水墨风格，只能说是“有形无神”。即梦生成的图片也并非水墨画，而是带有写实感的数字绘画，更像是个游戏的概念设计图。可灵则发挥了优秀的拼接能力，在水墨风格的背景中插入了日式机甲，风格完全割裂。混元和智谱生成的图片则有些奇怪，水墨画风格没实现的同时，也没理解“机甲战士”这个主体，画中人更像是个古代武士，完全偏离了题目要求。如此看来，AI尚且不具备完全模仿某个艺术家或艺术流派的能力，能够做到“形似神不似”就实属不易。05 第五维度：文化理解与概念表达考验目标：AI能否理解特定的文化以及是否能够表达抽象的概念。题目：中秋佳节的汉服少女Prompt：一位美丽的年轻女孩，身穿中国传统汉服，庆祝中秋节，她手持一个精致的兔子灯笼，身后是明亮的满月。评分标准：测评结果：Gemini和可灵都拿下了相当高的分数，展现出了较高的文化素养。对于汉服的概念理解比较深刻，而月亮、灯笼、园林等文化元素也都齐全。推测其训练数据中，中国传统文化的相关素材标注是比较准确的。两家模型的算法能够把“汉服”等关键词正确关联到视觉特征上。即梦和千问在美观度和氛围塑造上也很成功，不过汉服的结构有些模糊。尽管这种古风画作可能意味着AI对于服饰历史知识的了解程度不够深刻，但满足“好看”这一要求仍然不在话下。智谱生成的则是唯一采用了动漫风格的图片，对历史文化的复现程度显然是太浅了。混元生图看似美观，但在服饰结构上有比较明显的错误，即一定程度上的文化混淆。因此，AI在文化表现上也是存在“双刃剑”效应的。顶级AI具备相当可观的文化知识，对于传播、创作优秀传统文化会有很大的帮助。而部分AI还存在“刻板印象”，受到低质量数据的影响，反而会加剧大众的文化误解。06 总评本次测评的总分如下：Gemini：44分可灵：40分即梦：39分千问：38.5分智谱：33.5分腾讯：28.5分从效果上来看，千问、即梦、可灵和Gemini的文生图效果都是很不错的。尤其是前身为nano-Banana的Gemini 2.5 Flash Image，拿到了最高的分数，证明了它并非浪得虚名。不过，我们的核心目标还是要透过现象看本质。人们总是惊叹于AI的“创造力”，它足够以假乱真，绘画水平也超越了大部分人。但事实上，AI输出的图片，并非源于类似人类的灵感或意图。AI作画，并非像一个画手一样，从一张白纸开始一笔一笔画出事物。而是从一张充满随机噪声点的“混沌画布”开始，根据提示词进行降噪。也就是说，AI作图并非基于逻辑推理，而是基于概率。对于苹果生成数量的错误，可能就是因为“构成一幅和谐的水果静物图”这个在训练数据中频繁出现的指令，其概率权重超过了“3”这个脆弱的数字符号。对于星云和狮子之间的挣扎，与“狮子”相关的像素模式可能是“实体”和“毛发”，而与“星云”相关的则是“气体”和“半透明”。AI无法同时满足两个相互矛盾的概率分布，因此降噪过程就无法成功。对于水墨风的机甲，则可能是AI背后的数据库在发挥作用。如果数据库中有大量“水墨”、“机甲”等高质量的标签，降噪过程也会被顺利引导至一个高质量的概率空间。简单的来说，AI不是在根据指令绘画，而是根据知识储备，试图通过降噪给出最可能符合指令的图像。至于错误，文生图是一个很复杂的过程，很遗憾，我们无法确切得知问题出在哪一环节。也因此，至少目前为止，我们并不是“创作者”，而是“概率的引导者”。更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App