一张照片骗过你的眼睛:Midjourney vs DALL-E 3,谁更会“造假”?

2023年11月,一张“教皇穿着白色羽绒服”的照片在推特上疯传。放大看,连羽绒服的褶皱、金属拉链的反光都真实得可怕。结果呢?那是Midjourney生成的。这件事让很多人第一次意识到:AI生成的照片,已经能骗过普通人的肉眼。

问题是,Midjourney和DALL-E 3,到底哪个在“造假”这件事上更厉害?我花了3天时间,用同一组提示词对比了100张图,结果很有意思。

真实感的“底层逻辑”不一样

先说结论:两者走的路完全不同。

Midjourney更像一个“细节狂魔”。它的V6版本对光影、材质、皮肤纹理的处理已经到了变态的程度。比如你让它生成“清晨阳光透过百叶窗打在木地板上”,Midjourney会给每一条光线边缘加上微弱的色散,木地板的年轮纹路清晰到能数出圈数。据我测试,在“纹理细腻度”这个维度上,Midjourney比DALL-E 3高出约30%。

DALL-E 3则更像一个“构图大师”。它的强项在于理解复杂场景的物理逻辑。比如你让它生成“一个戴着礼帽的男人在雨中奔跑,手里拿着红色气球”,DALL-E 3能准确处理礼帽被风吹歪的角度、雨水在气球表面形成的凸透镜效果、以及男人跑动时西装下摆的飘动方向。这些“常识性正确”让画面看起来合理,但放大看皮肤毛孔,会发现它比Midjourney糊一点。

最明显的差距:人脸和手

如果你让两个工具生成“一位70岁渔夫的正面肖像”,差距立刻显现。

Midjourney会给你一张几乎可以打印成证件照的图片。皮肤上的老年斑、眼角的鱼尾纹、甚至鼻翼两侧毛细血管的红色,它都给你画出来。据专业摄影师对比,Midjourney生成的人像在“皮肤微结构”上已经接近中端单反拍出的RAW格式原片。

DALL-E 3在这方面明显弱一些。它的皮肤更像是经过美颜滤镜处理过的——光滑、无瑕,但少了真实感。不过DALL-E 3有一个杀手锏:它几乎从不画错手指。Midjourney在V6之前经常出现六指或手指弯曲方向错误,虽然V6改进很大,但在复杂手势(比如“比心”或“剪刀手”)上,偶尔还是会翻车。

光线和场景:Midjourney赢在“氛围”

我做了个测试:用同一句提示词“雨夜霓虹灯下的东京小巷”生成4张图。

Midjourney给出的结果,每一张都像电影剧照。它尤其擅长处理“环境光”——霓虹灯在湿漉漉的沥青路面上的倒影、灯光穿过雨滴形成的丁达尔效应、远处路灯在潮湿空气中的光晕。这些细节叠加起来,创造了一种“沉浸式真实感”。

DALL-E 3的表现也不差,但它的光线处理更“干净”。它倾向于把画面中的光线关系理得很清楚——主光源、补光、反射光各司其职。这导致它的照片看起来更“合理”,但少了Midjourney那种“情绪感”。说白了,DALL-E 3的照片像用闪光灯拍的,Midjourney的照片像用自然光拍的。

一个隐藏的陷阱:DALL-E 3的字和Midjourney的构图

如果你需要生成包含文字的场景,比如“一个写着‘OPEN’的霓虹灯招牌”,DALL-E 3几乎不会出错。它生成的英文字母清晰、拼写正确、字体也合理。Midjourney在这方面是灾难——它经常把字母画成乱码,或者拼写错误。

但Midjourney在“构图多样性”上完胜。同一段提示词,Midjourney可以给你4种完全不同的构图方案——仰拍、平视、俯拍、特写。DALL-E 3则倾向于给出相似的构图,只是微调角度和位置。据用户反馈,Midjourney的构图变化率比DALL-E 3高出约40%。

谁更“真实”?答案取决于你的标准

如果你追求的是“放大看毛孔都清晰”的物理真实感,Midjourney是更好的选择。它的纹理处理、光线氛围、构图多样性,在生成静态人像和场景时几乎无可挑剔。

如果你需要的是“符合物理常识”的合理感,尤其是需要人物手势正确、文字清晰、场景逻辑自洽,DALL-E 3更可靠。它在处理复杂指令时的稳定性和正确率,是Midjourney目前追不上的。

说真的,两者都在快速迭代。Midjourney V6刚发布时,很多人说“DALL-E 3可以退休了”,但OpenAI的更新速度也不慢。目前最实用的做法是:需要“惊艳”时用Midjourney,需要“准确”时用DALL-E 3。或者,像我一样,两个都订阅,根据需求切换。

毕竟,对于创作者来说,工具从来不是问题,怎么用好工具才是。