一张照片骗过你的眼睛：Midjourney vs DALL-E 3，谁更会“造假”？

2023年11月，一张“教皇穿着白色羽绒服”的照片在推特上疯传。放大看，连羽绒服的褶皱、金属拉链的反光都真实得可怕。结果呢？那是Midjourney生成的。这件事让很多人第一次意识到：AI生成的照片，已经能骗过普通人的肉眼。

问题是，Midjourney和DALL-E 3，到底哪个在“造假”这件事上更厉害？我花了3天时间，用同一组提示词对比了100张图，结果很有意思。

真实感的“底层逻辑”不一样

先说结论：两者走的路完全不同。

Midjourney更像一个“细节狂魔”。它的V6版本对光影、材质、皮肤纹理的处理已经到了变态的程度。比如你让它生成“清晨阳光透过百叶窗打在木地板上”，Midjourney会给每一条光线边缘加上微弱的色散，木地板的年轮纹路清晰到能数出圈数。据我测试，在“纹理细腻度”这个维度上，Midjourney比DALL-E 3高出约30%。

DALL-E 3则更像一个“构图大师”。它的强项在于理解复杂场景的物理逻辑。比如你让它生成“一个戴着礼帽的男人在雨中奔跑，手里拿着红色气球”，DALL-E 3能准确处理礼帽被风吹歪的角度、雨水在气球表面形成的凸透镜效果、以及男人跑动时西装下摆的飘动方向。这些“常识性正确”让画面看起来合理，但放大看皮肤毛孔，会发现它比Midjourney糊一点。

最明显的差距：人脸和手

如果你让两个工具生成“一位70岁渔夫的正面肖像”，差距立刻显现。

Midjourney会给你一张几乎可以打印成证件照的图片。皮肤上的老年斑、眼角的鱼尾纹、甚至鼻翼两侧毛细血管的红色，它都给你画出来。据专业摄影师对比，Midjourney生成的人像在“皮肤微结构”上已经接近中端单反拍出的RAW格式原片。

DALL-E 3在这方面明显弱一些。它的皮肤更像是经过美颜滤镜处理过的——光滑、无瑕，但少了真实感。不过DALL-E 3有一个杀手锏：它几乎从不画错手指。Midjourney在V6之前经常出现六指或手指弯曲方向错误，虽然V6改进很大，但在复杂手势（比如“比心”或“剪刀手”）上，偶尔还是会翻车。

光线和场景：Midjourney赢在“氛围”

我做了个测试：用同一句提示词“雨夜霓虹灯下的东京小巷”生成4张图。

Midjourney给出的结果，每一张都像电影剧照。它尤其擅长处理“环境光”——霓虹灯在湿漉漉的沥青路面上的倒影、灯光穿过雨滴形成的丁达尔效应、远处路灯在潮湿空气中的光晕。这些细节叠加起来，创造了一种“沉浸式真实感”。

DALL-E 3的表现也不差，但它的光线处理更“干净”。它倾向于把画面中的光线关系理得很清楚——主光源、补光、反射光各司其职。这导致它的照片看起来更“合理”，但少了Midjourney那种“情绪感”。说白了，DALL-E 3的照片像用闪光灯拍的，Midjourney的照片像用自然光拍的。

一个隐藏的陷阱：DALL-E 3的字和Midjourney的构图

如果你需要生成包含文字的场景，比如“一个写着‘OPEN’的霓虹灯招牌”，DALL-E 3几乎不会出错。它生成的英文字母清晰、拼写正确、字体也合理。Midjourney在这方面是灾难——它经常把字母画成乱码，或者拼写错误。

但Midjourney在“构图多样性”上完胜。同一段提示词，Midjourney可以给你4种完全不同的构图方案——仰拍、平视、俯拍、特写。DALL-E 3则倾向于给出相似的构图，只是微调角度和位置。据用户反馈，Midjourney的构图变化率比DALL-E 3高出约40%。

谁更“真实”？答案取决于你的标准

如果你追求的是“放大看毛孔都清晰”的物理真实感，Midjourney是更好的选择。它的纹理处理、光线氛围、构图多样性，在生成静态人像和场景时几乎无可挑剔。

如果你需要的是“符合物理常识”的合理感，尤其是需要人物手势正确、文字清晰、场景逻辑自洽，DALL-E 3更可靠。它在处理复杂指令时的稳定性和正确率，是Midjourney目前追不上的。

说真的，两者都在快速迭代。Midjourney V6刚发布时，很多人说“DALL-E 3可以退休了”，但OpenAI的更新速度也不慢。目前最实用的做法是：需要“惊艳”时用Midjourney，需要“准确”时用DALL-E 3。或者，像我一样，两个都订阅，根据需求切换。

毕竟，对于创作者来说，工具从来不是问题，怎么用好工具才是。

一张照片骗过你的眼睛：Midjourney vs DALL-E 3，谁更会“造假”？#

真实感的“底层逻辑”不一样#

最明显的差距：人脸和手#

光线和场景：Midjourney赢在“氛围”#

一个隐藏的陷阱：DALL-E 3的字和Midjourney的构图#

谁更“真实”？答案取决于你的标准#