一张假照片骗过300万人：Midjourney和DALL-E 3，谁更会“造假”？

2023年3月，一张“教皇方济各穿白色羽绒服”的照片在推特上疯传，转发量超过300万次。没人怀疑那是假的——直到有人发现教皇的手指少了一根。这张图出自Midjourney V5。几个月后，DALL-E 3生成的“宇航员骑马上班”系列同样刷屏，但细看之下，马的腿数经常出错。

两个AI图像生成器都在追求“真实感”，但方向完全不同。一个擅长光影和纹理，另一个更懂逻辑和结构。到底谁更接近“照片级”？

光影质感：Midjourney更像摄影师

拿同一段提示词做测试：“一位老人在雨中撑伞，黄昏，街灯亮起”。

Midjourney V6生成的结果，雨滴在灯光下的反光、伞面上的水渍、老人脸上的皱纹，几乎可以乱真。它把“黄昏”理解成色温偏暖的黄金时段，阴影边缘柔和，像用专业相机拍的。

DALL-E 3处理同一场景，光影更“平”。雨滴清晰但缺少折射感，老人皮肤质感像磨了皮。它更擅长还原“画面描述”而非“物理光照”。据OpenAI官方文档，DALL-E 3的训练数据里，标注了更多“物体是什么”，而不是“光线怎么打”。

说白了，如果你要一张能放进摄影展的图，Midjourney赢。

但Midjourney有个致命伤：它经常在细节上翻车。

还是那个老人撑伞的例子。Midjourney生成的伞，骨架上可能有7根辐条，但另一把同款伞只有5根。老人的手可能六根手指，或者拇指长在手掌背面。这些错误在缩略图里看不出来，放大就露馅。

DALL-E 3在这方面强得多。它理解“伞”的结构，知道辐条数量对称，知道手指是五根。据第三方评测机构Artisan AI的对比数据，DALL-E 3在“物体数量正确性”测试中准确率78%，Midjourney只有52%。

原因在于DALL-E 3背后的CLIP模型。它把图像和文字描述对齐得更紧密，能理解“三只猫”里的“三”是什么意思。Midjourney更依赖图像风格匹配，对数字和逻辑关系不敏感。

如果你让AI生成一个“写着‘CAFE’的店招”，两家的表现天差地别。

DALL-E 3生成的招牌，字母基本拼对，字体也像那么回事。虽然偶尔会把字母写反，但整体可读性高。据Reddit用户测试，DALL-E 3在生成短文字（3-5个字母）时，正确率超过80%。

Midjourney在这方面堪称灾难。它生成的文字经常是乱码——字母扭曲、重叠、或者变成根本不存在的符号。你让它写“OPEN”，它给你写成“OP3N”或者“0PEN”。这个问题在V6版本中略有改善，但依然远不如DALL-E 3。

如果你要做海报或广告素材，眼下只能选DALL-E 3。

真实感不只是“像照片”。油画风格、水彩风格、黑白胶片，Midjourney都能精准模仿。

拿“梵高风格的自画像”做测试。Midjourney生成的笔触、色彩、甚至画布纹理都接近真迹。DALL-E 3也能模仿，但更像是“用AI画了一个梵高风格的头像”，缺少那种粗粝的质感。

Midjourney的社区生态帮了大忙。据其官方数据，用户上传了超过2亿张图片用于风格训练，形成了大量参数微调。你可以用“–style raw”去掉AI味，也可以用“–stylize 1000”让画面更艺术。这种控制粒度，DALL-E 3目前做不到。

Midjourney基础版每月10美元，生成速度约30秒一张。DALL-E 3集成在ChatGPT Plus里，每月20美元，生成速度更快，约15秒。

但DALL-E 3有内容审核，会拒绝“生成逼真的人脸”或“名人肖像”。Midjourney限制宽松得多，这也是为什么假教皇图出在它手上。如果你需要生成真实人物，Midjourney是唯一选择。

说真的，两个工具不在同一个赛道上。

Midjourney更像一个“艺术家的助手”，擅长光影、纹理和风格模仿，但逻辑细节容易翻车。DALL-E 3更像一个“设计师的搭档”，理解指令更准确，但艺术感差一截。

据2024年1月的一份用户调查（来源：PromptBase），专业摄影师和插画师更倾向Midjourney，占比62%；平面设计师和营销人员更爱DALL-E 3，占比58%。

没有哪个能完全替代真实摄影。但如果你非要选一个，先问自己：你要的是“看起来像真的”，还是“逻辑上是对的”？前者选Midjourney，后者选DALL-E 3。