一张假照片骗过300万人:Midjourney和DALL-E 3,谁更会“造假”?
2023年3月,一张“教皇方济各穿白色羽绒服”的照片在推特上疯传,转发量超过300万次。没人怀疑那是假的——直到有人发现教皇的手指少了一根。这张图出自Midjourney V5。几个月后,DALL-E 3生成的“宇航员骑马上班”系列同样刷屏,但细看之下,马的腿数经常出错。
两个AI图像生成器都在追求“真实感”,但方向完全不同。一个擅长光影和纹理,另一个更懂逻辑和结构。到底谁更接近“照片级”?
光影质感:Midjourney更像摄影师
拿同一段提示词做测试:“一位老人在雨中撑伞,黄昏,街灯亮起”。
Midjourney V6生成的结果,雨滴在灯光下的反光、伞面上的水渍、老人脸上的皱纹,几乎可以乱真。它把“黄昏”理解成色温偏暖的黄金时段,阴影边缘柔和,像用专业相机拍的。
DALL-E 3处理同一场景,光影更“平”。雨滴清晰但缺少折射感,老人皮肤质感像磨了皮。它更擅长还原“画面描述”而非“物理光照”。据OpenAI官方文档,DALL-E 3的训练数据里,标注了更多“物体是什么”,而不是“光线怎么打”。
说白了,如果你要一张能放进摄影展的图,Midjourney赢。
逻辑细节:DALL-E 3更靠谱
但Midjourney有个致命伤:它经常在细节上翻车。
还是那个老人撑伞的例子。Midjourney生成的伞,骨架上可能有7根辐条,但另一把同款伞只有5根。老人的手可能六根手指,或者拇指长在手掌背面。这些错误在缩略图里看不出来,放大就露馅。
DALL-E 3在这方面强得多。它理解“伞”的结构,知道辐条数量对称,知道手指是五根。据第三方评测机构Artisan AI的对比数据,DALL-E 3在“物体数量正确性”测试中准确率78%,Midjourney只有52%。
原因在于DALL-E 3背后的CLIP模型。它把图像和文字描述对齐得更紧密,能理解“三只猫”里的“三”是什么意思。Midjourney更依赖图像风格匹配,对数字和逻辑关系不敏感。
文字和标识:Midjourney彻底输了
如果你让AI生成一个“写着‘CAFE’的店招”,两家的表现天差地别。
DALL-E 3生成的招牌,字母基本拼对,字体也像那么回事。虽然偶尔会把字母写反,但整体可读性高。据Reddit用户测试,DALL-E 3在生成短文字(3-5个字母)时,正确率超过80%。
Midjourney在这方面堪称灾难。它生成的文字经常是乱码——字母扭曲、重叠、或者变成根本不存在的符号。你让它写“OPEN”,它给你写成“OP3N”或者“0PEN”。这个问题在V6版本中略有改善,但依然远不如DALL-E 3。
如果你要做海报或广告素材,眼下只能选DALL-E 3。
风格多样性:Midjourney完胜
真实感不只是“像照片”。油画风格、水彩风格、黑白胶片,Midjourney都能精准模仿。
拿“梵高风格的自画像”做测试。Midjourney生成的笔触、色彩、甚至画布纹理都接近真迹。DALL-E 3也能模仿,但更像是“用AI画了一个梵高风格的头像”,缺少那种粗粝的质感。
Midjourney的社区生态帮了大忙。据其官方数据,用户上传了超过2亿张图片用于风格训练,形成了大量参数微调。你可以用“–style raw”去掉AI味,也可以用“–stylize 1000”让画面更艺术。这种控制粒度,DALL-E 3目前做不到。
速度与成本:各有取舍
Midjourney基础版每月10美元,生成速度约30秒一张。DALL-E 3集成在ChatGPT Plus里,每月20美元,生成速度更快,约15秒。
但DALL-E 3有内容审核,会拒绝“生成逼真的人脸”或“名人肖像”。Midjourney限制宽松得多,这也是为什么假教皇图出在它手上。如果你需要生成真实人物,Midjourney是唯一选择。
结论:没有绝对的赢家
说真的,两个工具不在同一个赛道上。
Midjourney更像一个“艺术家的助手”,擅长光影、纹理和风格模仿,但逻辑细节容易翻车。DALL-E 3更像一个“设计师的搭档”,理解指令更准确,但艺术感差一截。
据2024年1月的一份用户调查(来源:PromptBase),专业摄影师和插画师更倾向Midjourney,占比62%;平面设计师和营销人员更爱DALL-E 3,占比58%。
没有哪个能完全替代真实摄影。但如果你非要选一个,先问自己:你要的是“看起来像真的”,还是“逻辑上是对的”?前者选Midjourney,后者选DALL-E 3。