应用数学家兼计算机科学家Hany Farid 讲如何识别 AI 生成的照片。
要识破AI的伪装,我们首先需要理解它是如何创作图像的。这与我们传统意义上的拍照有着本质的区别。
一张自然照片的诞生,是一个物理过程:光线穿过镜头,照射在电子传感器上,然后被转换成数字信号,最终形成我们看到的图像。 整个过程忠实地记录了物理世界的光影、几何和纹理。
当感光元件(CCD/CMOS)在将光线转换为数字信号的过程中,会产生一些微小的、随机的电子干扰。这些干扰就是真实照片的“噪声”。它就像一张白纸上非常非常细微的、天然的纹理。
而生成式AI的工作原理则完全不同。 它的学习过程更像是一种“逆向工程”。
首先,开发者会给AI投喂数十亿张带有文字描述的图片(例如,“一只金毛犬在草地上奔跑”)。 然后,程序会逐步地向这些清晰的图像中添加“噪点”,直到图像退化成一片完全随机的像素,看起来就像电视雪花屏。
接下来,关键的一步来了:AI模型开始学习如何逆转这个过程,也就是如何从这一片混沌的噪点中,重建出原始的、清晰的图像。
当这个“降噪-重建”的过程在海量、多样化的图片上重复了数十亿次之后,这台机器就掌握了一项惊人的技能——它能根据你输入的任何文字描述,将一堆随机噪点“变”成一张语义上完全符合你要求的、全新的图像。
〰️〰️〰️〰️〰️〰️
方法一:噪声残差。
自然照片和AI生成图像的“制造方法”不同,这种差异会留下一种肉眼难以察觉的噪声残差(noise residual)。
“噪声残差”指的就是,我们使用特殊的数字“滤镜”,把照片中我们能看到的主要内容(比如人、狗、房子)给“过滤掉”之后,剩下来的那些底层的、肉眼看不见的噪声纹理。
举个例子,一张是Farid 的真实爱犬的照片,另一张是AI生成的狗。
单看两张照片,几乎无法分辨。但使用技术手段将两张图的“噪声残差”提取出来并进行可视化处理后,差异变得一目了然。
▪️ 自然照片的噪点: 因为来自相机传感器的噪声是高度随机的,所以当它被分解后,各种纹理模式的强度会比较均匀。在分析图上,它看起来就像一片柔和、弥散的光晕,呈现出一种相对均匀、随机的分布模式。
▪️ AI生成图像的噪点: AI算法在生成图像时,其过程是有规律、有结构的,并非真正的随机。这导致它 在 某些特定方向和频率的纹理模式会异常地突出和强烈。当经过“傅里叶变换”,这些强度被可视化后,就呈现出一种独特的“星芒状”图案。
Farid :“这些星状图案是生成式人工智能的明显标志。现在,对于听众中的数学家和物理学家来说,这是噪声残差的傅立叶变换量的体现。对于其他人来说,这个细节并不重要,但你确实应该在大学里多学点数学。当教授的都很难忍住不这么说。”[笑cry]
〰️〰️〰️〰️〰️〰️
方法二:看几何透视里的消失点。
一个基本的透视原理是:在三维世界中相互平行的线(比如铁轨),在二维的照片上会向远处延伸,并最终汇聚于一个点,这个点被称为“消失点”(vanishing point)。 这是艺术家们数百年来一直在使用的透视法则,也是我们物理世界的固有属性。
但AI不懂这个。 AI是一个统计学引擎,它不理解物理和几何,只是学习了像素的排列方式,因此在构建一个看起来“真实”的场景时,常常会违背这些基本的几何规律。
比如一张四个士兵被关在地下室的照片中,在平行的两侧墙壁上标注了四条平行线,这些平行线无法聚成一个消失点。意味着这一场景在物理逻辑上很牵强。
〰️〰️〰️〰️〰️〰️
方法三:看阴影。
影子的分析与消失点有着类似的原理。
在一个由单一稳定光源(如太阳或一个灯泡)照亮的环境中,所有物体的影子都遵循着一致的物理规律。
如果你从物体上投下影子的那个点(例如,士兵的脚底),到影子的对应点(例如,影子的脚底位置)画一条线,然后将这条线延长,它最终会与其他所有类似直线相交于一个点——这个点就是光源的位置。
这同样是一个AI难以完美模仿的物理现象。 AI在生成图像时,可能会给每个物体都配上一个看起来差不多的影子,但却很难保证所有影子都精确地指向同一个虚拟的光源。
Farid 从四名士兵的腿部到他们各自投下的影子底部画出了连线。 结果这四条线向外延伸时,没有交汇,甚至各有各的方向。 这意味着,要么这个地下室里有多个独立的光源在以一种非常奇怪的方式照射他们,要么这张图片就是假的。
〰️〰️〰️〰️〰️〰️
大多数人并非数字取证专家,无法进行上述复杂的技术分析。但这并不意味着我们只能束手无策。
一,Farid 团队开发的那些先进取证工具,正在被提供给记者、机构和法庭使用。
二,一项名为“内容凭证”(Content Credentials)的国际标准正在推广。 它的理念是在内容被创造的那一刻(例如,用相机拍照或用AI生成图片时),就在文件元数据中嵌入一个安全的、可验证的“出生证明”。 这个“证明”可以记录内容的来源、作者以及后续的修改历史。
当这项技术普及后,消费者将能够更容易地判断网上看到的内容是真实的,还是经过修改或由AI生成的。 虽然它无法解决所有问题,但无疑将是整个解决方案中至关重要的一环。
三,社交媒体不是一个获取新闻和信息的地方。
社交媒体的算法设计初衷就不是为了传递真相,而是为了最大化用户粘性。谎言、阴谋论和各种耸人听闻的“AI垃圾信息”,因为更能激发人们的情绪(愤怒、恐惧、好奇),从而更容易被算法推荐和传播。
如果你无法完全戒掉社交媒体,至少请不要把它当作你获取严肃信息的主要来源。
📄TED. (2025). How to spot Fake AI Photos | Hany Farid
