AI们数不清六根手指(不是画画),这事没那么简单。

7月10日Grok4发布完以后,我随手刷了一下X。

然后看到了一个非常有趣的帖子,来自@lepadphone。

我以为,这就是Grok4的问题,模型能力不太行,把一个恶搞的6根手指,数成了5根。

我自己也去测了一下,确实数是5根。

我本来没当回事。

直到,我随手扔到了OpenAI o3里,发现,事情开始不对了起来。因为,o3回复,也是5根手指。

我瞬间皱了眉头,然后扔给了o3 pro。

在推理了48秒之后,还是5根。

然后我又把这张图扔给了豆包、kimi、Gemini等等所有的有多模态的模型。

而无一例外,所有的模型,给我回复的,都是5根。

唯独有一个活口,Claude 4,偶尔会回答正确。

瞬间一股子冷汗就下来了。

一个模型数错了,可能是幻觉,所有的模型都数错,那,模型的底层肯定有一些问题。

深夜在群里试图问了一下,结果石沉大海。

那就只能靠自己了,再搜了一堆资料,用DeepReaserch做了深度搜索以后,我找到了一篇能完美解答这个现象的论文。

《Vision Language Models are Biased》(视觉语言模型存在偏见)

这篇论文发表于今年5月29号,至今也才1个多月的时间,还蛮新的。

我花了一些时间,连夜学习完了这篇论文,我觉得,还是有一些有趣的知识可以写给大家看看。

这篇论文,最核心的观点就是:

大模型,其实从来都没真的在看图片。

是的,AI们根本就没有用眼睛看世界,它们用的是记忆。

我给你举个生活化的例子。

我相信大家一定在各种社交媒体上看过一些搞笑的山寨商品。

比如,不知道大家有没有买到过这个。

雷碧。

你不止能买到雷碧,还能买到农夫山贼,白事可乐。

我相信很多人买到山寨品,除了确实图便宜之外,更多的人,还是因为:

没注意细看。

因为我们脑子里,看到绿色瓶子的清爽柠檬味汽水,就会非常自然的觉得,哦这是雪碧。

但,你的雪碧也可能是雷碧。

我们为什么这么容易看错,原因其实特别简单,也特别扎心。

因为人类大脑在识别世界的时候,并不总是用眼睛。

我们很多时候,凭的都是记忆,或者更准确地说,是一种印象。

就像你每天上班会经过一家熟悉的包子铺,你可能从未认真地盯着包子铺的招牌细看,每次走过时,你只会随便扫一眼,确认一下颜色、字体,然后大脑迅速告诉你:

“是的,没错,这就是那个你天天滤过的熟悉的包子铺。”

直到有一天,这家店铺其他的都没变,但是悄悄的,把招牌从包子铺改成了,勺子铺,说实话,你可能根本不会发现。

除非哪天你特别闲,盯着招牌看了几秒钟,你才会忽然惊呼。

卧槽,老子的包子店呢???

这个认知机制,就是人类大脑的快速决策机制。

它能帮你迅速处理日常生活中绝大多数无关紧要的信息,避免你陷入无止境的分析和纠结。

但这种机制也有代价,那就是容易被偏见蒙蔽双眼。

而我们如今引以为傲的视觉理解大模型,正在用一模一样的机制看待世界。

在论文《Vision Language Models are Biased》里面,研究人员做了一个特别简单的实验:

他们给顶级AI模型看了一张阿迪达斯运动鞋照片,这双鞋上的三条经典斜纹,被悄悄多加了一条,变成了四条。

但当研究人员问AI:“请问这双阿迪达斯鞋上的条纹有几条?”

所有的AI模型,包括Gemini-2.5 Pro、o3、GPT-4、Claude 3.7,通通斩钉截铁地回答:

“3条!”

哪怕你再三强调请只根据图片回答,不要凭印象,AI们依然不为所动,还是固执地回答3条。

还有更好玩的。

研究人员展示了5条腿的狮子、3条脚的鸟、5条腿的大象、3只脚的鸭子、5条狗的腿。

当时最顶级的大模型们,几乎全军覆没。

可怜的平均准确率,只有2.12%。

100次,

举报