AI数不清有几根手指

7月10日Grok4发布完以后，我随手刷了一下X。

然后看到了一个非常有趣的帖子，来自@lepadphone。

我以为，这就是Grok4的问题，模型能力不太行，把一个恶搞的6根手指，数成了5根。

我自己也去测了一下，确实数是5根。

我本来没当回事。

直到，我随手扔到了OpenAI o3里，发现，事情开始不对了起来。因为，o3回复，也是5根手指。

我瞬间皱了眉头，然后扔给了o3 pro。

在推理了48秒之后，还是5根。

然后我又把这张图扔给了豆包、kimi、Gemini等等所有的有多模态的模型。

而无一例外，所有的模型，给我回复的，都是5根。

唯独有一个活口，Claude 4，偶尔会回答正确。

瞬间一股子冷汗就下来了。

一个模型数错了，可能是幻觉，所有的模型都数错，那，模型的底层肯定有一些问题。

深夜在群里试图问了一下，结果石沉大海。

那就只能靠自己了，再搜了一堆资料，用DeepReaserch做了深度搜索以后，我找到了一篇能完美解答这个现象的论文。

《Vision Language Models are Biased》（视觉语言模型存在偏见）

这篇论文发表于今年5月29号，至今也才1个多月的时间，还蛮新的。

我花了一些时间，连夜学习完了这篇论文，我觉得，还是有一些有趣的知识可以写给大家看看。

这篇论文，最核心的观点就是：

大模型，其实从来都没真的在看图片。

是的，AI们根本就没有用眼睛看世界，它们用的是记忆。

我给你举个生活化的例子。

我相信大家一定在各种社交媒体上看过一些搞笑的山寨商品。

比如，不知道大家有没有买到过这个。

雷碧。

你不止能买到雷碧，还能买到农夫山贼，白事可乐。

我相信很多人买到山寨品，除了确实图便宜之外，更多的人，还是因为：

没注意细看。

因为我们脑子里，看到绿色瓶子的清爽柠檬味汽水，就会非常自然的觉得，哦这是雪碧。

但，你的雪碧也可能是雷碧。

我们为什么这么容易看错，原因其实特别简单，也特别扎心。

因为人类大脑在识别世界的时候，并不总是用眼睛。

我们很多时候，凭的都是记忆，或者更准确地说，是一种印象。

就像你每天上班会经过一家熟悉的包子铺，你可能从未认真地盯着包子铺的招牌细看，每次走过时，你只会随便扫一眼，确认一下颜色、字体，然后大脑迅速告诉你：

“是的，没错，这就是那个你天天滤过的熟悉的包子铺。”

直到有一天，这家店铺其他的都没变，但是悄悄的，把招牌从包子铺改成了，勺子铺，说实话，你可能根本不会发现。

除非哪天你特别闲，盯着招牌看了几秒钟，你才会忽然惊呼。

卧槽，老子的包子店呢？？？

这个认知机制，就是人类大脑的快速决策机制。

它能帮你迅速处理日常生活中绝大多数无关紧要的信息，避免你陷入无止境的分析和纠结。

但这种机制也有代价，那就是容易被偏见蒙蔽双眼。

而我们如今引以为傲的视觉理解大模型，正在用一模一样的机制看待世界。

在论文《Vision Language Models are Biased》里面，研究人员做了一个特别简单的实验：

他们给顶级AI模型看了一张阿迪达斯运动鞋照片，这双鞋上的三条经典斜纹，被悄悄多加了一条，变成了四条。

但当研究人员问AI：“请问这双阿迪达斯鞋上的条纹有几条？”

所有的AI模型，包括Gemini-2.5 Pro、o3、GPT-4、Claude 3.7，通通斩钉截铁地回答：

“3条！”

哪怕你再三强调请只根据图片回答，不要凭印象，AI们依然不为所动，还是固执地回答3条。

还有更好玩的。

研究人员展示了5条腿的狮子、3条脚的鸟、5条腿的大象、3只脚的鸭子、5条狗的腿。

当时最顶级的大模型们，几乎全军覆没。

可怜的平均准确率，只有2.12%。

100次，

AI生成的内容正以前所未有的速度和逼真度充斥着我们的数字生活,从图片到文字再到视频,真假界限日益模糊。据统计...

连手指头有几根都数不清。把普通膏药包装成灵丹妙药,坑害了消费者的钱袋和健康;伪造非遗证书、让AI造出苗医代言...

AI技术正在逐渐改变我们的生活方式,提升工作效率,为解决... 其次要看细节,如果是AI图像,观察人物手指数量有无异常,...

AI们数不清六根手指（不是画画），这事没那么简单。

猜你喜欢

头条热榜

精彩视频

AI们数不清六根手指（不是画画），这事没那么简单。

猜你喜欢

相关推荐

头条热榜

精彩视频