![]()
新智元報道
編輯:Aeneas
【新智元導讀】最近,網友們已經被AI「手指難題」逼瘋了。給AI一支六指手,它始終無法正確數出到底有幾根手指!說吧AI,你是不是在嘲笑人類?其實這背后,暗藏著Transformer架構的「阿喀琉斯之踵」……
最近幾天,整個互聯網陷入陰影——
AI,在用數手指嘲笑人類。
![]()
人類給AI的這道題,指令很簡單:在圖中的每根手指上,依次標出數字。
當然題目中有個小陷阱,就是這只手其實有六個手指。
結果,Nano Banana Pro理直氣壯地在這只手上標出1、2、3、4、5,直接略過了其中一只手指。
這荒誕的場面,再一次震驚了網友們。
AI模型是真的這么傻嗎?
很多人不這么認為——或許,AI只是在裝傻,調戲人類而已。
很有可能,它是在嘲笑這些試圖測試自己的劣質人類。
![]()
![]()
為了通過圖靈測試,AI必須讓自己變得愚蠢一點,才能看起來像人類。如果太聰明,人類就破防了。
![]()
GPT-5.2,同樣翻車了
有人也拿這個問題去問GPT-5.2,而且prompt里明明白白寫了圖里有六根手指。
但GPT-5.2面對「圖里有幾根手指」的問題,還是斬釘截鐵地說:五根!
理由就是:人類有五根手指,所以圖里沒有五根手指就是錯的。
![]()
還有人把手指畫得奇形怪狀,人類都要難倒的地步。
但面對這張圖,Nano Banana Pro依然斬釘截鐵地回答:5根,我確信,就是5根!
![]()
總之,無論畫成什么樣子,AI始終無法數出6根手指。
![]()
為了讓AI數對手指,網友們瘋了
有人不信邪了,非要讓模型畫對數字不可。
他直接給出指令:把4左移一個手指,把5左移一個手指,然后在大拇指那里寫上6。
夠清晰了吧?結果,模型照樣不聽,直接把3給弄沒了。
![]()
網友直接原地被逼瘋。
![]()
其他網友為了幫他,奇招百出,比如讓模型把手畫的數字改成電子版的,總算成功了。
![]()
![]()
也有人告訴模型依次在小指到大拇指上放數字,不要重復,結果也成功了。
![]()
AI數手指,為什么數不對
所以,為什么AI很難數對幾根手指呢?
有人給出這樣的解釋:AI找的是基本形狀,而非精確圖像,然后將該形狀代表的傳統認知和實際外觀進行比較。
![]()
有人猜,是否能告訴AI這不是手,而是不規則物體,從而規避掉AI大腦中的「偏見」?
結果,他果然成功了。
![]()
![]()
網友們隨后試驗了各種奇形怪狀的手,果然,這回Gemini就答對了。
![]()
![]()
或許AI之前已經被訓練了識別特定的emoji,如果換成別的圖,它反而可以做正確的視覺推理了。
手指難題,AI目前的大bug
這次AI數手指大翻車,也揭露了當前模型的一個關鍵缺陷——思考的機械和割裂。
很有可能,文本模型看到指令后,內部邏輯是這樣的:「手有五根手指,所以需要五個數字。」
所以,即使它「看到」了六指圖像,它的視覺識別能力也不足以糾正這種根深蒂固的文本認知。
為什么AI如此執著于「五指」的概念?這是源于它訓練數據的基本特征。
在人類手部圖像數據中,五指手占據絕對主導地位。
而模型已經從海量數據中學到「人手=五指」這一強關聯,以至于當情況偏離這一情況時,模型會視為異常,自動糾錯,而并不會認為自己需要理解一個新事實。
![]()
具體來說,當前AI視覺系統的工作方式,本質上是將復雜場景簡化為一組可識別模式。
當面對像六指手這樣同時包含常見元素(手部)和罕見特征(多指)的圖像時,系統傾向于將其強行納入已知模式。
圖像分類器通常輸出邊界框和標簽,但當遇到訓練分布之外的物體時,邊界框可能缺失或錯誤合并多個對象。
![]()
一個殘酷的真相就是,性能再厲害的模型,也不懂什么叫「5根手指」。
因為,AI看到的是紋理、形狀、概率,而不是結構,不是數量,不是實體。
Transformer,并行計算的代價
而手指難題,也凸顯出了Transformer架構的一大弱點。
Transformer架構的并行計算能力,是當今AI飛速發展的關鍵,但這種設計也存在代價。
單次前向傳遞無法有效追蹤狀態信息,系統難以執行需要多步驟邏輯推理的任務。
![]()
面對六指手,AI就會缺乏「注意到異常-重新評估-調整方案」的連貫思維鏈條。它只是機械地應用從訓練數據中學到的最強模式。
手的特殊性,在于數量固定、結構復雜、局部高度相關,而對于AI來說,多局部一致性、跨區域約束、數量不可變,恰巧是Transformer最不擅長的,堪稱地域難度。
擴散模型的本質
從另一個角度分析,也可以這么理解。
擴散模型的本質是學習一個從噪聲到清晰圖像的概率分布逆推過程。
![]()
它擅長捕捉數據的整體分布和紋理風格(例如,生成一只「看起來像手的輪廓」)。
但在精確控制局部、離散、高對稱性的結構(例如,五根長度、位置、關節關系都正確的手指)時,就顯得力不從心了。
從數據上看,訓練數據中「五指」的絕對主導地位,使模型將「五指」視為不可違反的強統計先驗。
就像一個看了100萬只五指手的畫家,你讓他畫六指手時,他總會無意識地將第六指融入到其他五指的陰影或姿勢中,因為他的大腦早已深深刻入「手即五指」的概念。
![]()
從算法層面上看,擴散模型在去噪的每一步,都是基于整個圖像的潛在表示進行全局預測。它沒有為「手指」這類特定結構設立顯式的、受保護的局部計算單元。
因此,細微的噪聲擾動或步驟誤差,很容易在密集區域被放大,導致細節扭曲。
從架構層面看,現有模型是「端到端」的,直接從文本提示映射到像素。中間缺乏一個明確的、符號化的結構表示層。
因此,「長什么樣」和「結構是什么」兩者沖突時,它就大腦宕機了。
而如果想解決這些瓶頸,或許業界就需要采用混合建模的模式——將擴散模型(擅長紋理)與顯式結構模型(如3D網格)結合。
或者引入局部注意力與約束——在模型架構中強化對特定區域(如手部)的局部注意力機制,或在訓練/推理過程中引入幾何約束損失函數。
![]()
當代AI的阿喀琉斯之踵
讓人感慨的是,Transformer最強的地方(Token-to-token預測),反而成了它的致命短板。
沒有對象概念,沒有顯式結構約束,整個世界都被打平為token序列。
誠如一位網友所言:「視覺數據的復雜性遠超文本,我們可能需要數十個數量級更多的計算資源,才能真正理解和處理視覺世界的全部細微差別。」
雖然在語言、知識、編碼等領域,它們已遠超常人,但在視覺推理、長期學習、因果關系理解上,它們仍然不足。
![]()
「手指難題」猶如一面鏡子,照出了當前以擴散模型為代表的AI模型的阿喀琉斯之踵——
它們在學習和復現數據的連續分布上取得了革命性成功,但在理解和生成精確的離散結構和拓撲關系上,仍然依賴于數據中的強統計先驗,缺乏真正的物理和幾何推理能力。
而如果想要徹底解決「手指難題」,就需要更先進的架構、更多樣化的訓練數據,以及人類對AI能力更清醒的認識。
在這個AI無所不能的時代,「手指難題」提醒我們——
即使是如今最先進的AI,也仍在學習如何看待世界的基本細節。
參考資料:
https://www.reddit.com/r/singularity/comments/1plw8hc/i_feel_like_the_model_is_mocking_me/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.