<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      這不是構建數字心智的方式:推理失敗如何阻礙AI模型實現人類智能

      0
      分享至

      一項新研究的作者認為,現有的大語言模型架構可能無法支撐實現人類級人工智能所需的問題解決能力。



      最新研究表明,當今最流行的人工智能工具在架構上的限制,可能會制約它們能夠達到的智能上限。

      2月5日發表在預印本平臺arXiv上的一項研究指出,現代大語言模型在其問題解決邏輯中天生容易出現斷裂,即所謂的「推理失敗」。

      當大語言模型丟失了可靠完成任務所需的關鍵信息,導致對看似簡單的問題給出錯誤答案時,就發生了推理失敗。該論文是對現有研究的綜述,專門考察了Transformer模型——這是一種神經網絡架構,支撐著包括ChatGPT、Claude和Google Gemini在內的流行AI聊天機器人。

      根據大語言模型在「人類最后考試」等評估中的表現,一些科學家認為,底層的神經網絡架構有朝一日可能催生出能夠達到人類級認知的模型。然而,研究人員指出,雖然Transformer架構使大語言模型在語言生成等任務上極為強大,但它也抑制了實現真正人類級推理所需的那種可靠的邏輯過程。

      「大語言模型已展現出卓越的推理能力,在廣泛的任務上取得了令人矚目的成果,」研究人員在論文中表示。「盡管取得了這些進步,嚴重的推理失敗依然存在,甚至在看似簡單的場景中也會發生……這種失敗被歸因于模型缺乏整體規劃和深度思考的能力。」

      大語言模型的局限性

      大語言模型在海量文本數據上進行訓練,通過逐詞預測一個合理的答案來響應用戶的提示。它們通過將稱為「標記」的文本單元串接在一起來實現這一點,這些串接方式基于從訓練數據中學到的統計模式。

      Transformer還使用一種稱為「自注意力」的機制來跟蹤長文本序列中單詞和概念之間的關系。自注意力機制加上龐大的訓練數據庫,使得現代聊天機器人非常擅長對用戶提示生成令人信服的答案。

      然而,大語言模型并不進行傳統意義上的任何實際「思考」。相反,它們的響應由算法決定。對于需要多步驟真正解決問題的長任務,Transformer可能會丟失關鍵信息,并退回到從訓練數據中學到的模式。這導致了推理失敗。

      「這一根本弱點不僅限于基本任務,還擴展到數學問題的組合、多事實聲明驗證以及其他本質上具有組合性的任務,」研究人員在論文中表示。

      推理失敗也是為什么大語言模型在被用戶告知回答錯誤后,常常仍然重復同樣的回復;或者對同一問題的不同表述方式給出不同答案——即使被要求逐步解釋其推理過程也是如此。

      英國阿蘭·圖靈研究所的高級研究數據科學家費德里科·南尼認為,大語言模型通常呈現為推理的東西,多半只是表面功夫。

      「人們發現,如果你告訴大語言模型不要直接回答,而是『一步步思考』并先寫出推理過程,它往往能得到正確答案,」南尼告訴媒體。「但這是一種技巧。這不是人類意義上的真正推理——它仍然只是裝扮成思維鏈的下一詞元預測,」他說。「當我們說這些模型『推理』時,我們實際的意思是,它們寫出一個推理過程——聽起來像是一串合理的推理鏈條。」

      現有AI基準測試的不足

      研究人員發現,當前評估大語言模型表現的方法在三個關鍵方面存在不足。第一,重新表述提示詞可能會影響結果。第二,基準測試隨著使用次數的增加而退化并受到污染。第三,它們只評估最終結果,而不是模型得出結論所用的推理過程。

      這意味著當前的基準測試可能嚴重高估了大語言模型的能力,并低估了它們在現實使用中失敗的頻率。



      「我們的立場不是說基準測試有缺陷,而是它們需要進化,」該研究的合著者、加州理工學院的計算機科學與機器人學學生宋培陽通過電子郵件表示。同樣地,南尼表示,基準測試往往會滲入到大語言模型的訓練數據中,這意味著后續的大語言模型會學會如何欺騙這些基準測試。

      「除此之外,既然模型已投入生產環境,使用本身也成了一種基準測試,」南尼說。「你把系統擺在用戶面前,看看哪里出問題——這就是新的測試。所以是的,我們需要更好的基準測試,也需要減少依賴AI來檢查AI。但這在實踐中非常困難,因為這些工具已經融入我們的工作方式,直接使用它們極其方便。」

      通往通用人工智能的新架構?

      與近期其他研究不同,這項新研究并不認為神經網絡方法在追求通用人工智能的道路上是死胡同。相反,研究人員將其比作計算機的早期時代,指出理解大語言模型為何失敗是改進它們的關鍵。

      然而,他們確實認為,僅僅在更多數據上訓練模型或擴大模型規模,不太可能獨自解決這個問題。這意味著,開發通用人工智能可能需要一種根本不同的模型構建方法。

      「神經網絡,尤其是大語言模型,顯然是通用人工智能圖景的一部分。它們的進展是非凡的,」宋說。「然而,我們的綜述表明,僅靠擴展規模不太可能解決所有推理失敗……[這意味著]達到人類級推理可能需要架構上的創新、更強的世界模型、改進的魯棒性訓練,以及與結構化推理和具身交互的更深度融合。」

      南尼對此表示贊同。「從心智哲學的角度來看,我認為我們基本上已經找到了Transformer的極限。它們不是你構建數字心智的方式,」他說。「它們對文本的建模極其出色,以至于幾乎無法分辨一段文字是出自人類還是機器之手。『但這就是它們的本質:語言模型……這種架構的潛力是有限的。』」

      如果朋友們喜歡,敬請關注“知新了了”!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男子出門上班把5個月大的孩子留在家,寶寶躺在床上不哭不鬧自己玩,男子:每4個小時回來一次給孩子喂奶,我也不想這樣的,可要掙錢

      男子出門上班把5個月大的孩子留在家,寶寶躺在床上不哭不鬧自己玩,男子:每4個小時回來一次給孩子喂奶,我也不想這樣的,可要掙錢

      觀威海
      2026-04-11 17:40:04
      兩性關系:女人愛到深處,不是脫衣服,是脫下這三樣東西

      兩性關系:女人愛到深處,不是脫衣服,是脫下這三樣東西

      皓皓情感說
      2026-04-12 12:16:26
      美論壇:一旦美突然向中國發射200枚核彈,中國有能力反擊嗎

      美論壇:一旦美突然向中國發射200枚核彈,中國有能力反擊嗎

      飄逸的云朵
      2026-04-12 02:02:57
      中國為動蕩的國際環境注入穩定性(國際論壇)

      中國為動蕩的國際環境注入穩定性(國際論壇)

      人民網
      2026-04-12 09:03:09
      棄ViuTV記者會,赴澳門走紅毯,炎明熹這步棋走錯了嗎?

      棄ViuTV記者會,赴澳門走紅毯,炎明熹這步棋走錯了嗎?

      天馬幸福的人生
      2026-04-12 12:03:55
      打起來了,美軍開始“奪島”?伊朗導彈密集發射,以色列不宣而戰

      打起來了,美軍開始“奪島”?伊朗導彈密集發射,以色列不宣而戰

      書紀文譚
      2026-04-08 13:18:07
      根據王健林對房價的最新預判:400萬的房產,5年后還能值多少錢?

      根據王健林對房價的最新預判:400萬的房產,5年后還能值多少錢?

      專業聊房君
      2026-04-11 19:42:49
      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

      素衣讀史
      2026-03-31 15:11:31
      北京大媽公交車上打暈患癌姑娘,一巴掌斷送退休后的美好幸福生活

      北京大媽公交車上打暈患癌姑娘,一巴掌斷送退休后的美好幸福生活

      嘉琪Feel
      2025-07-09 23:05:01
      訪華又懸了?美方制裁升級,7名高官反水,美議員:罷免特朗普!

      訪華又懸了?美方制裁升級,7名高官反水,美議員:罷免特朗普!

      通文知史
      2026-04-11 11:30:12
      好拽!沒全票得獎會意外!文班你是真狠!

      好拽!沒全票得獎會意外!文班你是真狠!

      柚子說球
      2026-04-11 18:25:20
      被千億富豪獨寵67年,婚后連生5娃,96歲仍是香港頂級豪門的核心

      被千億富豪獨寵67年,婚后連生5娃,96歲仍是香港頂級豪門的核心

      哄動一時啊
      2026-04-06 09:54:18
      官宣!70位醫務工作者擬獲國家級表彰!

      官宣!70位醫務工作者擬獲國家級表彰!

      梅斯醫學
      2026-04-12 07:55:54
      這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學拍的結婚照

      這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學拍的結婚照

      喜歡歷史的阿繁
      2026-04-11 06:47:10
      廣東大部多云為主,最高氣溫或達38℃!進入強對流頻發季節

      廣東大部多云為主,最高氣溫或達38℃!進入強對流頻發季節

      南方都市報
      2026-04-12 10:20:28
      外交部公開發聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

      外交部公開發聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

      嫹筆牂牂
      2026-04-12 10:16:39
      40歲單親媽媽扛樓16年賺錢養兒女,當事人:堅持不了的時候,兩個孩子就是我的動力

      40歲單親媽媽扛樓16年賺錢養兒女,當事人:堅持不了的時候,兩個孩子就是我的動力

      極目新聞
      2026-04-11 22:32:39
      大快人心!國家出手擒下3名華人首富,他們干的事,根本不能饒恕

      大快人心!國家出手擒下3名華人首富,他們干的事,根本不能饒恕

      墨印齋
      2026-03-24 21:34:56
      MacBook當主力機14天,Windows用戶集體破防了

      MacBook當主力機14天,Windows用戶集體破防了

      閃存獵手
      2026-04-12 08:44:54
      孫怡怒稱發布會是趙子琪淘汰會!宣布不當隊長全網炸鍋

      孫怡怒稱發布會是趙子琪淘汰會!宣布不當隊長全網炸鍋

      星星沒有你亮
      2026-04-12 06:39:09
      2026-04-12 12:52:49
      知新了了
      知新了了
      專注于新知、科普的傳播
      5939文章數 2267關注度
      往期回顧 全部

      科技要聞

      理想稱遭惡意拉踩,東風日產:尊重同行

      頭條要聞

      媒體:伊朗新領袖"冒死接班"1個月未露面 突然全面亮劍

      頭條要聞

      媒體:伊朗新領袖"冒死接班"1個月未露面 突然全面亮劍

      體育要聞

      五大聯賽首冠出爐?拜仁或提前4輪衛冕德甲

      娛樂要聞

      46歲趙達官宣結婚!曾與殷桃談婚論嫁

      財經要聞

      三輪磋商談至深夜 美伊談判三大議題仍待解

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      時尚
      手機
      親子
      旅游
      軍事航空

      春季穿衣別死氣沉沉,看看這27套日常穿搭,活力時尚又減齡

      手機要聞

      宇樹機器人跑出10m/s刷新世界紀錄;小米手機正式調價

      親子要聞

      家長別忽略:這些看似微小的口腔問題,卻能影響孩子終身健康!

      旅游要聞

      人民論壇網評 | “跟著演出去旅行”為何這么火

      軍事要聞

      伊朗議長帶四名遇難兒童照片赴美伊談判

      無障礙瀏覽 進入關懷版