<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLM把簡單任務復雜化,Karpathy無語:有些任務無需那么多思考

      0
      分享至



      機器之心報道

      編輯:冷貓

      隨著推理大模型和思維鏈的出現與普及,大模型具備了「深度思考」的能力,不同任務的泛用性得到了很大的提高。

      借助思維鏈,大模型能夠對任務進行深入分析,完成任務規劃與拆解,從而勝任長周期、復雜度高的工作。同時,我們也能更直觀地了解模型的推理與分析過程,從中發現執行環節中的問題,并有針對性地調整指令,以更高效地完成目標。

      可以說,有了「深度思考」的推理模型,才有了現在擁有多種輔助功能與自主能力的 AI 智能體。

      但現在的大模型漸漸有些偏科了。為了構建應用能力更強的智能體,對長周期的復雜任務能力的追求已經影響到了大模型的推理模式。

      不知道大家在平常使用 AI 工具的時候有沒有發現,打開了深度思考后,一些簡單的任務也需要很多的思考,展示了非常冗長的思維鏈,而不打開深度思考的時候,又很難準確的得到想要的回復。

      這種現象越來越明顯了,尤其是當大模型進入工作流(例如編碼工作)的時候,其負面效應就更加顯著。

      這不,AI 領域的大牛 Andrej Karpathy 也感覺到不對勁,發了長文推來指出這個令人無語的現象。



      Karpathy 說,「LLM 在默認狀態下正變得比我日常使用需求更具『自主代理(Agentic)』傾向,甚至有些超出了我的平均使用場景」。

      最明顯的的確是編碼任務,模型現在往往會進行較長時間的推理,傾向于在整個代碼庫中列出并搜索(grep)文件,會反復進行網絡搜索,對一些在開發中、且明顯并不完整的代碼里極少出現的邊緣情況過度分析、過度思考,甚至在非常簡單的查詢中,也常常需要幾分鐘后才返回結果。

      尤其是在簡單的任務中,比如在運行腳本前快速檢查索引錯誤或其他低級錯誤,根本不需要如此復雜的任務分析和代碼處理。

      因此 Karpathy 不得不經常打斷 LLM,并用類似這樣的指令限制它:「停,你想得太多了。只看這一份文件。不要用任何工具。不要過度設計。

      這帶來了很多麻煩,不僅是在編碼任務,我們發現日常使用 LLM 工具時候的類似打斷情況也越來越多了。

      簡單拿剛發布幾天的 GPT-5 舉個例子,發布時 OpenAI 顯然意識到深度思考的問題,所以他們強調 GPT-5 是一個集成模型,也就是說,你用它的時候不需要在不同模型之間切換,它會自己決定何時需要深入思考。

      但這個問題顯然沒有這么簡單。記得當時 GPT-4o 模型的圖像編輯生成功能很好用,但在更新到新模型后就不太一樣了。

      我們給了 GPT-5 這個指令:「去除圖中文字,把這張圖變得高清一些,機器人的臉看起來更溫和一些」,希望它能夠調用圖像編輯的功能。

      但結果它就開始進行「深度思考」了:



      經過了 38 秒的思考,它考慮了很多細節,但仍然未能開始使用圖像生成功能,導致不得不打斷它的任務進程。

      或許這也是用戶們無比懷念 GPT-4o 的原因之一。

      正如 Karpathy 指出的,隨著默認模式逐漸向這種「超深度思考」的高代理化狀態靠攏,我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務的緊迫程度,從「快速看一眼」到「花 30 分鐘徹底確認后再回來」都能精確指定。

      網友們也苦「過度思考」久矣,甚至為此回到了最樸素的使用方法。





      對于這件事,Karpathy覺得罪魁禍首似乎是大模型「在長周期任務上進行了大量基準測試優化」,為了在基準測試上得到更好的成績,LLM的思考就更傾向于長周期的復雜任務的實現,因此影響了普通任務的響應。



      他指出了兩種情境:

      1. 我招呼同事過來看我屏幕上打開的一個文件,問他「這樣對嗎?」

      2. 我讓某人坐在桌前,他們有 2 個小時來作答。這是一場考試, 風險很高。題目是「這樣對嗎?」

      人類協作者能很自然地區分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2,而隨著時間推移、基準測試的不斷「極限化」,它會越來越傾向于假設你問的是情境 2。

      這指出了大模型過度思考,復雜化任務的可能原因,大模型的發展不能完全以基準測試分數作為追求。

      關于大模型的「過度思考」,有相關經歷和想法歡迎在評論區分享。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      偽史論該歇歇了!浙江宣傳發文:警惕“1644史觀”帶亂了節奏!

      偽史論該歇歇了!浙江宣傳發文:警惕“1644史觀”帶亂了節奏!

      翻開歷史和現實
      2025-12-17 22:28:42
      江蘇成立專班調查“博物院藏品疑被拍賣”事件,南京博物院工作人員再回應

      江蘇成立專班調查“博物院藏品疑被拍賣”事件,南京博物院工作人員再回應

      極目新聞
      2025-12-18 15:48:53
      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      國家統計局原局長邱曉華:很多人按揭買的房子,房子的價格已經比首付還要低!它給人帶來的心理沖擊是很大的

      和訊網
      2025-12-18 17:46:52
      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      漢史趣聞
      2025-12-18 11:38:12
      A股,兩個利空信號傳來,明天,或將迎來變盤大跳水!

      A股,兩個利空信號傳來,明天,或將迎來變盤大跳水!

      夜深愛雜談
      2025-12-18 16:46:32
      河南美女“大晨”去世,年僅28歲,日常開奧迪,一口能喝三兩白酒

      河南美女“大晨”去世,年僅28歲,日常開奧迪,一口能喝三兩白酒

      阿纂看事
      2025-12-17 09:32:11
      21個市級政府,被約談

      21個市級政府,被約談

      新京報政事兒
      2025-12-18 14:59:53
      臺灣超越日本,成為亞洲首富

      臺灣超越日本,成為亞洲首富

      深度報
      2025-12-17 23:01:35
      我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

      我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

      張道陵秘話
      2025-12-17 10:20:09
      足壇10大商業精英:貝克漢姆身家6.5億!大羅第5 齊祖第6

      足壇10大商業精英:貝克漢姆身家6.5億!大羅第5 齊祖第6

      葉青足球世界
      2025-12-18 20:16:01
      U15國足開門黑!0-3不敵日本,柏驊峻烏龍助攻,2天后對韓國

      U15國足開門黑!0-3不敵日本,柏驊峻烏龍助攻,2天后對韓國

      奧拜爾
      2025-12-18 16:32:30
      轟炸機抵近東京,美國拒表態,日本承認波茨坦公告,求中國一件事

      轟炸機抵近東京,美國拒表態,日本承認波茨坦公告,求中國一件事

      梁訊
      2025-12-18 10:38:01
      恭喜!巴黎首奪世界級冠軍 今年加冕6冠王 史上第3隊比肩巴薩拜仁

      恭喜!巴黎首奪世界級冠軍 今年加冕6冠王 史上第3隊比肩巴薩拜仁

      我愛英超
      2025-12-18 04:15:05
      張雨綺換臉成功!說不出來哪里變了,好像又都變了

      張雨綺換臉成功!說不出來哪里變了,好像又都變了

      爆角追蹤
      2025-12-18 16:05:56
      福建艦、山東艦的兩個相同點

      福建艦、山東艦的兩個相同點

      新民周刊
      2025-12-18 09:13:33
      信也科技攜手頂尖學者深度對話,共探AI新范式

      信也科技攜手頂尖學者深度對話,共探AI新范式

      虎嗅APP
      2025-12-18 16:32:07
      商務部就法國總統有關中歐經貿關系言論進行回應

      商務部就法國總統有關中歐經貿關系言論進行回應

      環球網資訊
      2025-12-18 16:07:41
      江蘇文旅廳調查南博藏品現身拍賣事件,龐萊臣后人不認可偽作說法

      江蘇文旅廳調查南博藏品現身拍賣事件,龐萊臣后人不認可偽作說法

      極目新聞
      2025-12-18 14:34:14
      山東:堅決擁護黨中央決定

      山東:堅決擁護黨中央決定

      新京報政事兒
      2025-12-18 18:03:04
      突發!廣汽本田合資工廠將停產

      突發!廣汽本田合資工廠將停產

      鞭牛士
      2025-12-18 15:14:07
      2025-12-18 20:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      確認涉刑案 上海市中心西裝男子突然當街下跪:對不起

      頭條要聞

      確認涉刑案 上海市中心西裝男子突然當街下跪:對不起

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      旅游
      本地
      時尚
      親子
      公開課

      旅游要聞

      江西南豐:探索古城古鎮文旅融合新路徑

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      “棕色大衣”今年冬天又火了,怎么搭都高級時髦

      親子要聞

      孩子的無限潛能,需要被開發

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 波多无码在线| av色天堂| 云浮市| 亚洲最大福利视频网| 日韩精品国产另类专区| 国产XXXX| 野花在线观看免费观看高清| 九江市| 2021国产在线视频| 99在线国产视频| 青青AV| 欧美肥妇多毛bbw| 99精品国产在热久久无码| 亚洲成av人片一区二区| 国产97色在线| 尹人97| 成年女人午夜毛片免费视频| 国产成人精品久久综合| 国产亚洲精品精品精品| 国产精品亚洲二区在线观看| 四虎国产精品成人| 国产精品xxxxx| 婷婷久久香蕉五月综合加勒比| 国产精品成人av电影不卡 | 人人做人人澡人人人爽| 国产91精选在线观看| 亚洲国产av无码精品无广告| 97人妻白浆| 日韩精品久久久肉伦网站| 超碰人人插| 国产乱子伦精品免费女| 最新国产aⅴ精品无码| 日本牲交大片免费观看| 亚洲国产日韩欧美一区二区三区| 国产精品午夜福利视频| 内射少妇18| 欧美疯狂做受xxxx高潮小说| 在线观看视频91| 久久久久久人妻精品一区| 亚洲综合一区二区三区| 美女成人网站|