<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Dwarkesh最新播客:2025年AI進(jìn)展總結(jié)

      0
      分享至

      Dwarkesh 這個(gè)名字,可能很多人有點(diǎn)陌生。但關(guān)注 AI 的朋友,一定在最近一段時(shí)間里,看到過(guò) Ilya Sutskever 跟 Andrej Karpathy 的播客采訪。 他們上的就是 Dwarkesh 的播客。

      這兩人上播客的次數(shù)屈指可數(shù),能采訪到這兩個(gè)人,大概能說(shuō)明 Dwarkesh 在美國(guó) AI 圈的地位。

      這篇文章基于他最新一期播客,匯總了一些他關(guān)于 AI 進(jìn)展的想法。

      在這之前,他其實(shí)已經(jīng)在個(gè)人網(wǎng)站上更新過(guò)相關(guān)內(nèi)容,所以我在文章最后還從那里精選了幾個(gè)評(píng)論。

      因?yàn)殛P(guān)于 AI 進(jìn)展,乃至 AGI 的時(shí)間線,都是非常主觀的話題,所以除了作者的看法,評(píng)論區(qū)的反饋也很有價(jià)值。



      Dwarkesh 的一些核心判斷:

      1. 以強(qiáng)化學(xué)習(xí)為核心的“中訓(xùn)練”,正在成為 LLM 的重點(diǎn)突破方向。前沿科技公司正通過(guò)所謂的“中訓(xùn)練”(mid-training)把大量具體技能預(yù)先塞進(jìn)模型里。

      Dwarkesh 認(rèn)為這恰恰是 AGI 還很遠(yuǎn)的證據(jù),因?yàn)槿绻P头夯芰軓?qiáng),那就不需要單獨(dú)構(gòu)建那么多強(qiáng)化學(xué)習(xí)環(huán)境,教它操作瀏覽器或者 Excel。

      2. 預(yù)置技能的想法是很奇怪的,人類勞動(dòng)力之所以有價(jià)值,恰恰是因?yàn)橛?xùn)練成本并不笨重。

      可以根據(jù)需要,靈活掌握一些新的技能。每天你都要做上百件需要判斷力、情境感知、以及在工作中習(xí)得的技能和背景知識(shí)的事情。如果全部依賴預(yù)置技能,很可能的結(jié)果是我們連最簡(jiǎn)單的工作都無(wú)法完全自動(dòng)化。

      3. AI 經(jīng)濟(jì)擴(kuò)散滯后,本質(zhì)是為能力不足找借口。企業(yè)招聘這個(gè)過(guò)程其實(shí)非常tricky,因?yàn)樯婕皩?duì)人的能力和品格等做估計(jì)。

      而 AI 員工完全不存在這個(gè)問(wèn)題,經(jīng)過(guò)驗(yàn)證的 AI 員工可以無(wú)損無(wú)限復(fù)制。

      換句話說(shuō),企業(yè)有很強(qiáng)的動(dòng)機(jī)去雇傭 AI 勞動(dòng)力?,F(xiàn)在這事沒(méi)有發(fā)生,只能證明模型能力差得太遠(yuǎn)。

      4. 回應(yīng)對(duì) AI 空頭的批評(píng)。過(guò)去發(fā)生過(guò)的事情是,經(jīng)常有人說(shuō) AI 現(xiàn)在這不行那不行,比如通用理解、少樣本能力、推理能力。

      但隨著技術(shù)發(fā)展,這些問(wèn)題 AI 都能解決了。但是空頭還是會(huì)提出新的標(biāo)準(zhǔn),論證 AI 的能力不限。

      作者認(rèn)為這種標(biāo)準(zhǔn)調(diào)整是有道理的,因?yàn)槲覀儗?duì)于 AGI 的理解在深化,智能和勞動(dòng)比我們?cè)?jīng)的理解要復(fù)雜得多。

      5. 預(yù)訓(xùn)練階段的 scaling law 非常清晰,只要算力數(shù)量級(jí)提升,損失函數(shù)就會(huì)穩(wěn)定下降。

      但現(xiàn)在大家正在把這種在預(yù)訓(xùn)練上獲得的經(jīng)驗(yàn),轉(zhuǎn)移到圍繞強(qiáng)化學(xué)習(xí)(RLVR)的中訓(xùn)練上。

      這種技術(shù)樂(lè)觀并沒(méi)有依據(jù),有人根據(jù) o 系列做了研究,結(jié)論是:要獲得類似 GPT 級(jí)別的提升,強(qiáng)化學(xué)習(xí)的總算力規(guī)??赡苄枰嵘揭话偃f(wàn)倍。

      6. 與人類分布的對(duì)比,會(huì)先讓我們高估 AI,然后再低估它。

      由于知識(shí)工作中相當(dāng)大一部分價(jià)值來(lái)自最頂尖的那一小撮人,如果我們把 AI 模型的智能水平與“中位數(shù)人類”相比,就會(huì)系統(tǒng)性地高估它們能創(chuàng)造的價(jià)值。

      但反過(guò)來(lái)說(shuō),一旦模型真正達(dá)到了頂級(jí)人類的水平,其影響力可能會(huì)是爆炸式的。

      7. 持續(xù)學(xué)習(xí)(continual learning)會(huì)是 AGI 之后,模型能力提升的主要驅(qū)動(dòng)力。

      他預(yù)估明年前沿團(tuán)隊(duì)就會(huì)發(fā)布一些持續(xù)學(xué)習(xí)的雛形功能,但要達(dá)到人類水平的持續(xù)學(xué)習(xí),可能還需要 5 到 10 年。持續(xù)學(xué)習(xí)的解決不會(huì)是一蹴而就的,所以不會(huì)有模型因?yàn)樵谶@點(diǎn)上取得突破后就獲得失控式的領(lǐng)先優(yōu)勢(shì)。

      以下為原文:

      我們?cè)赟caling什么?

      我一直很困惑:為什么有些人一方面認(rèn)為 AGI 的時(shí)間線很短,另一方面卻又對(duì)當(dāng)前在大語(yǔ)言模型之上大規(guī)模擴(kuò)展強(qiáng)化學(xué)習(xí)持極度樂(lè)觀態(tài)度。

      如果我們真的已經(jīng)接近一種類人學(xué)習(xí)者,那么這種基于“可驗(yàn)證結(jié)果”的訓(xùn)練路徑,從根本上就是走不通的。

      目前,各家正試圖通過(guò)所謂的“中訓(xùn)練”(mid-training)把大量具體技能預(yù)先塞進(jìn)模型里。

      圍繞這一點(diǎn),甚至已經(jīng)形成了一整條產(chǎn)業(yè)鏈:有公司專門構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境,教模型如何操作網(wǎng)頁(yè)瀏覽器,或者使用 Excel 來(lái)搭建財(cái)務(wù)模型。

      要么,這些模型很快就能以自我驅(qū)動(dòng)的方式在工作中學(xué)習(xí),那所有這些“預(yù)烘焙”技能就毫無(wú)意義;要么它們做不到,那就說(shuō)明 AGI 并非近在咫尺。

      人類并不需要經(jīng)歷一個(gè)特殊的訓(xùn)練階段,把未來(lái)可能用到的每一個(gè)軟件都提前練一遍。

      Beren Millidge 在最近的一篇博客中對(duì)這一點(diǎn)提出了很有意思的看法:

      當(dāng)我們看到前沿模型在各種基準(zhǔn)測(cè)試上取得進(jìn)步時(shí),不應(yīng)該只想到算力規(guī)模的提升或巧妙的機(jī)器學(xué)習(xí)研究思路,還應(yīng)該意識(shí)到:背后是數(shù)十億美元的投入,用來(lái)支付博士、醫(yī)生以及其他專家,讓他們圍繞這些特定能力編寫問(wèn)題、給出示例答案和推理過(guò)程。從某種意義上說(shuō),這就像是專家系統(tǒng)時(shí)代的一次大規(guī)模重演,只不過(guò)這一次不是讓專家把思維直接寫成代碼,而是讓他們提供大量被形式化、被追蹤的推理樣本,然后我們通過(guò)行為克隆把這些蒸餾進(jìn)模型里。這讓我對(duì) AI 時(shí)間線略微傾向于更長(zhǎng),因?yàn)槿绱司薮蟮呐Σ拍転榍把叵到y(tǒng)設(shè)計(jì)出高質(zhì)量的人類軌跡和環(huán)境,恰恰說(shuō)明它們?nèi)匀蝗狈σ粋€(gè)真正 AGI 所必須具備的關(guān)鍵學(xué)習(xí)核心。

      這種張力在機(jī)器人領(lǐng)域表現(xiàn)得尤為明顯。從根本上說(shuō),機(jī)器人是一個(gè)算法問(wèn)題,而不是硬件或數(shù)據(jù)問(wèn)題。

      人類只需要很少的訓(xùn)練,就能學(xué)會(huì)遠(yuǎn)程操控現(xiàn)有硬件去完成有用的工作。所以,如果我們真的擁有一種類人的學(xué)習(xí)者,機(jī)器人問(wèn)題在很大程度上就已經(jīng)解決了。

      但正因?yàn)槲覀儧](méi)有這樣的學(xué)習(xí)者,才不得不跑到成千上萬(wàn)戶家庭里,去學(xué)習(xí)如何端盤子、如何疊衣服。

      我聽過(guò)一個(gè)來(lái)自“五年內(nèi)起飛”陣營(yíng)(極度技術(shù)樂(lè)觀派)的反駁觀點(diǎn):我們之所以要搞這些笨拙的強(qiáng)化學(xué)習(xí),是為了先造出一個(gè)超人類的 AI 研究員,然后讓一百萬(wàn)個(gè)自動(dòng)化的 Ilya 去想辦法解決如何從經(jīng)驗(yàn)中進(jìn)行穩(wěn)健而高效的學(xué)習(xí)。

      這讓我想起那個(gè)老笑話:我們每賣一單都在虧錢,但可以靠走量把錢賺回來(lái)。一個(gè)連兒童都具備的基本學(xué)習(xí)能力都沒(méi)有的自動(dòng)化研究員,卻要解決人類花了將近一個(gè)世紀(jì)都沒(méi)解決的 AGI 算法問(wèn)題?我覺(jué)得這極其不可信。

      此外,即便你認(rèn)為 RLVR 的規(guī)模化很快就能幫助我們自動(dòng)化 AI 研究,實(shí)驗(yàn)室的實(shí)際行動(dòng)卻表明它們并不相信這一點(diǎn)。

      要自動(dòng)化 Ilya,并不需要提前把做 PowerPoint 的咨詢顧問(wèn)技能塞進(jìn)模型里。而現(xiàn)在它們這么做,清楚地暗示了這樣一種看法:這些模型在泛化能力和在崗學(xué)習(xí)(on-the-job learning)方面仍然表現(xiàn)糟糕,因此才必須提前內(nèi)置那些他們希望在經(jīng)濟(jì)上有價(jià)值的技能。

      RLVR:Reinforcement Learning with Verifiable Rewards,指帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)

      另一種反駁是,即使模型能夠在工作中學(xué)會(huì)這些技能,把它們一次性在訓(xùn)練階段學(xué)好,總比為每個(gè)用戶或每家公司反復(fù)學(xué)習(xí)要高效得多。

      確實(shí),把對(duì)瀏覽器、終端等常用工具的熟練度預(yù)先內(nèi)置進(jìn)去是很合理的。AGI 的一個(gè)關(guān)鍵優(yōu)勢(shì),本來(lái)就是不同實(shí)例之間可以共享知識(shí)。

      但人們嚴(yán)重低估了大多數(shù)工作對(duì)公司特定、情境特定技能的依賴程度,而目前 AI 并不存在一種穩(wěn)健且高效的方法來(lái)習(xí)得這些技能。

      人類勞動(dòng)力之所以有價(jià)值,恰恰是因?yàn)橛?xùn)練成本并不笨重

      有一次我和一位 AI 研究員以及一位生物學(xué)家一起吃飯。那位生物學(xué)家說(shuō)她認(rèn)為 AI 的時(shí)間線很長(zhǎng)。我們問(wèn)她覺(jué)得 AI 會(huì)在哪些地方遇到困難。

      她說(shuō)她最近的工作加入了看切片的部分,判斷某個(gè)小點(diǎn)到底是真正的巨噬細(xì)胞,還是只是看起來(lái)像。AI 研究員則回應(yīng)說(shuō):圖像分類是深度學(xué)習(xí)的教科書級(jí)問(wèn)題,這個(gè)很容易訓(xùn)練。

      我覺(jué)得這段對(duì)話非常有意思,因?yàn)樗沂玖宋液湍切┢诖磥?lái)幾年出現(xiàn)顛覆性經(jīng)濟(jì)影響的人之間的一個(gè)關(guān)鍵分歧。人類工作者之所以有價(jià)值,正是因?yàn)槲覀儾恍枰獮樗麄児ぷ鞯拿恳粋€(gè)小環(huán)節(jié)都搭建笨重的訓(xùn)練閉環(huán)。

      針對(duì)某個(gè)實(shí)驗(yàn)室特定的切片制備方式,單獨(dú)訓(xùn)練一個(gè)模型來(lái)識(shí)別巨噬細(xì)胞,然后再為下一個(gè)實(shí)驗(yàn)室、下一個(gè)微任務(wù)重復(fù)一遍,這在整體上是得不償失的。真正需要的是一種 AI,能夠像人類一樣,從語(yǔ)義反饋或自我驅(qū)動(dòng)的經(jīng)驗(yàn)中學(xué)習(xí),并且實(shí)現(xiàn)泛化。

      每天,你都要做上百件需要判斷力、情境感知,以及在工作中習(xí)得的技能和背景知識(shí)的事情。這些任務(wù)不僅在不同人之間不同,甚至同一個(gè)人前后兩天做的事情都不一樣。

      僅靠預(yù)先內(nèi)置一組固定技能,連一份工作都無(wú)法完全自動(dòng)化,更不用說(shuō)所有工作了。

      事實(shí)上,我認(rèn)為人們嚴(yán)重低估了真正 AGI 的沖擊力,因?yàn)樗麄冎皇前熏F(xiàn)在這一套無(wú)限延展。他們沒(méi)有意識(shí)到,真正的 AGI 意味著服務(wù)器上運(yùn)行著數(shù)十億個(gè)類人智能體,能夠復(fù)制、融合彼此的全部學(xué)習(xí)成果。

      說(shuō)清楚一點(diǎn),我確實(shí)預(yù)計(jì)這種意義上的 AGI 會(huì)在未來(lái)一二十年內(nèi)出現(xiàn)。這實(shí)在是太瘋狂了。

      所謂經(jīng)濟(jì)擴(kuò)散滯后,其實(shí)是在為能力不足找借口

      有時(shí)候人們會(huì)說(shuō),AI 之所以還沒(méi)有在企業(yè)中廣泛部署、在編程之外創(chuàng)造大量?jī)r(jià)值,是因?yàn)榧夹g(shù)擴(kuò)散本來(lái)就需要很長(zhǎng)時(shí)間。

      我認(rèn)為這是一種自我安慰,是在掩蓋一個(gè)事實(shí):這些模型根本就缺乏創(chuàng)造廣泛經(jīng)濟(jì)價(jià)值所必需的能力。

      Steven Byrnes 就這一點(diǎn)以及許多相關(guān)問(wèn)題寫過(guò)一篇非常出色的文章:

      新技術(shù)需要很長(zhǎng)時(shí)間才能融入經(jīng)濟(jì)體系?那你不妨問(wèn)問(wèn)自己:那些高技能、有經(jīng)驗(yàn)、有創(chuàng)業(yè)精神的移民,為什么能夠立刻融入經(jīng)濟(jì)體系?想清楚這個(gè)問(wèn)題之后你就會(huì)發(fā)現(xiàn),AGI 也能做到同樣的事情。

      如果這些模型真的相當(dāng)于“服務(wù)器上的人類”,它們的擴(kuò)散速度會(huì)快得驚人。事實(shí)上,它們比普通人類員工更容易整合和入職,可以在幾分鐘內(nèi)讀完你的 Slack 和 Drive,并立刻提煉出你其他 AI 員工掌握的全部技能。

      而且,招聘本身就很像一個(gè)檸檬市場(chǎng),很難判斷誰(shuí)是好員工,招錯(cuò)人的成本也非常高。但當(dāng)你只是啟動(dòng)另一個(gè)已經(jīng)驗(yàn)證過(guò)的 AGI 實(shí)例時(shí),這種問(wèn)題根本不存在。

      檸檬市場(chǎng)是指在信息不對(duì)稱條件下,消費(fèi)者難以辨別商品質(zhì)量而傾向壓低支付價(jià)格,結(jié)果優(yōu)質(zhì)商品退出、市場(chǎng)逐步被劣質(zhì)商品主導(dǎo)的現(xiàn)象。

      因此,我預(yù)計(jì)把 AI 勞動(dòng)力引入企業(yè)會(huì)比招聘人類容易得多。而企業(yè)一直在不斷招人。

      如果能力真的達(dá)到了 AGI 水平,人們完全愿意每年花費(fèi)數(shù)萬(wàn)億美元購(gòu)買 token,因?yàn)橹R(shí)工作者每年的總薪酬本身就高達(dá)數(shù)十萬(wàn)億美元。

      實(shí)驗(yàn)室當(dāng)前收入差了四個(gè)數(shù)量級(jí),原因只有一個(gè):模型距離人類知識(shí)工作者的能力還差得太遠(yuǎn)。

      調(diào)整目標(biāo)標(biāo)準(zhǔn)是合理的

      AI 多頭經(jīng)常批評(píng) AI 空頭不斷調(diào)整目標(biāo)標(biāo)準(zhǔn)。這種批評(píng)在很多時(shí)候是成立的。過(guò)去十年,AI 確實(shí)取得了巨大的進(jìn)展,人們很容易忽視這一點(diǎn)。

      但在某種程度上,調(diào)整目標(biāo)標(biāo)準(zhǔn)是合理的。如果你在 2020 年給我看 Gemini 3,我一定會(huì)確信它能夠自動(dòng)化一半的知識(shí)工作。

      我們不斷攻克那些曾被認(rèn)為是通往 AGI 的關(guān)鍵瓶頸,比如通用理解、少樣本學(xué)習(xí)、推理能力,但我們依然沒(méi)有 AGI。如果把 AGI 定義為能夠自動(dòng)化 95% 的知識(shí)工作崗位,那理性的反應(yīng)是什么?

      一個(gè)完全合理的結(jié)論是:原來(lái)智能和勞動(dòng)比我以前理解的要復(fù)雜得多。盡管我們已經(jīng)非常接近,甚至在很多方面已經(jīng)超過(guò)了我過(guò)去對(duì) AGI 的定義,但模型公司并沒(méi)有賺到數(shù)萬(wàn)億美元這一事實(shí),清楚地說(shuō)明了我之前對(duì) AGI 的定義過(guò)于狹隘。

      我預(yù)計(jì)這種情況在未來(lái)還會(huì)不斷發(fā)生。我預(yù)計(jì)到 2030 年,前沿實(shí)驗(yàn)室會(huì)在我一直關(guān)注的持續(xù)學(xué)習(xí)問(wèn)題上取得顯著進(jìn)展,模型的年收入將達(dá)到數(shù)千億美元,但它們?nèi)匀粺o(wú)法自動(dòng)化全部知識(shí)工作。

      到那時(shí)我可能會(huì)說(shuō):我們?nèi)〉昧撕艽筮M(jìn)步,但還沒(méi)到 AGI。要實(shí)現(xiàn)萬(wàn)億美元級(jí)別的收入,我們還需要 X、Y、Z 這些東西。

      模型在“看起來(lái)很厲害”這件事上的進(jìn)步速度,符合短時(shí)間線派的預(yù)測(cè);但在“真正變得有用”這件事上的進(jìn)展速度,卻更符合長(zhǎng)時(shí)間線派的判斷。

      預(yù)訓(xùn)練規(guī)?;慕?jīng)驗(yàn)不一定使用于強(qiáng)化學(xué)習(xí)

      在預(yù)訓(xùn)練階段,我們看到的是一種極其干凈、普適的趨勢(shì):隨著算力跨越多個(gè)數(shù)量級(jí),損失函數(shù)穩(wěn)定下降,盡管這是一個(gè)冪律關(guān)系,是指數(shù)增長(zhǎng)的反面(albeit on a power law, which is as weak as exponential growth is strong)。

      人們正試圖把這種幾乎像物理定律一樣可預(yù)測(cè)的預(yù)訓(xùn)練規(guī)?;?jīng)驗(yàn)看法,轉(zhuǎn)移到 RLVR 上,用來(lái)支撐對(duì)后者的樂(lè)觀預(yù)測(cè)。

      但事實(shí)上,RLVR 并不存在任何擬合良好的公開趨勢(shì)。當(dāng)一些勇敢的研究者試圖從零星的公開數(shù)據(jù)中拼湊結(jié)論時(shí),得到的結(jié)果往往相當(dāng)悲觀。

      比如 Toby Ord 寫過(guò)一篇文章,巧妙地把不同 o 系列基準(zhǔn)圖表聯(lián)系起來(lái),得出的結(jié)論是:要獲得類似 GPT 級(jí)別的提升,強(qiáng)化學(xué)習(xí)的總算力規(guī)??赡苄枰嵘揭话偃f(wàn)倍。

      與人類分布的對(duì)比,會(huì)先讓我們高估 AI,然后再低估它

      不同人類能夠創(chuàng)造的價(jià)值差異巨大,尤其是在存在 O-ring 理論描述的白領(lǐng)工作中。

      一個(gè)“村里的傻子”對(duì)知識(shí)工作幾乎沒(méi)有價(jià)值,而頂級(jí) AI 研究員對(duì)馬克·扎克伯格來(lái)說(shuō)可能價(jià)值數(shù)十億美元。

      O-ring理論:在由多個(gè)關(guān)鍵環(huán)節(jié)構(gòu)成的高價(jià)值工作中,整體產(chǎn)出是“乘法關(guān)系”,任何一個(gè)環(huán)節(jié)出錯(cuò)都會(huì)讓全部?jī)r(jià)值大幅歸零,因此頂級(jí)能力的價(jià)值會(huì)被極端放大。

      但在任何一個(gè)時(shí)間截面上,AI 模型的能力基本是齊平的。人類存在巨大差異,而模型沒(méi)有。

      由于知識(shí)工作中相當(dāng)大一部分價(jià)值來(lái)自最頂尖的那一小撮人,如果我們把 AI 模型的智能水平與“中位數(shù)人類”相比,就會(huì)系統(tǒng)性地高估它們能創(chuàng)造的價(jià)值。但反過(guò)來(lái)說(shuō),一旦模型真正達(dá)到了頂級(jí)人類的水平,其影響力可能會(huì)是爆炸式的。

      廣泛部署帶來(lái)的智能爆炸

      人們花了大量時(shí)間討論純軟件奇點(diǎn)、軟硬件結(jié)合的奇點(diǎn),以及各種變體。

      但這些設(shè)想都忽視了我認(rèn)為 AGI 之后能力繼續(xù)提升的主要驅(qū)動(dòng)力:持續(xù)學(xué)習(xí)。再想想人類是如何在任何領(lǐng)域變得更強(qiáng)的,主要來(lái)源就是相關(guān)領(lǐng)域的經(jīng)驗(yàn)。

      在一次交流中,Beren Millidge 提出了一個(gè)很有意思的設(shè)想:未來(lái)可能是持續(xù)學(xué)習(xí)的智能體走出去做具體工作、創(chuàng)造價(jià)值,然后把所有學(xué)習(xí)成果帶回一個(gè)蜂群心智模型,由它對(duì)所有智能體進(jìn)行某種批量蒸餾。

      這些智能體本身可以高度專門化,包含 Karpathy 所說(shuō)的“認(rèn)知核心”,再加上與其具體工作相關(guān)的知識(shí)和技能。

      持續(xù)學(xué)習(xí)的“解決”不會(huì)是一蹴而就的成就,而更像是上下文學(xué)習(xí)的解決過(guò)程。

      GPT-3 展示了上下文學(xué)習(xí)的巨大潛力。但我們并沒(méi)有在 GPT-3 出現(xiàn)時(shí)就“解決”上下文學(xué)習(xí),從理解能力到上下文長(zhǎng)度,仍然有大量改進(jìn)空間。

      我預(yù)計(jì)持續(xù)學(xué)習(xí)也會(huì)經(jīng)歷類似的演進(jìn)過(guò)程。

      實(shí)驗(yàn)室很可能在明年發(fā)布一些他們稱之為持續(xù)學(xué)習(xí)的功能,這確實(shí)算是向持續(xù)學(xué)習(xí)邁進(jìn)了一步,但要達(dá)到人類水平的持續(xù)學(xué)習(xí),可能還需要 5 到 10 年的進(jìn)一步發(fā)展。

      這也是為什么我不認(rèn)為第一個(gè)在持續(xù)學(xué)習(xí)上取得突破的模型會(huì)立刻獲得失控式的領(lǐng)先優(yōu)勢(shì)。

      從部署中學(xué)習(xí)(learning-from-deployment)的收益也很可能存在邊際遞減。前一千個(gè)咨詢型智能體會(huì)從部署中學(xué)到很多,接下來(lái)的一千個(gè)就少一些。至于第一百萬(wàn)個(gè)實(shí)例,真的還有可能看到前面 999999 個(gè)都沒(méi)看到的重要東西嗎?

      此外,我有一種主觀判斷:競(jìng)爭(zhēng)仍將保持激烈。過(guò)去那些被寄予厚望的飛輪機(jī)制,幾乎都沒(méi)能削弱模型公司之間的競(jìng)爭(zhēng)。

      幾乎每個(gè)月,頭部三家都會(huì)在領(lǐng)獎(jiǎng)臺(tái)上輪換位置,其他競(jìng)爭(zhēng)者也并沒(méi)有落后太遠(yuǎn)。似乎存在某種力量,一直在消解任何一家實(shí)驗(yàn)室可能獲得的失控式優(yōu)勢(shì)。

      精選評(píng)論

      Will Michaels:似乎人類能夠快速學(xué)習(xí)的原因之一是,人類可能產(chǎn)生的誤解空間受到嚴(yán)格限制,并且在很大程度上是可預(yù)測(cè)的。例如,在學(xué)習(xí)微積分時(shí),大多數(shù)容易出錯(cuò)或產(chǎn)生混淆的點(diǎn)都非常常見,因此在教授他人時(shí)可以直接指出。

      而 AI 所犯的錯(cuò)誤既不可預(yù)測(cè)(同一個(gè) AI 在不同情況下會(huì)犯不同的錯(cuò)誤),又不直觀(我們無(wú)法準(zhǔn)確判斷 AI 什么時(shí)候可靠,什么時(shí)候不可靠)。

      這就導(dǎo)致要?jiǎng)?chuàng)建一個(gè)能夠既識(shí)別所有可能錯(cuò)誤,又對(duì)其進(jìn)行正確懲罰的學(xué)習(xí)環(huán)境,變得異常困難。

      這當(dāng)然和你關(guān)于持續(xù)學(xué)習(xí)的更廣泛觀點(diǎn)相關(guān)。如果我們能夠設(shè)計(jì)出一種模型架構(gòu),使 AI 的失敗方式變得可預(yù)測(cè),那么這似乎將是邁向持續(xù)學(xué)習(xí)的一大步。

      Argos:文章寫得不錯(cuò),但我覺(jué)得你可能有些過(guò)于自信。我感覺(jué)你引用的那些報(bào)告對(duì)你所作出的強(qiáng)烈論斷支持力度很弱,而且也可以有其他解讀。

      OpenAI 在其強(qiáng)化學(xué)習(xí)訓(xùn)練流程中使用了大量高度專業(yè)化的技能,這表明強(qiáng)化學(xué)習(xí)訓(xùn)練并不真正具備泛化能力。

      實(shí)際上,被引用的文章只是說(shuō) OpenAI 雇了一些華爾街人士來(lái)生成數(shù)據(jù)。我覺(jué)得更可能的情況是,OpenAI 想利用這些數(shù)據(jù)在短期內(nèi)為高付費(fèi)客戶提供專業(yè)化模型,而不是作為他們通向 AGI 的通用方法。相反的證據(jù)可能是 OpenAI 從經(jīng)濟(jì)的更多不同領(lǐng)域獲取類似數(shù)據(jù)。

      AI 還沒(méi)有被廣泛部署,這表明我們還沒(méi)有達(dá)到 AGI。

      確實(shí)如此,但那些更合理、預(yù)期短時(shí)間內(nèi)會(huì)出現(xiàn) AGI 的人并沒(méi)有說(shuō)我們已經(jīng)達(dá)到了 AGI。如果你有一些表現(xiàn)不錯(cuò)但不夠可靠、無(wú)法完全匹配人類能力的智能體,那么擴(kuò)散緩慢是一個(gè)合理的論據(jù)。據(jù)許多觀點(diǎn)來(lái)看,Claude Code 非常有用,但如果讓它作為自主員工,它就毫無(wú)用處。

      注意,Claude Code(CC)釋放了模型的價(jià)值:使用 Claude 的聊天界面來(lái)編程會(huì)大幅減少價(jià)值增益,而且使 CC 達(dá)到目前水平也需要大量工程努力。如果 CC 和其他編程智能體不存在,你就會(huì)錯(cuò)誤地認(rèn)為最前沿的模型在編程上用處沒(méi)那么大。目前很可能,模型在許多其他具有經(jīng)濟(jì)價(jià)值的任務(wù)上的價(jià)值增益,也正受制于有人投入大量資源來(lái)搭建這種“支撐體系”。

      Daniel Kokotajlo:精彩的文章!一些想法:(1)在 《AI 2027》 的設(shè)想中,持續(xù)學(xué)習(xí)會(huì)逐漸被解決。在 2027 年初之前,它只是對(duì)現(xiàn)有范式的增量改進(jìn)——例如找到讓模型更頻繁更新的方法,比如每月、每周更新,而不是每幾個(gè)月更新。然后在 2027 年中期,由于研發(fā)自動(dòng)化帶來(lái)的加速效應(yīng),它們會(huì)變得更加系統(tǒng)可靠、實(shí)現(xiàn)范式迭代并且更像人類。

      我仍然預(yù)計(jì)類似的事情會(huì)發(fā)生,盡管我認(rèn)為可能需要更長(zhǎng)時(shí)間。你在上文中說(shuō)過(guò)“這些愚蠢、不具備持續(xù)學(xué)習(xí)能力的 LLM 智能體怎么可能學(xué)會(huì)持續(xù)學(xué)習(xí)呢?”我認(rèn)為答案很簡(jiǎn)單:它們只需要顯著加速通常的 AI 研發(fā)過(guò)程。舉個(gè)例子,如果你覺(jué)得以當(dāng)前算法進(jìn)展的速度,持續(xù)學(xué)習(xí)還需要 10-20 年,那么如果你也覺(jué)得 Claude Opus 7.7 基本上能夠自動(dòng)完成所有編碼工作,并且還可以很好地分析實(shí)驗(yàn)結(jié)果、提出消融建議等,那么合理的結(jié)論是:幾年后,原本剩下的 5-15 年時(shí)間可能會(huì)被壓縮到剩下的 1-3 年。

      (2)現(xiàn)有范式確實(shí)似乎需要比人類更多的 RLVR 訓(xùn)練數(shù)據(jù)才能在某項(xiàng)任務(wù)上表現(xiàn)良好。確實(shí)如此。然而一旦足夠強(qiáng)大,上下文學(xué)習(xí)(in-context learning)也可能基本上成為一種持續(xù)學(xué)習(xí)形式?也許,通過(guò)足夠多樣化的 RL 環(huán)境,你可以實(shí)現(xiàn)類似預(yù)訓(xùn)練在常識(shí)理解上達(dá)成的效果,但用于智能體的自主能力。你可以獲得通用型智能體,它們可以被直接投放到新環(huán)境中,并在執(zhí)行過(guò)程中自行摸索,同時(shí)在它們的草稿板/鏈?zhǔn)剿季S(CoT)記憶庫(kù)文件系統(tǒng)中做筆記。

      也可以考慮集體而非單個(gè) LLM 智能體,就像“公司中的公司”(由智能體集體構(gòu)成的集體)。未來(lái),這個(gè)集體可能會(huì)自主管理一個(gè)龐大的包含數(shù)據(jù)收集、問(wèn)題識(shí)別、RLVR 環(huán)境生成等各方面的處理流程,這個(gè)流程本身就像是集體的持續(xù)學(xué)習(xí)機(jī)制。例如,集體可能自主決定學(xué)習(xí)某項(xiàng)技能 XYZ 很重要(可能是因?yàn)榉治鲕壽E、與客戶交流并了解有限的 XYZ 技能如何阻礙它們的工作),然后它們可以調(diào)動(dòng)相當(dāng)于數(shù)千名工程師的勞動(dòng)力來(lái)搭建相關(guān)環(huán)境、進(jìn)行訓(xùn)練、更新模型等。

      集體仍然可能需要例如比人類多 1000 倍的數(shù)據(jù)才能在某項(xiàng)任務(wù)上表現(xiàn)良好,但因?yàn)樗鼡碛袛?shù)萬(wàn)份復(fù)制在外收集數(shù)據(jù),并且智能地管理數(shù)據(jù)收集過(guò)程,它總體上能夠比人類更快速地學(xué)習(xí)新技能和完成工作。(至少對(duì)于那些可以通過(guò)這種方式解決的技能和工作而言。但是其他的,比如贏得一場(chǎng)戰(zhàn)爭(zhēng)的技能,它無(wú)法通過(guò)這種方式學(xué)習(xí),因?yàn)樗荒馨?1000 個(gè)副本投入到 1000 場(chǎng)不同的戰(zhàn)爭(zhēng)中去。)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      2026身份證換證潮來(lái)了?官方提醒:3類人不用動(dòng),7種情況必須換

      2026身份證換證潮來(lái)了?官方提醒:3類人不用動(dòng),7種情況必須換

      復(fù)轉(zhuǎn)這些年
      2025-12-26 19:38:24
      遇到橫的,美國(guó)就軟了!“貝拉1號(hào)”油輪宣布:美軍就是紙老虎

      遇到橫的,美國(guó)就軟了!“貝拉1號(hào)”油輪宣布:美軍就是紙老虎

      我心縱橫天地間
      2025-12-27 12:56:14
      全國(guó)秋糧收購(gòu)已超2億噸

      全國(guó)秋糧收購(gòu)已超2億噸

      新華社
      2025-12-27 17:09:06
      電風(fēng)扇的回歸 為火箭帶來(lái)了什么 烏度卡為何敢瘋狂整活

      電風(fēng)扇的回歸 為火箭帶來(lái)了什么 烏度卡為何敢瘋狂整活

      大話火箭隊(duì)
      2025-12-27 16:25:45
      沖上熱搜,湖人內(nèi)訌爆發(fā)!矛頭直指詹姆斯,名嘴:他走人最佳方案

      沖上熱搜,湖人內(nèi)訌爆發(fā)!矛頭直指詹姆斯,名嘴:他走人最佳方案

      阿泰希特
      2025-12-27 12:11:28
      9000mAh!新機(jī)官宣:12月26日,開啟預(yù)售!

      9000mAh!新機(jī)官宣:12月26日,開啟預(yù)售!

      科技堡壘
      2025-12-26 15:16:24
      李霄鵬無(wú)限接近簽約,蒿俊閔或隨之加盟,新賽季劍指中甲冠軍

      李霄鵬無(wú)限接近簽約,蒿俊閔或隨之加盟,新賽季劍指中甲冠軍

      梅亭談
      2025-12-27 19:15:40
      臺(tái)灣宜蘭縣海域發(fā)生6.6級(jí)地震

      臺(tái)灣宜蘭縣海域發(fā)生6.6級(jí)地震

      中國(guó)地震臺(tái)網(wǎng)速報(bào)
      2025-12-27 23:31:33
      外媒:馬來(lái)西亞前總理被判罪名成立

      外媒:馬來(lái)西亞前總理被判罪名成立

      參考消息
      2025-12-26 22:02:08
      赴云南舉行會(huì)晤前,柬泰發(fā)聲

      赴云南舉行會(huì)晤前,柬泰發(fā)聲

      參考消息
      2025-12-27 21:48:54
      廣州“一線保衛(wèi)戰(zhàn)”:一線城市里唯一的省會(huì),會(huì)被新一線取代嗎?

      廣州“一線保衛(wèi)戰(zhàn)”:一線城市里唯一的省會(huì),會(huì)被新一線取代嗎?

      劉小順
      2025-12-27 12:44:21
      廣東隊(duì)迎來(lái)一個(gè)壞消息!2米05鋒線悍將重傷 本賽季提前報(bào)銷

      廣東隊(duì)迎來(lái)一個(gè)壞消息!2米05鋒線悍將重傷 本賽季提前報(bào)銷

      體育哲人
      2025-12-27 16:22:50
      男子植6個(gè)心臟支架去世,該院醫(yī)生7次致電勸其再做手術(shù),稱外聘專家需湊夠患者,“多做1個(gè)支架多活十年”

      男子植6個(gè)心臟支架去世,該院醫(yī)生7次致電勸其再做手術(shù),稱外聘專家需湊夠患者,“多做1個(gè)支架多活十年”

      觀威海
      2025-12-26 09:06:03
      敲詐中國(guó)10億美元、拒絕中國(guó)飛機(jī)借道,如今又開始找中國(guó)合作?

      敲詐中國(guó)10億美元、拒絕中國(guó)飛機(jī)借道,如今又開始找中國(guó)合作?

      文史旺旺旺
      2025-12-25 19:10:06
      太夸張了!iPhone 17 單月銷量超 600 萬(wàn)臺(tái),創(chuàng)歷史新紀(jì)錄

      太夸張了!iPhone 17 單月銷量超 600 萬(wàn)臺(tái),創(chuàng)歷史新紀(jì)錄

      XCiOS俱樂(lè)部
      2025-12-26 19:34:41
      帕金斯:詹姆斯的肢體語(yǔ)言透露出沮喪,他與湖人的關(guān)系已到盡頭

      帕金斯:詹姆斯的肢體語(yǔ)言透露出沮喪,他與湖人的關(guān)系已到盡頭

      懂球帝
      2025-12-27 20:20:08
      臺(tái)灣省媒體人曝朱孝天猛料!他以前就很怪,是F4里可有可無(wú)的存在

      臺(tái)灣省媒體人曝朱孝天猛料!他以前就很怪,是F4里可有可無(wú)的存在

      小徐講八卦
      2025-12-25 12:52:21
      漲價(jià)在即,碳纖維概念牛股7連板!市盈率最低的是這幾只

      漲價(jià)在即,碳纖維概念牛股7連板!市盈率最低的是這幾只

      數(shù)據(jù)寶
      2025-12-27 17:48:11
      歐文:現(xiàn)在不會(huì)和希勒有任何交流,他當(dāng)年對(duì)我的批評(píng)是個(gè)錯(cuò)誤

      歐文:現(xiàn)在不會(huì)和希勒有任何交流,他當(dāng)年對(duì)我的批評(píng)是個(gè)錯(cuò)誤

      懂球帝
      2025-12-27 04:25:05
      西北局準(zhǔn)備處決兩名干部,莫文驊當(dāng)場(chǎng)頂撞:不講王法,我看誰(shuí)敢動(dòng)

      西北局準(zhǔn)備處決兩名干部,莫文驊當(dāng)場(chǎng)頂撞:不講王法,我看誰(shuí)敢動(dòng)

      舊書卷里的長(zhǎng)安
      2025-12-27 23:48:17
      2025-12-28 01:15:00
      象先志 incentive-icons
      象先志
      專注互聯(lián)網(wǎng)、電商,聚焦產(chǎn)業(yè)、核心,洞察前沿、趨勢(shì)
      81文章數(shù) 5關(guān)注度
      往期回顧 全部

      科技要聞

      小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

      體育要聞

      83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

      娛樂(lè)要聞

      張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

      財(cái)經(jīng)要聞

      注意,開始拉物價(jià)了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      本地
      公開課
      軍事航空

      藝術(shù)要聞

      驚艷!這件木雕美得讓人心動(dòng),絕對(duì)不容錯(cuò)過(guò)!

      旅游要聞

      “請(qǐng)3休8”倒計(jì)時(shí),12月27日迎來(lái)元旦假期首波出游高峰

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄稱已控制庫(kù)皮揚(yáng)斯克 正清繳烏軍

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲伊人情人综合网站| 卢龙县| 亚洲精品国产成人| 亚洲精品国产精品国自产观看 | 日韩在线视频观看免费网站| 中国女人做爰A片| 97色婷婷| 国产乱人伦av在线无码| 最近日本免费观看高清视频 | 中文字幕人妻熟女人妻a?6| 亚洲精品久久| 国产成人av三级在线观看| 毛片网站在线观看| 一区二区三区久久| 无码中文字幕| 久久亚洲精品中文字幕| 99久久国产综合精品成人影院| 97无码国产精品久久久日本| 性爱综合网| 婷婷成人丁香五月综合激情| 国产精品一区二区三乱码| 久久精品国产免费观看频道| 两个人看的www| 国产成人av免费网址| 无码人妻精品一区二区三区9厂 | 色悠悠撸视频| 新闻| 免费无遮挡无码永久视频| 色欲色香天天天综合网站免费| 成人AV天堂| 综合天天久久| 亚洲高清国产拍精品网络战 | 国产精品美女乱子伦高| 无码国产成人午夜电影在线观看| 久久99视频| 日韩美女久久| 久久天堂av综合合色蜜桃网| 国产一区二区av天堂热| av无码免费| 欧美成人免费全部网站| 色噜噜狠狠色综合日日|