<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      Karpathy再放大招:8000行代碼復(fù)現(xiàn)ChatGPT全棧,最低成本僅100美元,4小時(shí)跑完

      0
      分享至


      剛剛,Andrej Karpathy發(fā)布了一個(gè)新的項(xiàng)目:nanochat。

      與之前只覆蓋預(yù)訓(xùn)練的nanoGPT不同,nanochat是一個(gè)從頭開始、代碼極簡的全棧式ChatGPT克隆體訓(xùn)練/推理流水線。它被集成在一個(gè)單一、依賴極少的代碼庫中

      Karpathy表示,用戶只需啟動(dòng)一個(gè)云端GPU機(jī)器,運(yùn)行一個(gè)腳本,最快4小時(shí)后,就能在類似ChatGPT的網(wǎng)頁界面中與自己訓(xùn)練的LLM對話


      整個(gè)項(xiàng)目代碼量約8000行,覆蓋了以下完整流程:

      訓(xùn)練分詞器:使用新的Rust實(shí)現(xiàn)

      預(yù)訓(xùn)練:在FineWeb上預(yù)訓(xùn)練一個(gè)Transformer LLM,并根據(jù)多項(xiàng)指標(biāo)評(píng)估CORE分?jǐn)?shù)

      中間訓(xùn)練:在來自SmolTalk的用戶-助手對話、多項(xiàng)選擇題和工具使用數(shù)據(jù)上進(jìn)行訓(xùn)練

      SFT(監(jiān)督微調(diào)):在世界知識(shí)選擇題(ARC-E/C, MMLU)、數(shù)學(xué)(GSM8K)和代碼(HumanEval)上對聊天模型進(jìn)行微調(diào)和評(píng)估

      RL(強(qiáng)化學(xué)習(xí)):可選地使用“GRPO”在GSM8K上對模型進(jìn)行強(qiáng)化學(xué)習(xí)

      高效推理:在帶有KV緩存的引擎中進(jìn)行高效推理,支持簡單的prefill/decode和工具使用(在輕量級(jí)沙箱中調(diào)用Python解釋器),并可通過命令行或類似ChatGPT的WebUI進(jìn)行交互

      生成報(bào)告卡:撰寫一份markdown格式的報(bào)告卡,對整個(gè)過程進(jìn)行總結(jié)和游戲化呈現(xiàn)

      成本與性能

      Karpathy詳細(xì)介紹了不同投入下的模型表現(xiàn):

      約100美元成本(在8xH100節(jié)點(diǎn)上訓(xùn)練約4小時(shí)):可以訓(xùn)練出一個(gè)能進(jìn)行簡單對話、寫故事/詩歌、回答簡單問題的小ChatGPT克隆體

      約12小時(shí)訓(xùn)練:CORE指標(biāo)超過GPT-2

      更高投入,約1000美元成本(約41.6小時(shí)訓(xùn)練):模型會(huì)變得更加連貫,能夠解決簡單的數(shù)學(xué)和代碼問題,并參加多項(xiàng)選擇題測試

      例如,一個(gè)深度為30、訓(xùn)練24小時(shí)的模型(其FLOPs約等于GPT-3 Small 125M,是GPT-3的1/1000),在MMLU測試上得分40多分,ARC-Easy上70多分,GSM8K上20多分

      Karpathy的目標(biāo)是將完整的強(qiáng)基線技術(shù)棧整合到一個(gè)有凝聚力、最小化、可讀、可破解、最大程度可fork的倉庫中。nanochat也將成為他仍在開發(fā)的LLM101n課程的頂點(diǎn)項(xiàng)目。他認(rèn)為,這個(gè)項(xiàng)目有潛力發(fā)展成為一個(gè)研究工具或基準(zhǔn),就像之前的nanoGPT一樣

      他也坦言,項(xiàng)目遠(yuǎn)未完成、調(diào)優(yōu)或優(yōu)化,可能還有很多容易優(yōu)化的部分,但目前的整體框架已經(jīng)足夠好,可以發(fā)布到GitHub上,讓社區(qū)共同改進(jìn)。

      GitHub倉庫地址:

      https://github.com/karpathy/nanochat

      更詳細(xì)的技術(shù)介紹:

      https://github.com/karpathy/nanochat/discussions/1

      技術(shù)細(xì)節(jié)與問答

      在發(fā)布后,Karpathy也回答了網(wǎng)友們關(guān)心的一些問題。

      問:這個(gè)模型訓(xùn)練的架構(gòu)是什么?

      Karpathy:基本上類似Llama,但更簡單一些,也受到一些修改版nanoGPT的影響。我試圖為這個(gè)規(guī)模找到一個(gè)堅(jiān)實(shí)的基線:

      密集Transformer

      旋轉(zhuǎn)嵌入(RoPE),無位置嵌入

      QK Norm

      Embedding和Unembedding權(quán)重不綁定

      Token embedding后接Norm

      MLP中使用relu^2激活函數(shù)

      RMSNorm中無可學(xué)習(xí)參數(shù)

      線性層中無偏置項(xiàng)

      多查詢注意力(MQA)

      Logit softcap

      優(yōu)化器是Muon+AdamW,深受修改版nanoGPT的影響。我有一個(gè)TODO是嘗試很好地調(diào)整Adam的學(xué)習(xí)率(例如按模塊調(diào)整)以移除Muon,但我還沒有足夠努力地去嘗試。

      問:我可以用它來訓(xùn)練我自己的數(shù)據(jù)嗎?比如我所有的Notion筆記、健康數(shù)據(jù)和其他LLM聊天記錄,來做一個(gè)理解我的個(gè)人聊天機(jī)器人?

      Karpathy:好問題。我認(rèn)為這個(gè)倉庫不適合做這件事。你應(yīng)該把這些微型模型更多地看作是非常年幼的孩子(比如幼兒園水平),它們不具備那些更大模型的原始智能。如果你用自己的數(shù)據(jù)對它進(jìn)行微調(diào)/訓(xùn)練,你可能會(huì)得到一些有趣的模仿,風(fēng)格上感覺像你的寫作,但內(nèi)容會(huì)很糟糕。

      要實(shí)現(xiàn)你想要的效果,你需要更復(fù)雜的流程:

      1.獲取你的原始數(shù)據(jù)。
      2.在其之上進(jìn)行大量的合成數(shù)據(jù)生成和重寫(這很棘手,不簡單,屬于研究范疇)。
      3.在一個(gè)最先進(jìn)的開源LLM上進(jìn)行微調(diào)。
      4.你可能還需要混合大量的預(yù)訓(xùn)練數(shù)據(jù),以避免在微調(diào)過程中損失過多的原始智能。

      基本上,要讓這個(gè)工作得很好,仍然是研究領(lǐng)域的范疇,并不簡單。你最好的非研究選擇是,把你的所有寫作內(nèi)容交給像NotebookLM這樣的工具,它會(huì)通過RAG(檢索增強(qiáng)生成)來處理你的數(shù)據(jù)。你的數(shù)據(jù)通過RAG進(jìn)入上下文窗口,但不會(huì)影響模型權(quán)重。所以模型并不真正“了解你”,但這可能是你最容易接近的效果。

      問:這些代碼有多少是你手寫的?

      Karpathy:好問題,基本上完全是手寫的(配合Tab自動(dòng)補(bǔ)全)。我試過幾次使用Claude/Codex的AI智能體,但它們的效果根本不夠好,最終沒什么幫助,可能是因?yàn)檫@個(gè)倉庫偏離了它們的數(shù)據(jù)分布太遠(yuǎn)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      26歲漂亮女孩驅(qū)車慘死河中,凌晨還在夜場上班!更多細(xì)節(jié)流出…

      26歲漂亮女孩驅(qū)車慘死河中,凌晨還在夜場上班!更多細(xì)節(jié)流出…

      火山詩話
      2025-12-30 06:34:39
      暴跌99%虧損80億!中國市場200家全部關(guān)停,又一豪車巨頭扛不住了

      暴跌99%虧損80億!中國市場200家全部關(guān)停,又一豪車巨頭扛不住了

      財(cái)經(jīng)八卦
      2025-12-28 20:53:31
      全球首家市值突破 5萬億美元上市公司誕生

      全球首家市值突破 5萬億美元上市公司誕生

      證券時(shí)報(bào)
      2025-12-30 06:31:05
      全明星首輪投票結(jié)果出爐:東契奇暫列票王 詹杜排名下降庫里上升

      全明星首輪投票結(jié)果出爐:東契奇暫列票王 詹杜排名下降庫里上升

      羅說NBA
      2025-12-30 06:12:59
      央視畫面直達(dá)臺(tái)島,萬軍之中取海馬斯首級(jí),我軍370遠(yuǎn)火說到做到

      央視畫面直達(dá)臺(tái)島,萬軍之中取海馬斯首級(jí),我軍370遠(yuǎn)火說到做到

      頭條爆料007
      2025-12-29 22:19:12
      家長參與護(hù)學(xué)崗時(shí)突然倒地,送醫(yī)急救;張家界永定區(qū)教育局:正牽頭處置,會(huì)發(fā)通報(bào)

      家長參與護(hù)學(xué)崗時(shí)突然倒地,送醫(yī)急救;張家界永定區(qū)教育局:正牽頭處置,會(huì)發(fā)通報(bào)

      大風(fēng)新聞
      2025-12-30 10:22:02
      演員閆學(xué)晶“哭窮”引爭議!稱兒子年入不到40萬,卻需負(fù)擔(dān)家庭年開支80-100萬元,否則家庭無法運(yùn)轉(zhuǎn)

      演員閆學(xué)晶“哭窮”引爭議!稱兒子年入不到40萬,卻需負(fù)擔(dān)家庭年開支80-100萬元,否則家庭無法運(yùn)轉(zhuǎn)

      大象新聞
      2025-12-29 16:45:02
      成都男子炸4S店最新!1死4傷現(xiàn)場慘烈,知情人曝猛料,都是被逼的

      成都男子炸4S店最新!1死4傷現(xiàn)場慘烈,知情人曝猛料,都是被逼的

      云景侃記
      2025-12-29 14:19:49
      鄭麗文怒批賴清德:臺(tái)灣有民進(jìn)黨倒了八輩子霉!

      鄭麗文怒批賴清德:臺(tái)灣有民進(jìn)黨倒了八輩子霉!

      看看新聞Knews
      2025-12-29 18:21:04
      故宮原副院長被抄家,狗窩都用和田玉

      故宮原副院長被抄家,狗窩都用和田玉

      法經(jīng)網(wǎng)
      2025-12-29 21:01:33
      飯后吃藥,等于白吃?醫(yī)生多次提醒:一天中這些時(shí)間吃藥才最好

      飯后吃藥,等于白吃?醫(yī)生多次提醒:一天中這些時(shí)間吃藥才最好

      路醫(yī)生健康科普
      2025-12-16 12:45:03
      突發(fā)!3方交易方案出爐,小波特加盟活塞,場均22+3悍將馳援庫里

      突發(fā)!3方交易方案出爐,小波特加盟活塞,場均22+3悍將馳援庫里

      林子說事
      2025-12-30 09:17:08
      登上訪華專機(jī)前,美宣布18個(gè)月后對華加稅,不許中方做一件事

      登上訪華專機(jī)前,美宣布18個(gè)月后對華加稅,不許中方做一件事

      非凡觀點(diǎn)
      2025-12-29 09:47:30
      “他說這800萬是我們的后半生……”杭州55歲大姐遇“真愛”

      “他說這800萬是我們的后半生……”杭州55歲大姐遇“真愛”

      都市快報(bào)橙柿互動(dòng)
      2025-12-30 08:21:38
      110萬俄軍消失!俄烏誰在說謊?

      110萬俄軍消失!俄烏誰在說謊?

      高博新視野
      2025-12-27 18:16:14
      臺(tái)學(xué)者提醒賴清德小心導(dǎo)彈飛越臺(tái)島上空!臺(tái)軍“集體逃亡”畫面曝光

      臺(tái)學(xué)者提醒賴清德小心導(dǎo)彈飛越臺(tái)島上空!臺(tái)軍“集體逃亡”畫面曝光

      海峽導(dǎo)報(bào)社
      2025-12-29 22:56:03
      不請人也不外包,搞營銷視頻,一句話就「開拍」

      不請人也不外包,搞營銷視頻,一句話就「開拍」

      愛范兒
      2025-12-29 17:35:28
      廣東河源一村為取溫泉水設(shè)大量管線?網(wǎng)友:蜘蛛也得迷路,當(dāng)?shù)兀赫诮ㄐ钏亟鉀Q

      廣東河源一村為取溫泉水設(shè)大量管線?網(wǎng)友:蜘蛛也得迷路,當(dāng)?shù)兀赫诮ㄐ钏亟鉀Q

      瀟湘晨報(bào)
      2025-12-29 16:52:30
      談判進(jìn)入“最后階段”,棘手問題尚未解決,美烏總統(tǒng)談了3小時(shí)仍無突破

      談判進(jìn)入“最后階段”,棘手問題尚未解決,美烏總統(tǒng)談了3小時(shí)仍無突破

      環(huán)球網(wǎng)資訊
      2025-12-30 07:02:23
      飛行員舉報(bào)“情人詐騙700多萬”:從萬米高空的情書,到以“一般朋友”報(bào)案

      飛行員舉報(bào)“情人詐騙700多萬”:從萬米高空的情書,到以“一般朋友”報(bào)案

      紅星新聞
      2025-12-29 23:53:56
      2025-12-30 11:12:49
      AI寒武紀(jì) incentive-icons
      AI寒武紀(jì)
      專注于人工智能,科技領(lǐng)域
      1024文章數(shù) 393關(guān)注度
      往期回顧 全部

      科技要聞

      Manus官宣加入Meta,收購金額達(dá)數(shù)十億美金

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習(xí)

      頭條要聞

      媒體:賴清德稱"大陸不敢越雷池" 第二天解放軍就演習(xí)

      體育要聞

      這個(gè)59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      44歲林俊杰官宣戀情 帶23歲女友見家長

      財(cái)經(jīng)要聞

      翁杰明:宏觀數(shù)據(jù)與居民微觀感受存在差距

      汽車要聞

      標(biāo)配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態(tài)度原創(chuàng)

      健康
      時(shí)尚
      旅游
      親子
      手機(jī)

      這些新療法,讓化療不再那么痛苦

      碧姬·芭鐸,“穿衣自由”概念的祖師奶

      旅游要聞

      中國游客不重要?日本京都酒店價(jià)格已跳水

      親子要聞

      有了女兒后,你才會(huì)發(fā)現(xiàn)父女的奇妙聯(lián)結(jié)

      手機(jī)要聞

      HMD Pulse 2 Pro手機(jī)曝光:紫光展銳T7250芯片、6.72英寸屏幕

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲精品久久久久午夜福禁果tⅴ| 人妻窝窝| 2020久久超碰国产精品最新| 又黄又爽又无遮挡免费的网站| 无码人妻h动漫| 国产91丝袜在线播放动漫| 黑人一级片| 欧美性大战xxxxx久久久| 色欲av永久无码精品无码蜜桃| 亚洲中文无码手机永久| 一区二区淫网| 人人妻人人澡人人爽欧美一区九九| 国产欧美成人一区二区a片 | 亚洲精品乱码久久久久久蜜桃 | 中文无码人妻有码人妻中文字幕| 夜爽8888视频在线观看| 亚洲人妻av| 中文字幕人妻熟女人妻a片| 国产乱人伦av在线a麻豆| 久久91精品牛牛| 亚洲午夜视频| 国产高清在线a视频大全| 亚洲av无码成人影院一区| 狼友福利在线观看| 中国不卡一区| 亚洲精品乱码久久久久久不卡| 国产美女久久久亚洲综合| 熟女五码SV| 黄色综合网| 欧美老肥妇做爰bbww| 国产成人精品一区二区秒拍1o| 阿克| 熟妇人妻系列aⅴ无码专区友真希| 国产内射999视频一区| 成人福利午夜A片| 清河县| 黄网站色视频免费观看| 国产l精品国产亚洲区| 国产成a人亚洲精v品无码性色| 中国老妇xxxx性开放| 国产成人一区二区三区影院动漫|