<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      初學(xué)者怎么入門大語言模型(LLM)?

      0
      分享至

      最近發(fā)現(xiàn)一個非常好的學(xué)習(xí)資料,可以一次性的掌握從理論到從頭創(chuàng)建一個大模型,再到預(yù)訓(xùn)練,SFT(有監(jiān)督微調(diào)),甚至到最后還有RAG以及Agent的搭建方式,非常的齊全。

      就是這個Happy-LLM,Github將近10000星了,上升勢頭非常快。


      由于下個學(xué)期可能需要講一些類似的內(nèi)容,所以自己過了一遍,教程一共有7章,我把它分成了三個部分:1-4理論部分, 5-6大模型創(chuàng)建和訓(xùn)練實踐,7大模型擴(kuò)展應(yīng)用。


      學(xué)習(xí)過程中我總結(jié)出這么幾點學(xué)習(xí)經(jīng)驗:

      • 如果你是科班生,自學(xué)過NLP(自然語言處理)的相關(guān)內(nèi)容,你可以跳過第一章,只是一些基礎(chǔ)概念知識;

      • 如果你還在讀研或者以后想要搞大模型相關(guān)的科研,建議多花點時間讀2,3章,因為這里面會有大量的數(shù)學(xué)公式以及模型介紹,非常的細(xì),可以拿筆和本出來跟著算(模型魔改的Idea就從這里出了)

      • 如果你想了解LLM大模型訓(xùn)練背后的流程,那么第四章一定要好好看

      • (有卡再看)第五章講的是如何用代碼搭一個Llama2出來,以及如何訓(xùn)練,但即使是很小的模型,作者在8張Nvidia 4090的前提下,都花了46個小時。

      • (沒卡也能看)第六章適合窮人玩,從頭訓(xùn)練一個大模型對于個人來說沒有特別大的意義,用已有的開源大模型做繼續(xù)訓(xùn)練會更加適合普通人,這里面用的是Qwen的1.5B模型,對于一般的筆記本來說都沒什么問題,所以強(qiáng)推!

      • (第七章選讀)RAG,Agent的構(gòu)建其實有更方便的手段,比如LLM框架LangChain,LazyLLM等。

      所以總結(jié)下,要搞科研的,2,3,5必看,可以深入到算法層次;長見識的第四章看完足夠了;有錢有卡的大佬,可以著重看第五章,從頭訓(xùn)練一個大模型,看著進(jìn)度條一點點走,Loss一點點降是非常有成就感的。

      話不多說,我來帶大家過一遍這個教程的核心內(nèi)容。

      第一章NLP基礎(chǔ)概念

      大模型的最前身其實來自于NLP,現(xiàn)在大模型的很多任務(wù),比如翻譯,回答,詞性分析啥的,最開始都是NLP的工作,并且這些工作單個拿出來都是NLP的細(xì)分研究方向。


      這一章就是給歷史源頭講起,感興趣的同學(xué)可以看看,就當(dāng)看歷史書了,可以對大模型能做的事情有一個理論性的認(rèn)識。

      第二章 Transformer 架構(gòu)

      這一章我上面提到了,如果有意向在這個方向搞科研的,一定得仔細(xì)看,因為不管怎么樣,Transformer這個東西你怎么都繞不過去,這里不學(xué)也得在別的地方學(xué)。


      2.1部分會詳細(xì)的講注意力機(jī)制,特別是它的由來,從前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),再到循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),最后再分析他們各自的缺點。

      也就是第一沒辦法捕獲長序列的相關(guān)關(guān)系以及第二限制并行計算能力


      這個部分的偽代碼建議仔細(xì)看看,講的很細(xì)致,還是那句話,你繞不開這塊的。


      剩下的部分更多的是代碼實現(xiàn),就是一步步的教用代碼實現(xiàn)下面這個經(jīng)典的Transformer模型。


      每一塊都會細(xì)致的講解以及附有代碼,所以多看幾次肯定能看懂的。

      第三章 預(yù)訓(xùn)練語言模型

      這一章的內(nèi)容非常有意義,因為它講了為什么ChatGPT以前的同類產(chǎn)品為什么沒有獲得如此大的影響,其實在ChatGPT之前還有Bert這個非常有名的模型,是Google做的,也是基于Transformer結(jié)構(gòu)的(畢竟先Google發(fā)明了Transformer)。

      并且將主流的結(jié)構(gòu)分為了三種,并且列舉了對應(yīng)的代表模型。


      從表中可以看到,GPT用的是Decoder-only流派,也就是它的核心是“一邊讀一邊寫,專注于生成”,這也是GPT中G代表的Generative生成式的來源,所以也對應(yīng)了GPT擅長的領(lǐng)域:續(xù)寫預(yù)測、長文本創(chuàng)作、對話等。

      這一章也很推薦,畢竟流行趨勢這種東西輪流換,說不定過幾年其他流派又會興盛,徹底搞懂最好。

      第四章 大語言模型

      這一章再經(jīng)過1-3章的鋪墊,其實就很容易了,如果你已經(jīng)有基礎(chǔ),其實可以直接從這張開始看。

      它講的東西結(jié)構(gòu)很清晰,主要分為了四部分:

      4.1 LLM是什么

      超大規(guī)模:參數(shù)≥數(shù)十億,在數(shù) T token上預(yù)訓(xùn)練(GPT-3 175 B≈開端)。

      與傳統(tǒng)PLM差異:同架構(gòu)同任務(wù),但規(guī)模引發(fā)“量變→質(zhì)變”,呈現(xiàn)全新能力。

      4.2 LLM的四大“看家本領(lǐng)”

      • 涌現(xiàn)(Emergence):模型越大,突然解鎖復(fù)雜技能。

      • 上下文學(xué)習(xí)(In-context Learning):用幾句話示范即可完成新任務(wù),幾乎不用再微調(diào)。

      • 指令遵循(Instruction Following):理解自然語言指令,像 ChatGPT 那樣“一句喚醒,多步完成”。

      • 逐步推理(Step-by-Step Reasoning):能寫“思維鏈”,解決多步邏輯、數(shù)學(xué)與編碼問題。

      4.3講了它的額外特性以及4.4從理論上講了大模型訓(xùn)練的三個主要步驟,也就是下面的Pretrain,SFT和RLHF。


      總結(jié)成表格就是下面的內(nèi)容,這部分需要理解下,理解了之后就能搞懂為什么現(xiàn)在都說搞底模很吃虧,而是搞post-training+RL的路子見效最快這種說法。


      第五章 動手搭建大模型

      這章我之前提過,比較適合有卡有錢的玩家,因為我直接把這一章最后一部分內(nèi)容給你拿出來。

      你看作者在8張4090的前提下,還花了將近2天時間,后面的SFT階段又得24天,你要有卡我不攔著,你要是租我不建議。


      所以這一章內(nèi)容寫的非常詳細(xì),但是并不適合大多數(shù)人,看看即可,不用細(xì)追究。

      第六章 大模型訓(xùn)練流程實踐

      反而我建議大多數(shù)同學(xué)可以試試第六章,因為它是主要講“預(yù)訓(xùn)練”模型的,也就是在已有的模型基礎(chǔ)上再訓(xùn)練。


      它里面會講到大模型時代非常重要的網(wǎng)站Huggingface以及它開發(fā)的一個庫Transformers。你只要會用這個庫,就可以基于全世界那些非常強(qiáng)的開源模型再創(chuàng)作,比如阿里的Qwen系列,甚至以后資源豐富了DeepSeek滿血版也不是不能自己去微調(diào)。


      Happy-LLM就是用的Qwen2.5的1.5B版本做的微調(diào)


      很詳細(xì)的教你怎么加載模型,查看模型結(jié)構(gòu)等,都非常的實用。


      接著還會講的SFT,也是現(xiàn)在小成本創(chuàng)新的主要渠道。


      最后一部分完美收尾,用高效微調(diào)的方法收尾。


      這一章非常的干貨,直接把微調(diào)的內(nèi)容都放一起講了。

      第七章 大模型應(yīng)用

      這一章簡要的講了下大模型的測評和基于它的RAG和Agent應(yīng)用。


      測評部分就當(dāng)課外知識了解下即可。

      RAG和Agent部分也是看看就行,因為有很多可以實現(xiàn)這種效果的框架,要更簡單,更好用。

      比如LangChain


      再比如LazyLLM,有中文文檔,支持幾行代碼就能構(gòu)建一個常見的LLM應(yīng)用。


      最后總結(jié),再重復(fù)下我的建議,要搞科研的,2,3,5必看,可以深入到算法層次;長見識的第四章看完足夠了;有錢有卡的大佬,可以著重看第五章,從頭訓(xùn)練一個大模型,看著進(jìn)度條一點點走,Loss一點點降是非常有成就感的;沒卡的也不用灰心,可以看看第六章,有很多的平臺都是支持你薅羊毛的,比如colab,微調(diào)個1.5B模型還是不在話下的,一般的筆記本本身也能跑。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      5艘航母云集中國近海,中美巔峰對陣,特朗普明牌,逼著中國接招

      5艘航母云集中國近海,中美巔峰對陣,特朗普明牌,逼著中國接招

      現(xiàn)代小青青慕慕
      2025-12-26 14:42:10
      22名敢死隊員拼死拿下瀘定橋后神秘消失,40年后河北一份絕密檔案,意外揭開塵封半個世紀(jì)的驚人真相

      22名敢死隊員拼死拿下瀘定橋后神秘消失,40年后河北一份絕密檔案,意外揭開塵封半個世紀(jì)的驚人真相

      源溯歷史
      2025-12-18 19:06:21
      太振奮了!深圳樓市報復(fù)性反彈,某樓盤超爆人氣現(xiàn)場,引發(fā)關(guān)注…

      太振奮了!深圳樓市報復(fù)性反彈,某樓盤超爆人氣現(xiàn)場,引發(fā)關(guān)注…

      火山詩話
      2025-12-27 13:27:05
      熊黛林,光腳做游戲好美

      熊黛林,光腳做游戲好美

      TVB的四小花
      2025-12-27 10:29:57
      731部隊再添罪證!月產(chǎn)攜鼠疫菌跳蚤10公斤 關(guān)押中國人開展活體實驗

      731部隊再添罪證!月產(chǎn)攜鼠疫菌跳蚤10公斤 關(guān)押中國人開展活體實驗

      國際在線
      2025-12-27 01:55:05
      沈陽街邊現(xiàn)“墓園團(tuán)購”店鋪,網(wǎng)友覺得很不吉利;市監(jiān):店名不近人情膈應(yīng)人,已責(zé)令撤銷

      沈陽街邊現(xiàn)“墓園團(tuán)購”店鋪,網(wǎng)友覺得很不吉利;市監(jiān):店名不近人情膈應(yīng)人,已責(zé)令撤銷

      大風(fēng)新聞
      2025-12-26 18:01:36
      突發(fā)!知名網(wǎng)紅“表哥”覃進(jìn)展破產(chǎn),自曝原因惹爭議,已搬到農(nóng)村

      突發(fā)!知名網(wǎng)紅“表哥”覃進(jìn)展破產(chǎn),自曝原因惹爭議,已搬到農(nóng)村

      裕豐娛間說
      2025-12-26 23:15:19
      攻守易形,美軍徹底不敢動了,馬杜羅背后有高人,中俄伊強(qiáng)力攤牌

      攻守易形,美軍徹底不敢動了,馬杜羅背后有高人,中俄伊強(qiáng)力攤牌

      云舟史策
      2025-12-27 07:14:48
      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      就一點
      2025-11-22 10:36:39
      離春節(jié)不到兩個月,46歲章子怡再次官宣喜訊,撕碎汪峰僅剩的體面

      離春節(jié)不到兩個月,46歲章子怡再次官宣喜訊,撕碎汪峰僅剩的體面

      冷紫葉
      2025-12-25 15:14:29
      劉仲杰,嚴(yán)重違背人倫底線,罪行極其嚴(yán)重!

      劉仲杰,嚴(yán)重違背人倫底線,罪行極其嚴(yán)重!

      新京報政事兒
      2025-12-26 10:29:32
      柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

      柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

      科普100克克
      2025-12-23 17:54:08
      小米也漲價了!內(nèi)存壓力傳導(dǎo)至手機(jī)廠商,業(yè)界稱終端再不漲明年必定虧損

      小米也漲價了!內(nèi)存壓力傳導(dǎo)至手機(jī)廠商,業(yè)界稱終端再不漲明年必定虧損

      澎湃新聞
      2025-12-26 20:22:27
      博爾特現(xiàn)狀:退役8年生3娃,每年領(lǐng)400萬美元,39歲上樓都能喘氣

      博爾特現(xiàn)狀:退役8年生3娃,每年領(lǐng)400萬美元,39歲上樓都能喘氣

      削桐作琴
      2025-12-25 17:32:09
      “99%純金咋掉色了?”南博鎮(zhèn)護(hù)之寶西漢金獸遭質(zhì)疑;原院長姚遷:頸部留有銅銹綠斑痕跡

      “99%純金咋掉色了?”南博鎮(zhèn)護(hù)之寶西漢金獸遭質(zhì)疑;原院長姚遷:頸部留有銅銹綠斑痕跡

      大風(fēng)新聞
      2025-12-25 11:40:08
      楊瀚森第17場DNP不背鍋!開拓者遭快船三巨頭93分打爆 吞3連敗

      楊瀚森第17場DNP不背鍋!開拓者遭快船三巨頭93分打爆 吞3連敗

      醉臥浮生
      2025-12-27 13:35:31
      章澤天帶女兒飛迪拜過圣誕,劉強(qiáng)東花60萬一晚入住套房,陪她度假

      章澤天帶女兒飛迪拜過圣誕,劉強(qiáng)東花60萬一晚入住套房,陪她度假

      鋒哥與八卦哥
      2025-12-27 14:11:10
      霍思燕這次真的把我笑到了。別人參加活動不是曬娃、秀恩愛,

      霍思燕這次真的把我笑到了。別人參加活動不是曬娃、秀恩愛,

      小光侃娛樂
      2025-12-26 07:55:03
      女子扇醫(yī)生后續(xù):為5分鐘行拘5天,漂亮長相已社死,曝更多正臉照

      女子扇醫(yī)生后續(xù):為5分鐘行拘5天,漂亮長相已社死,曝更多正臉照

      丁丁鯉史紀(jì)
      2025-12-26 09:59:59
      嘉興市原市長李軍調(diào)任浙江省海洋經(jīng)濟(jì)發(fā)展廳黨組書記,曾在湖南工作27年

      嘉興市原市長李軍調(diào)任浙江省海洋經(jīng)濟(jì)發(fā)展廳黨組書記,曾在湖南工作27年

      上觀新聞
      2025-12-26 20:49:34
      2025-12-27 14:55:00
      平凡AI incentive-icons
      平凡AI
      高校AI從業(yè)者
      54文章數(shù) 23關(guān)注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業(yè)界稱終端再不漲明年必虧

      頭條要聞

      牛彈琴:賠了夫人又折兵 尹錫悅活成世界的一個大笑話

      頭條要聞

      牛彈琴:賠了夫人又折兵 尹錫悅活成世界的一個大笑話

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價值不需要靠番位來證明

      財經(jīng)要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態(tài)度原創(chuàng)

      旅游
      數(shù)碼
      手機(jī)
      藝術(shù)
      家居

      旅游要聞

      新知|半湖脂玉半湖藍(lán)!賽里木湖冰雪秀浪漫上演

      數(shù)碼要聞

      HKC惠科全球首創(chuàng)1080Hz HD極致高刷電競顯示器

      手機(jī)要聞

      小米三件大事,vivo國產(chǎn)第一,榮耀新機(jī)賣爆

      藝術(shù)要聞

      毛主席致徐悲鴻信件曝光,書法風(fēng)格引關(guān)注。

      家居要聞

      格調(diào)時尚 智慧品質(zhì)居所

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 99国产精品永久免费视频| 乱子伦视频在线看| 亚洲精品久久久蜜桃| 人妻偷拍一区二区三区| 女人的天堂av| 大城县| 潮喷失禁大喷水无码| 亚洲国产av一区二区三区四区| 精品国产免费人成网站| 精品蜜臀av在线天堂| 色8久久人人97超碰香蕉987| 久久国产影院| 人妻丝袜一区| 欧洲精品免费一区二区三区| 美女视频黄频大全免费| 青青草无码免费一二三区| 亚洲一级电影| 色欲人妻aaaaaaa无码| 久久精品国产精品亚洲艾草网| 亚洲熟妇久久国产精品| 成人自拍中文字幕| 延安市| 国产成人精品日本亚洲| 在线观看的av网站| 欧美日韩精品一区二区三区钱| 三成人免费看| 亚洲精品A| 国产精品成人一区无码| а∨天堂一区中文字幕| 精品国产三级A∨在线| 亚洲av电影天堂网| 26uuu另类亚洲欧美日本| 久久香蕉国产线看观看猫咪av| 最大的成人网亚洲| 在线亚洲人妻| 成年女人午夜毛片免费视频| 日韩一区二区三区女优丝袜| 日本成人有码在线视频| 亚洲国产成人精品女人久久久| 国产午夜大地久久| 成人片在线看无码不卡|