最近發(fā)現(xiàn)一個非常好的學(xué)習(xí)資料,可以一次性的掌握從理論到從頭創(chuàng)建一個大模型,再到預(yù)訓(xùn)練,SFT(有監(jiān)督微調(diào)),甚至到最后還有RAG以及Agent的搭建方式,非常的齊全。
就是這個Happy-LLM,Github將近10000星了,上升勢頭非常快。
![]()
由于下個學(xué)期可能需要講一些類似的內(nèi)容,所以自己過了一遍,教程一共有7章,我把它分成了三個部分:1-4理論部分, 5-6大模型創(chuàng)建和訓(xùn)練實踐,7大模型擴(kuò)展應(yīng)用。
![]()
學(xué)習(xí)過程中我總結(jié)出這么幾點學(xué)習(xí)經(jīng)驗:
如果你是科班生,自學(xué)過NLP(自然語言處理)的相關(guān)內(nèi)容,你可以跳過第一章,只是一些基礎(chǔ)概念知識;
如果你還在讀研或者以后想要搞大模型相關(guān)的科研,建議多花點時間讀2,3章,因為這里面會有大量的數(shù)學(xué)公式以及模型介紹,非常的細(xì),可以拿筆和本出來跟著算(模型魔改的Idea就從這里出了)
如果你想了解LLM大模型訓(xùn)練背后的流程,那么第四章一定要好好看
(有卡再看)第五章講的是如何用代碼搭一個Llama2出來,以及如何訓(xùn)練,但即使是很小的模型,作者在8張Nvidia 4090的前提下,都花了46個小時。
(沒卡也能看)第六章適合窮人玩,從頭訓(xùn)練一個大模型對于個人來說沒有特別大的意義,用已有的開源大模型做繼續(xù)訓(xùn)練會更加適合普通人,這里面用的是Qwen的1.5B模型,對于一般的筆記本來說都沒什么問題,所以強(qiáng)推!
(第七章選讀)RAG,Agent的構(gòu)建其實有更方便的手段,比如LLM框架LangChain,LazyLLM等。
所以總結(jié)下,要搞科研的,2,3,5必看,可以深入到算法層次;長見識的第四章看完足夠了;有錢有卡的大佬,可以著重看第五章,從頭訓(xùn)練一個大模型,看著進(jìn)度條一點點走,Loss一點點降是非常有成就感的。
話不多說,我來帶大家過一遍這個教程的核心內(nèi)容。
第一章NLP基礎(chǔ)概念
大模型的最前身其實來自于NLP,現(xiàn)在大模型的很多任務(wù),比如翻譯,回答,詞性分析啥的,最開始都是NLP的工作,并且這些工作單個拿出來都是NLP的細(xì)分研究方向。
![]()
這一章就是給歷史源頭講起,感興趣的同學(xué)可以看看,就當(dāng)看歷史書了,可以對大模型能做的事情有一個理論性的認(rèn)識。
第二章 Transformer 架構(gòu)
這一章我上面提到了,如果有意向在這個方向搞科研的,一定得仔細(xì)看,因為不管怎么樣,Transformer這個東西你怎么都繞不過去,這里不學(xué)也得在別的地方學(xué)。
![]()
2.1部分會詳細(xì)的講注意力機(jī)制,特別是它的由來,從前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),再到循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),最后再分析他們各自的缺點。
也就是第一沒辦法捕獲長序列的相關(guān)關(guān)系以及第二限制并行計算能力。
![]()
這個部分的偽代碼建議仔細(xì)看看,講的很細(xì)致,還是那句話,你繞不開這塊的。
![]()
剩下的部分更多的是代碼實現(xiàn),就是一步步的教用代碼實現(xiàn)下面這個經(jīng)典的Transformer模型。
![]()
每一塊都會細(xì)致的講解以及附有代碼,所以多看幾次肯定能看懂的。
第三章 預(yù)訓(xùn)練語言模型
這一章的內(nèi)容非常有意義,因為它講了為什么ChatGPT以前的同類產(chǎn)品為什么沒有獲得如此大的影響,其實在ChatGPT之前還有Bert這個非常有名的模型,是Google做的,也是基于Transformer結(jié)構(gòu)的(畢竟先Google發(fā)明了Transformer)。
并且將主流的結(jié)構(gòu)分為了三種,并且列舉了對應(yīng)的代表模型。
![]()
從表中可以看到,GPT用的是Decoder-only流派,也就是它的核心是“一邊讀一邊寫,專注于生成”,這也是GPT中G代表的Generative生成式的來源,所以也對應(yīng)了GPT擅長的領(lǐng)域:續(xù)寫預(yù)測、長文本創(chuàng)作、對話等。
這一章也很推薦,畢竟流行趨勢這種東西輪流換,說不定過幾年其他流派又會興盛,徹底搞懂最好。
第四章 大語言模型
這一章再經(jīng)過1-3章的鋪墊,其實就很容易了,如果你已經(jīng)有基礎(chǔ),其實可以直接從這張開始看。
它講的東西結(jié)構(gòu)很清晰,主要分為了四部分:
4.1 LLM是什么
超大規(guī)模:參數(shù)≥數(shù)十億,在數(shù) T token上預(yù)訓(xùn)練(GPT-3 175 B≈開端)。
與傳統(tǒng)PLM差異:同架構(gòu)同任務(wù),但規(guī)模引發(fā)“量變→質(zhì)變”,呈現(xiàn)全新能力。
4.2 LLM的四大“看家本領(lǐng)”
涌現(xiàn)(Emergence):模型越大,突然解鎖復(fù)雜技能。
上下文學(xué)習(xí)(In-context Learning):用幾句話示范即可完成新任務(wù),幾乎不用再微調(diào)。
指令遵循(Instruction Following):理解自然語言指令,像 ChatGPT 那樣“一句喚醒,多步完成”。
逐步推理(Step-by-Step Reasoning):能寫“思維鏈”,解決多步邏輯、數(shù)學(xué)與編碼問題。
4.3講了它的額外特性以及4.4從理論上講了大模型訓(xùn)練的三個主要步驟,也就是下面的Pretrain,SFT和RLHF。
![]()
總結(jié)成表格就是下面的內(nèi)容,這部分需要理解下,理解了之后就能搞懂為什么現(xiàn)在都說搞底模很吃虧,而是搞post-training+RL的路子見效最快這種說法。
![]()
第五章 動手搭建大模型
這章我之前提過,比較適合有卡有錢的玩家,因為我直接把這一章最后一部分內(nèi)容給你拿出來。
你看作者在8張4090的前提下,還花了將近2天時間,后面的SFT階段又得24天,你要有卡我不攔著,你要是租我不建議。
![]()
所以這一章內(nèi)容寫的非常詳細(xì),但是并不適合大多數(shù)人,看看即可,不用細(xì)追究。
第六章 大模型訓(xùn)練流程實踐
反而我建議大多數(shù)同學(xué)可以試試第六章,因為它是主要講“預(yù)訓(xùn)練”模型的,也就是在已有的模型基礎(chǔ)上再訓(xùn)練。
![]()
它里面會講到大模型時代非常重要的網(wǎng)站Huggingface以及它開發(fā)的一個庫Transformers。你只要會用這個庫,就可以基于全世界那些非常強(qiáng)的開源模型再創(chuàng)作,比如阿里的Qwen系列,甚至以后資源豐富了DeepSeek滿血版也不是不能自己去微調(diào)。
![]()
Happy-LLM就是用的Qwen2.5的1.5B版本做的微調(diào)
![]()
很詳細(xì)的教你怎么加載模型,查看模型結(jié)構(gòu)等,都非常的實用。
![]()
接著還會講的SFT,也是現(xiàn)在小成本創(chuàng)新的主要渠道。
![]()
最后一部分完美收尾,用高效微調(diào)的方法收尾。
![]()
這一章非常的干貨,直接把微調(diào)的內(nèi)容都放一起講了。
第七章 大模型應(yīng)用
這一章簡要的講了下大模型的測評和基于它的RAG和Agent應(yīng)用。
![]()
測評部分就當(dāng)課外知識了解下即可。
RAG和Agent部分也是看看就行,因為有很多可以實現(xiàn)這種效果的框架,要更簡單,更好用。
比如LangChain
![]()
再比如LazyLLM,有中文文檔,支持幾行代碼就能構(gòu)建一個常見的LLM應(yīng)用。
![]()
最后總結(jié),再重復(fù)下我的建議,要搞科研的,2,3,5必看,可以深入到算法層次;長見識的第四章看完足夠了;有錢有卡的大佬,可以著重看第五章,從頭訓(xùn)練一個大模型,看著進(jìn)度條一點點走,Loss一點點降是非常有成就感的;沒卡的也不用灰心,可以看看第六章,有很多的平臺都是支持你薅羊毛的,比如colab,微調(diào)個1.5B模型還是不在話下的,一般的筆記本本身也能跑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.