初學(xué)者怎么入門大語言模型（LLM）？

2025-07-10 05:45:45　來源: 平凡AI

海外舉報

分享至

最近發(fā)現(xiàn)一個非常好的學(xué)習(xí)資料，可以一次性的掌握從理論到從頭創(chuàng)建一個大模型，再到預(yù)訓(xùn)練，SFT（有監(jiān)督微調(diào)），甚至到最后還有RAG以及Agent的搭建方式，非常的齊全。

就是這個Happy-LLM，Github將近10000星了，上升勢頭非常快。

由于下個學(xué)期可能需要講一些類似的內(nèi)容，所以自己過了一遍，教程一共有7章，我把它分成了三個部分：1-4理論部分， 5-6大模型創(chuàng)建和訓(xùn)練實踐，7大模型擴(kuò)展應(yīng)用。

學(xué)習(xí)過程中我總結(jié)出這么幾點學(xué)習(xí)經(jīng)驗：

如果你是科班生，自學(xué)過NLP（自然語言處理）的相關(guān)內(nèi)容，你可以跳過第一章，只是一些基礎(chǔ)概念知識；
如果你還在讀研或者以后想要搞大模型相關(guān)的科研，建議多花點時間讀2，3章，因為這里面會有大量的數(shù)學(xué)公式以及模型介紹，非常的細(xì)，可以拿筆和本出來跟著算（模型魔改的Idea就從這里出了）
如果你想了解LLM大模型訓(xùn)練背后的流程，那么第四章一定要好好看
（有卡再看）第五章講的是如何用代碼搭一個Llama2出來，以及如何訓(xùn)練，但即使是很小的模型，作者在8張Nvidia 4090的前提下，都花了46個小時。
（沒卡也能看）第六章適合窮人玩，從頭訓(xùn)練一個大模型對于個人來說沒有特別大的意義，用已有的開源大模型做繼續(xù)訓(xùn)練會更加適合普通人，這里面用的是Qwen的1.5B模型，對于一般的筆記本來說都沒什么問題，所以強(qiáng)推！
（第七章選讀）RAG，Agent的構(gòu)建其實有更方便的手段，比如LLM框架LangChain，LazyLLM等。

所以總結(jié)下，要搞科研的，2，3，5必看，可以深入到算法層次；長見識的第四章看完足夠了；有錢有卡的大佬，可以著重看第五章，從頭訓(xùn)練一個大模型，看著進(jìn)度條一點點走，Loss一點點降是非常有成就感的。

話不多說，我來帶大家過一遍這個教程的核心內(nèi)容。

第一章NLP基礎(chǔ)概念

大模型的最前身其實來自于NLP，現(xiàn)在大模型的很多任務(wù)，比如翻譯，回答，詞性分析啥的，最開始都是NLP的工作，并且這些工作單個拿出來都是NLP的細(xì)分研究方向。

這一章就是給歷史源頭講起，感興趣的同學(xué)可以看看，就當(dāng)看歷史書了，可以對大模型能做的事情有一個理論性的認(rèn)識。

第二章 Transformer 架構(gòu)

這一章我上面提到了，如果有意向在這個方向搞科研的，一定得仔細(xì)看，因為不管怎么樣，Transformer這個東西你怎么都繞不過去，這里不學(xué)也得在別的地方學(xué)。

2.1部分會詳細(xì)的講注意力機(jī)制，特別是它的由來，從前饋神經(jīng)網(wǎng)絡(luò)（Feedforward Neural Network，F(xiàn)NN）到卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN），再到循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN），最后再分析他們各自的缺點。

也就是第一沒辦法捕獲長序列的相關(guān)關(guān)系以及第二限制并行計算能力。

這個部分的偽代碼建議仔細(xì)看看，講的很細(xì)致，還是那句話，你繞不開這塊的。

剩下的部分更多的是代碼實現(xiàn)，就是一步步的教用代碼實現(xiàn)下面這個經(jīng)典的Transformer模型。

每一塊都會細(xì)致的講解以及附有代碼，所以多看幾次肯定能看懂的。

第三章預(yù)訓(xùn)練語言模型

這一章的內(nèi)容非常有意義，因為它講了為什么ChatGPT以前的同類產(chǎn)品為什么沒有獲得如此大的影響，其實在ChatGPT之前還有Bert這個非常有名的模型，是Google做的，也是基于Transformer結(jié)構(gòu)的（畢竟先Google發(fā)明了Transformer）。

并且將主流的結(jié)構(gòu)分為了三種，并且列舉了對應(yīng)的代表模型。

從表中可以看到，GPT用的是Decoder-only流派，也就是它的核心是“一邊讀一邊寫，專注于生成”，這也是GPT中G代表的Generative生成式的來源，所以也對應(yīng)了GPT擅長的領(lǐng)域：續(xù)寫預(yù)測、長文本創(chuàng)作、對話等。

這一章也很推薦，畢竟流行趨勢這種東西輪流換，說不定過幾年其他流派又會興盛，徹底搞懂最好。

第四章大語言模型

這一章再經(jīng)過1-3章的鋪墊，其實就很容易了，如果你已經(jīng)有基礎(chǔ)，其實可以直接從這張開始看。

它講的東西結(jié)構(gòu)很清晰，主要分為了四部分：

4.1 LLM是什么

超大規(guī)模：參數(shù)≥數(shù)十億，在數(shù) T token上預(yù)訓(xùn)練（GPT-3 175 B≈開端）。

與傳統(tǒng)PLM差異：同架構(gòu)同任務(wù)，但規(guī)模引發(fā)“量變→質(zhì)變”，呈現(xiàn)全新能力。

4.2 LLM的四大“看家本領(lǐng)”

涌現(xiàn)（Emergence）：模型越大，突然解鎖復(fù)雜技能。
上下文學(xué)習(xí)（In-context Learning）：用幾句話示范即可完成新任務(wù)，幾乎不用再微調(diào)。
指令遵循（Instruction Following）：理解自然語言指令，像 ChatGPT 那樣“一句喚醒，多步完成”。
逐步推理（Step-by-Step Reasoning）：能寫“思維鏈”，解決多步邏輯、數(shù)學(xué)與編碼問題。

4.3講了它的額外特性以及4.4從理論上講了大模型訓(xùn)練的三個主要步驟，也就是下面的Pretrain，SFT和RLHF。

總結(jié)成表格就是下面的內(nèi)容，這部分需要理解下，理解了之后就能搞懂為什么現(xiàn)在都說搞底模很吃虧，而是搞post-training+RL的路子見效最快這種說法。

第五章動手搭建大模型

這章我之前提過，比較適合有卡有錢的玩家，因為我直接把這一章最后一部分內(nèi)容給你拿出來。

你看作者在8張4090的前提下，還花了將近2天時間，后面的SFT階段又得24天，你要有卡我不攔著，你要是租我不建議。

所以這一章內(nèi)容寫的非常詳細(xì)，但是并不適合大多數(shù)人，看看即可，不用細(xì)追究。

第六章大模型訓(xùn)練流程實踐

反而我建議大多數(shù)同學(xué)可以試試第六章，因為它是主要講“預(yù)訓(xùn)練”模型的，也就是在已有的模型基礎(chǔ)上再訓(xùn)練。

它里面會講到大模型時代非常重要的網(wǎng)站Huggingface以及它開發(fā)的一個庫Transformers。你只要會用這個庫，就可以基于全世界那些非常強(qiáng)的開源模型再創(chuàng)作，比如阿里的Qwen系列，甚至以后資源豐富了DeepSeek滿血版也不是不能自己去微調(diào)。

Happy-LLM就是用的Qwen2.5的1.5B版本做的微調(diào)

很詳細(xì)的教你怎么加載模型，查看模型結(jié)構(gòu)等，都非常的實用。

接著還會講的SFT，也是現(xiàn)在小成本創(chuàng)新的主要渠道。

最后一部分完美收尾，用高效微調(diào)的方法收尾。

這一章非常的干貨，直接把微調(diào)的內(nèi)容都放一起講了。

第七章大模型應(yīng)用

這一章簡要的講了下大模型的測評和基于它的RAG和Agent應(yīng)用。

測評部分就當(dāng)課外知識了解下即可。

RAG和Agent部分也是看看就行，因為有很多可以實現(xiàn)這種效果的框架，要更簡單，更好用。

比如LangChain

再比如LazyLLM，有中文文檔，支持幾行代碼就能構(gòu)建一個常見的LLM應(yīng)用。

最后總結(jié)，再重復(fù)下我的建議，要搞科研的，2，3，5必看，可以深入到算法層次；長見識的第四章看完足夠了；有錢有卡的大佬，可以著重看第五章，從頭訓(xùn)練一個大模型，看著進(jìn)度條一點點走，Loss一點點降是非常有成就感的；沒卡的也不用灰心，可以看看第六章，有很多的平臺都是支持你薅羊毛的，比如colab，微調(diào)個1.5B模型還是不在話下的，一般的筆記本本身也能跑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.