斯坦福大學 CME 295 “Transformer 與大語言模型”課程從 9 月 26 日到 12 月 10 日期間,課程分多講依次展開。首先從 Transformer 基礎講起,包括 NLP 背景、分詞、向量表示等基礎概念以及 Transformer 架構。后續各講分別深入探討基于 Transformer 的模型與技巧、大規模語言模型的定義架構與相關策略、LLM 的訓練、調優、推理、賦予能動性、評估等方面,最后一講聚焦于結論與未來趨勢。
涵蓋:
Transformer:自注意力機制、架構、變體、優化技術(如稀疏注意力、低秩注意力、Flash Attention)
大語言模型 (LLM):提示 (prompting)、微調(SFT、LoRA)、偏好調優、優化技術(混合專家模型、知識蒸餾、量化)
應用:LLM 作為評判者、檢索增強生成 (RAG)、智能體、推理模型(來自 DeepSeek-R1 的訓練時與測試時縮放技術)
PPT下載:https://cme295.stanford.edu/syllabus/
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.