![]()
哈嘍,大家好,今天就帶大家揭秘大模型的“成長密碼”——從只會“猜單詞”的“書呆子”到懂你心意的“智能伙伴”,它到底經歷了怎樣的雙重訓練?
但很少有人知道,這些“數字大腦”并非天生智能,而是像人類成長一樣,經歷了“基礎教育”與“社會打磨”兩大階段。
從海量數據中“學知識”,到在人類引導下“守規矩”,大模型的訓練過程藏著AI能力的核心密碼。
![]()
![]()
數據海洋里的“知識打底”
如果說大模型的成長是蓋房子,預訓練就是筑牢地基。
這一階段的核心,是讓模型在海量數據中“博聞強識”,建立對語言規律的直覺。與傳統認知不同,現代大模型的預訓練早已超越單純的“預測下一個詞”,而是構建多維度知識體系。
訓練數據的規模和質量直接決定模型的基礎能力。
據人民論壇網發布的研究顯示,大模型“涌現能力”的出現,必須以足夠量級的訓練數據為前提,當模型參數達到千億級、訓練數據突破萬億token時,就會出現類似“開竅”的質變,比如GPT-3在未專門訓練的情況下,突然具備兩位數乘法能力。
![]()
一本正經地編造虛假信息。更值得關注的是,若訓練數據存在偏見,模型還會復刻這些問題。
![]()
預訓練后的模型就像“滿腹經綸卻不懂社交的書呆子”,表達生硬、邏輯跳躍,甚至無法識別敏感問題。
![]()
人類引導下的“行為校準”
預訓練結束后,模型雖具備基礎能力,卻難以直接服務人類。
后訓練階段的核心,是通過技術手段與人類反饋,讓模型“學會說人話、守規矩”,這也是大模型從“工具”到“伙伴”的關鍵一躍。
后訓練的核心技術是RLHF(基于人類反饋的強化學習),這一技術被ChatGPT成功應用并普及。
![]()
光明網報道顯示RLHF分為三個步驟:首先由人類訓練師扮演用戶與AI,生成高質量對話樣本進行監督微調。
再由訓練師對模型的多個回復打分,訓練獎勵模型,最后用強化學習算法讓模型持續優化,貼合人類偏好。
![]()
訓練師在這一階段扮演著“AI導師”的關鍵角色。隨著大模型產業爆發,人工智能訓練師成為熱門職業,招聘需求同比增長56%,薪資區間在6000-19000元,畢業生簡歷常被企業“秒搶”。
他們的工作遠比“標注數據”復雜,在醫療領域,高年資醫生需親自標注病理切片數據,避免模型誤診。
在客服場景,訓練師要輸入上千條相似問句,讓模型精準理解用戶需求。
在倫理層面,還要通過標注敏感內容、設定拒答規則,引導模型樹立正確價值觀。
![]()
![]()
算力與語料的雙重保障
大模型的訓練之路,離不開算力與語料的硬核支撐。
算力方面大模型訓練堪稱“電力巨獸”。OECD與IEEE聯合報告顯示,GPT-4單次訓練耗電達2.4億千瓦時,相當于3000戶家庭一年的用電量,而推理階段的能耗更是訓練階段的10倍。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.