![]()
做產品的都懂一個道理:上線只是開始,能不能活過冷啟動才是生死線。大模型也一樣。
港科大和阿里最近放出一項研究,把業內一個默認假設給打破了——你以為SFT(監督微調)階段表現好的模型,強化學習階段一定潛力更大?數據說:未必。
這有點像選秀節目。初賽唱得穩的選手,決賽未必能炸場;反而有些初賽磕磕絆絆的,進了實戰環節突然開竅。問題出在"舞臺"不一樣:SFT考的是模仿能力,RL(強化學習)考的是探索能力,兩套評分標準。
研究團隊的核心發現是:模型在SFT階段對"不確定樣本"的處理方式,才是預測RL潛力的關鍵指標。他們據此提出自適應冷啟動策略——不再一刀切地喂數據,而是讓模型自己判斷哪些該學、哪些該放,動態調整學習節奏。
實驗結果很直接:同樣基座模型,用新策略冷啟動后,RL階段的最終性能平均提升15%以上。換句話說,不是模型不行,是開門的方式不對。
一個值得玩味的細節:團隊開源的代碼里,默認把"不確定樣本閾值"設成了0.3。有開發者反饋,調到0.5后在自己業務場景下效果反而更好——看來這個開關,還得結合具體產品手感來擰。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.