![]()
深度學習模型的一大挑戰在于理解其行為邏輯:無論是xAI反復調試Grok奇怪的政治傾向,還是ChatGPT的阿諛奉承問題,或是常見的幻覺現象,深入理解擁有數十億參數的神經網絡并非易事。
舊金山初創公司Guide Labs由CEO Julius Adebayo和首席科學官Aya Abdelsalam Ismail創立,如今為這一問題提供了解決方案。周一,該公司開源了一個80億參數的大語言模型Steerling-8B,采用全新架構設計,使其行為易于解釋:該模型產生的每個Token都可以追溯到其在訓練數據中的源頭。
這可以簡單到確定模型引用事實的參考材料,也可以復雜到理解模型對幽默或性別的理解。
"如果我有一萬億種編碼性別的方式,并且在我擁有的一萬億個事物中的10億個事物中編碼了它,你必須確保找到所有這10億個我編碼的事物,然后你必須能夠可靠地打開它們,關閉它們,"Adebayo告訴TechCrunch。"你可以用當前的模型做到這一點,但這非常脆弱......這算是一個圣杯級別的問題。"
Adebayo在MIT攻讀博士學位時開始這項工作,合著了一篇被廣泛引用的2020年論文,證明現有的理解深度學習模型的方法并不可靠。這項工作最終催生了構建大語言模型的新方法:開發者在模型中插入一個概念層,將數據分類到可追蹤的類別中。這需要更多前期數據標注,但通過使用其他AI模型的幫助,他們能夠訓練出這個迄今為止最大的概念驗證模型。
"人們做的那種可解釋性是......對模型進行神經科學研究,而我們顛倒了這一點,"Adebayo說。"我們實際做的是從頭開始設計模型,這樣你就不需要做神經科學研究。"
這種方法的一個擔憂是,它可能會消除使大語言模型如此引人入勝的一些涌現行為:它們對尚未訓練過的事物進行新方式泛化的能力。Adebayo表示這在他公司的模型中仍然會發生:他的團隊追蹤他們稱為"發現概念"的東西,這些是模型自己發現的概念,比如量子計算。
Adebayo認為這種可解釋的架構將是每個人都需要的。對于面向消費者的大語言模型,這些技術應該允許模型構建者做諸如阻止使用受版權保護的材料,或更好地控制圍繞暴力或藥物濫用等主題的輸出等事情。受監管的行業將需要更可控的大語言模型,例如在金融領域,評估貸款申請人的模型需要考慮財務記錄等因素,但不能考慮種族。科學工作中也需要可解釋性,這是Guide Labs開發技術的另一個領域。蛋白質折疊已經成為深度學習模型的一大成功,但科學家需要更深入地了解他們的軟件為什么能找到成功的組合。
"這個模型證明的是,訓練可解釋模型不再是一種科學;現在它是一個工程問題,"Adebayo說。"我們解決了科學問題,我們可以擴展它們,沒有理由這種模型不能匹配前沿級模型的性能,"而前沿模型擁有更多參數。
Guide Labs表示,Steerling-8B能夠達到現有模型90%的能力,但得益于其新穎的架構,使用的訓練數據更少。該公司從Y Combinator畢業,并在2024年11月從Initialized Capital籌集了900萬美元的種子輪融資,下一步是構建更大的模型,并開始向用戶提供API和智能體訪問。
"我們目前訓練模型的方式非常原始,所以民主化固有的可解釋性實際上對我們人類來說將是一個長期的好事,"Adebayo告訴TechCrunch。"當我們追求這些將要變得超級智能的模型時,你不希望有一些神秘的東西代表你做決定。"
Q&A
Q1:Steerling-8B與傳統大語言模型有什么不同?
A:Steerling-8B采用全新的可解釋架構設計,其最大特點是模型產生的每個Token都可以追溯到訓練數據中的源頭。開發者在模型中插入概念層,將數據分類到可追蹤的類別中,使模型行為易于理解和解釋。
Q2:Guide Labs的可解釋技術會影響模型的創新能力嗎?
A:不會。雖然有這方面的擔憂,但Adebayo表示涌現行為仍然會發生。他們的團隊追蹤"發現概念",即模型自己發現的新概念,比如量子計算,證明模型仍保持對未訓練內容的泛化能力。
Q3:可解釋大語言模型主要應用在哪些領域?
A:主要應用包括:消費者產品中阻止使用受版權保護材料、控制暴力或藥物濫用相關輸出;金融等受監管行業,確保模型評估時只考慮相關因素而非種族等;科學研究領域,如蛋白質折疊研究中幫助科學家理解模型的推理過程。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.