![]()
最近人工智能圈子里有個話題挺熱,加州大學伯克利分校的詹妮弗·查耶斯院長提出了個挺有意思的觀點,她說AI競賽的下半場已經不是比誰模型大、誰算力強了,而是要看誰能用更少的能量干更多的活。這個觀點一針見血,畢竟現在訓練個大模型動不動就要消耗一個小城市一年的用電量,長期來看確實不是個事兒。
查耶斯院長特別提到了中國的深度求索團隊用的“知識蒸餾”方法,這個方法確實挺巧妙的。簡單來說,就像是個聰明的學生學習的過程:不需要從頭開始啃所有教科書,而是跟著好老師學精華。深度求索的研究人員很機智地利用了阿里巴巴的通義千問和Meta的Llama這些已經訓練好的模型,從中提取高質量的數據來訓練自己的模型。效果怎么樣呢?他們訓練深度求索-R1模型只花了大約558萬美元,這個數字聽起來不小,但相比某些大模型動輒數億美元的訓練成本,簡直就像是打折促銷價。
![]()
說到能耗問題,現在主流的大模型基本上都是基于變壓器架構的。這個架構確實很強大,但它有個問題就是特別耗能。查耶斯院長說現在全世界最頂尖的計算機科學家都在琢磨怎么找到變壓器架構的替代方案,這其實是個挺基礎的數學問題,但確實沒人知道該怎么解決。大家都像是在摸石頭過河,嘗試各種可能的方法。
有意思的是,查耶斯院長提到一個現象:雖然美國對中國實施芯片出口管制,但這反而刺激了中國研究人員在計算效率和創新方法上下了更多功夫。她用了個很形象的說法:“如果你處于壓力之下,會取得更大的突破。”這讓我想起以前學過的“鯰魚效應”,適當的競爭壓力反而能激發創新活力。
現在AI發展面臨的一個現實問題是,單純的算力軍備競賽不僅成本高昂,對環境也不友好。深度求索團隊展示的這條路徑說明,通過算法和訓練方法的創新,完全可以在保證性能的同時大幅降低能耗。這種思路轉變很關鍵,因為未來的AI發展必須要考慮可持續性。
查耶斯院長最近還擔任了邵逸夫獎新設立的計算機科學類別評選委員會主席,她特別強調評審委員會對中國AI發展有深入了解。從她分享的經歷來看,她與中國研究人員的合作歷史很長,最早可以追溯到1997-98年參與創辦微軟亞洲研究院的時候。她對中國研究人員的評價很有意思:“我覺得,平均來看,中國的研究人員比世界其他地方的研究人員更努力。”這話說得挺直白的。
其實節能架構這個方向不僅關乎技術本身,還涉及到更廣泛的社會價值。現在全球都在關注氣候變化和可持續發展,AI領域如果不能解決能耗問題,將來可能會面臨更大的社會壓力。所以深度求索展示的這條路徑,可能代表著未來AI發展的一個重要方向。
![]()
查耶斯院長提到,現在評審邵逸夫獎時特別關注工作的科學質量,而不是看來自哪個國家。2027年要頒發的第一個計算機科學獎項可能會是個很有意思的風向標。她透露評審委員會已經在討論候選人名單了,其中既有中國學者,也有來自歐美國家的。
說到最后,AI的未來發展可能需要更多這樣的務實創新。畢竟,真正改變世界的技術,不僅要強大,還要可持續、可普及。節能架構這條路徑可能不如單純追求模型規模那么“性感”,但它可能才是AI技術真正走向成熟和普及的關鍵。查耶斯院長的觀察點出了一個重要趨勢:下一階段的AI競賽,很可能不是比誰跑得快,而是比誰跑得遠、跑得穩。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.