作者 | 趙之齊
編輯 | 包永剛
在國產(chǎn)算力賽道里,硬件強、軟件弱,已是集體性的難題。
作為龍芯、海光CPU的創(chuàng)始人,唐志敏深耕國產(chǎn)芯片領域二十年,當下,他把目光更堅定地投向“軟件”一側(cè)。他直言:芯片問題的根本,不在硬件,而在軟件。
在與雷峰網(wǎng)的對談中,他把國產(chǎn)芯片難以起勢的矛頭直接指向行業(yè)里敏感的一環(huán)——底層軟件接口與指令系統(tǒng)的混亂。他認為,國內(nèi)芯片表面上“百花齊放”,背后卻是整個社會為兼容性付出高昂的隱性成本;真正決定未來算力格局的,并不只是哪家硬件的性能領先,而是誰能夠讓其上的軟件真正復用、真正跑起來。
他舉了幾個如今行業(yè)里頗具荒誕感的案例:在國內(nèi)創(chuàng)業(yè)公司還在“是否要兼容CUDA”的十字路口徘徊時,有人試圖在國內(nèi)做“CUDA兼容性測試標準”;還有人把“模擬電路”視為數(shù)字芯片發(fā)展的瓶頸,卻忘了數(shù)字與模擬本就是實現(xiàn)電路的兩種基本路徑。
這些荒誕,也一部分源于國內(nèi)產(chǎn)業(yè)人才缺乏軟件思維、“高不成低不就”。在這次對談中,唐志敏圍繞指令系統(tǒng)、底層軟件接口、人才培養(yǎng)等關鍵議題展開剖析,試圖為國產(chǎn)算力指出更深層的“底座問題”。
從牽頭研制國內(nèi)首款通用CPU“龍芯一號”,到帶領海光取得AMD x86授權,唐志敏推動著國產(chǎn)通用服務器CPU體系破局;從曙光、海光到象帝先,他也主導了CPU與GPU的研發(fā),并探索新型體系結(jié)構的邊界。如今,他扎根深圳理工大學,推動算力微電子的人才培養(yǎng)與前沿攻關。
當國產(chǎn)算力逐漸走到歷史的舞臺中間,這位領域深耕的領軍者,對此又有什么新思考?在GAIR大會《AI算力新十年》論壇上,這位橫跨學界與產(chǎn)業(yè)界、推動中國高性能處理器與體系結(jié)構持續(xù)演進的重要實踐者將現(xiàn)場拆解國產(chǎn)算力架構的破局路徑與未來演進。
在此之前,雷峰網(wǎng)與唐志敏進行了一場對談,圍繞國產(chǎn)算力的核心瓶頸、人才培養(yǎng)體系等產(chǎn)業(yè)根基問題。這份對話實錄,是對大會核心議題的前瞻解碼,12月13日,GAIR大會《算力新十年》論壇現(xiàn)場,誠邀您見證這場關于中國算力未來的巔峰論道。
![]()
唐志敏
雷峰網(wǎng):您來到深理工任職,現(xiàn)在主要的研究方向是什么?
唐志敏:我現(xiàn)在的研究還是以新一代算力芯片為主。一方面,是怎么把傳統(tǒng)的CPU、GPU和AI處理結(jié)合在一起;另一方面是密態(tài)數(shù)據(jù)處理,就是在明文的數(shù)據(jù)處理之外,讓數(shù)據(jù)在加密的狀態(tài)下被計算,這樣能解決現(xiàn)在數(shù)據(jù)要素流通里頭碰到的各種問題。
雷峰網(wǎng):您之前參與過CPU、 GPU的開發(fā),感覺現(xiàn)在這些芯片未來想取得比較大突破,可能比較關鍵的點會在哪里?
唐志敏:關鍵還是解決軟件的問題。
相比各種軟件和應用的開發(fā),芯片開發(fā)不是最大頭、最難的,最難的是要把軟件能真正部署起來、用起來。表面上看,做硬件和芯片好像挺花錢,但這是因為軟件分散到很多不同公司在做,這些軟件的開發(fā)成本、人力、費用和時間其實都比硬件的多。
現(xiàn)在每家做出來的芯片都不一樣,實際上軟件開發(fā)的成本就會越來越大,是社會資源的浪費。所以我一直在說,芯片可以有自己不同的架構,但是對軟件的接口應該是一樣的,這樣全社會的軟件就可以重用。
雷峰網(wǎng):但這會不會是一個比較美好的想象?因為感覺在商業(yè)界比較難實現(xiàn)。
唐志敏:對,實現(xiàn)這一點有兩種可能,一種就是主動的,我們呼吁大家一起搞個聯(lián)盟;另一種就是更殘酷的商業(yè)技術的收斂,就像CPU收斂到x86架構那樣。選擇主動的方式,可能就會有更多樣化的、美好的世界。
雷峰網(wǎng):主動的話,可能是誰牽頭做這件事?
唐志敏:國家產(chǎn)業(yè)主管部門牽頭吧,讓商業(yè)公司都參與其中,本來就是產(chǎn)業(yè)共性的東西。前兩天我才收到郵件說,有關部門或團體要搞個CUDA兼容性的認證測試標準,這是我們中國人該干的事嗎?你說這不是貽笑大方嗎?
雷峰網(wǎng):要不要做CUDA兼容,也是國內(nèi)大家創(chuàng)業(yè)一直有爭議的地方。但具體來說,在軟件生態(tài)建設的這么多層里,什么事情是最難的?
唐志敏:底層硬件API層面、指令系統(tǒng)等層面上的統(tǒng)一,可能是最關鍵的。
雷峰網(wǎng):這種統(tǒng)一會讓底層硬件缺少差異化嗎?
唐志敏:不會,指令系統(tǒng)本身沒有太多創(chuàng)新的東西,主要都是指令系統(tǒng)下面的架構、或上面的軟件有創(chuàng)新,指令系統(tǒng)本身無所謂的,就像語言。一種語言真的會比另一種語言好多少嗎?不一定,重要的是用這種語言寫出來的文章有多好。也不用因此擔心會失去差異化,同樣一個Arm,蘋果做得就是比別人的好。
雷峰網(wǎng):看您的公開發(fā)言,您更多是主導RISC-V這一套是嗎?
唐志敏:我覺得RISC-V是個好的平臺,比較開放,大家如果有新的想法,也可以往里加幾條自己特有的指令。而且在這個平臺上能做普通的CPU功能,也能做AI加速功能。
雷峰網(wǎng):但現(xiàn)在RISC-V比較多是在MCU(微控制單元),如果想往高端一點的領域,比如服務器之類的去拓展,它的主要突破點會在哪里?
唐志敏:軟件。國外現(xiàn)在有好幾家公司、國內(nèi)也有人陸續(xù)在做面向數(shù)據(jù)中心或服務器應用的RISC-V芯片,但軟件問題沒有太好解決,所以應用打不開。MCU軟件很簡單,把嵌入式的SSD(固態(tài)硬盤)幾個程序做好,就能用了。
如果應用比較確定,針對這個領域的軟件去做也相對比較容易,但服務器應用里,確定場景的量都不大,所以芯片公司很累,基本就是要做什么都通用的才行。 現(xiàn)在國內(nèi)阿里云這些做公有云的,主要都是用英特爾的CPU,同架構的AMD用的都不多,就是因為英特爾兼容性最好。唯一的一家,只有亞馬遜開始用自己的Arm架構CPU,可能也是他們有一部分客戶的應用都比較能搞得定了。
雷峰網(wǎng):但大家會有什么動力去替換成RISC-V呢?畢竟英特爾的東西其實不需要再花人力,只要芯片硬件成本而已。
唐志敏:現(xiàn)在能想象到的還是國際形勢的推動。但我覺得好多手機廠商自研芯片都不一定有價值,除非像蘋果一樣,用了之后能顯著提升技術壁壘;而且蘋果價格高,利潤空間大,就能支撐。
現(xiàn)在國外RISC-V發(fā)展也不太好,每年開RISC-V峰會就有很多國外公司來,想把他們的技術拿到中國市場,我們可以利用這個機會整合RISC-V的國內(nèi)外資源、人才集中到這個平臺上來。
雷峰網(wǎng):感覺會帶來一個更難解決的問題,就是底層的硬件越復雜,上層軟件的復雜性可能增加的會更多,所以對于上層的軟件的要求挑戰(zhàn)也越大。
唐志敏:是,所以基于RISC-V這一個平臺開發(fā),大家互相借鑒、能復用的東西才會多很多。
雷峰網(wǎng):歷史上我們有過這樣的經(jīng)驗嗎?
唐志敏:x86,那是市場競爭形成的格局。目前為止大部分為計算機和服務器開發(fā)的軟件,都是針對英特爾x86來優(yōu)化,這就是一個很好的例子。
雷峰網(wǎng):但這樣是不是意味著我們?nèi)绻デ袚Q到另一套底座上,代價很大?就像現(xiàn)在國內(nèi)信創(chuàng)市場里大家比較認C86/x86一套,因為生態(tài)比較成熟,Arm也很難做進來。
唐志敏:之所以這樣,就是現(xiàn)在我們產(chǎn)業(yè)里真正軟件相關的開發(fā)能力比較弱,x86生態(tài)就可以用已有的軟件。如果軟件是自己開發(fā)的,就算痛苦一點也能遷移過去。
雷峰網(wǎng):是的,很多做軟件的人都會說國內(nèi)沒有軟件業(yè),大家也不信任軟件的價值,很多都是從開源社區(qū)拿過來后改改就能用。
唐志敏:看起來大家很重視軟件,很多年前軟件工程就是一級學科了、各個大學都有軟件學院,軟件企業(yè)還有政策優(yōu)惠,但事實上還是不重視——知識產(chǎn)權不被尊重,導致軟件就變成不值錢的東西。做硬件至少有個好處,就是復制起來有成本有門檻。
所以想從這里破局,在教育上也要加強。現(xiàn)在教育體系里培養(yǎng)的人才很多都是高不成低不就的,學集成電路的畢業(yè)生不會做CPU,他們只能做點小的器件和電路,計算機學院培養(yǎng)出來的人只會寫應用軟件,更底下的內(nèi)容他們也不明白。
雷峰網(wǎng):所以過去這塊的人才培養(yǎng)存在什么明顯問題嗎?
唐志敏:比如我們培養(yǎng)底層軟件的人才,像操作系統(tǒng)和編譯系統(tǒng),雖然大學里學計算機都要學這兩門課,但很多講課老師其實都不太懂。
而且前兩天有個國際集成電路方面的圓桌論壇,主題是說現(xiàn)在模擬電路成了數(shù)字芯片發(fā)展的瓶頸,問我怎么看?我說數(shù)字和模擬本來就是實現(xiàn)電路的兩個基本手段,我們不要人為地把它分開。我們的教育把什么東西都分得太細了,本來是相鄰的兩件事之間劃出一條巨大的鴻溝。發(fā)達國家的大學,電子工程和計算機專業(yè)都在一個系里,而中國就是分得很開,不光不在一個系、甚至不在一個學院。
雷峰網(wǎng):那您的產(chǎn)業(yè)界視角,會給現(xiàn)在的學術教育工作帶來什么新的視野?
唐志敏:現(xiàn)在我對于學生應該具備什么能力看法會不一樣。我們是用項目制去培養(yǎng)學生,會給學生提供和產(chǎn)業(yè)界基本一樣的實驗環(huán)境,在教學中以芯片和CPU為主,CPU這邊都是教的RISC-V,讓學生學會設計CPU,在CPU上把操作系統(tǒng)跑起來。但現(xiàn)在學生和十幾年前比起來還是挺不一樣的,他們很現(xiàn)實,就會看這個課有什么用、學的東西對自己有什么幫助。
雷峰網(wǎng):您之前的職業(yè)生涯在做的事情主要都和硬件相關,那為何一直強調(diào)“軟件是最重要的”這個結(jié)論呢?
唐志敏:我最早做CPU的時候就意識到,很難搞定很多復雜的軟件,所以兼容性非常重要。英特爾聽起來也是個CPU硬件公司,但他們的軟件工程師比硬件工程師多。對芯片公司來說,軟件實際上是命根子。國內(nèi)有的芯片大廠,會為了一個項目花200多個人駐場幫用戶優(yōu)化適配軟件。
雷峰網(wǎng):是在工作中才感受到軟件的重要性嗎?
唐志敏:我們學計算機的人一開始就知道了。體系結(jié)構的第一堂課,就要講“體系結(jié)構是什么”,就是硬件和軟件的界面、其實就是“指令系統(tǒng)”,我們做體系結(jié)構要管的事情就是:一個計算機系統(tǒng)里,什么工作由硬件來做、什么工作由軟件來做。
大家現(xiàn)在很多人在說“軟件定義某某某”,如軟件定義存儲、軟件定義網(wǎng)絡、軟件定義無線電等等,但我們學計算機的人從來不說“軟件定義計算機”,因為軟件就是計算機最本質(zhì)不可分割的東西。
雷峰網(wǎng):國內(nèi)很多芯片公司一開始都很難意識到軟件很重要。
唐志敏:因為芯片公司里的人大部分是學電子工程出身的,他們更多專注于器件和電路本身,不理解軟件。一些小芯片沒有什么軟件,做完也能用,但你做個GPU,上層就還有一堆復雜的東西等著解決、才能用起來。
雷峰網(wǎng):那這樣對國內(nèi)的GPU公司來說是不是就更難了,大家未來的機會在哪里?
唐志敏:對大家來說未來有個機會就是大模型收斂,如果市場上只剩下ChatGPT或DeepSeek,那我們只要把這兩個對接做好就行了。
作者長期關注半導體、算力上下游等方向,歡迎添加作者微信Ericazhao23交流。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.