12月18日,網(wǎng)易傳媒主辦的“2025新一代人工智能創(chuàng)業(yè)大賽”頒獎典禮在北京網(wǎng)易大廈成功舉辦。
“2025新一代人工智能創(chuàng)業(yè)大賽”聚焦“AI基礎(chǔ)設(shè)施”、“AI應(yīng)用和智能體”和“AI硬件”三大前沿賽道,旨在挖掘頂尖創(chuàng)業(yè)團隊。下午的AI投資論壇系列活動從往屆獲獎?wù)叩膶崙?zhàn)分享,到聚焦AI全球化與商業(yè)化路徑的深度剖析,再到圍繞具身智能、Agent等前沿議題的“圍爐夜話”思辨,層層遞進,探討了AI從技術(shù)探索走向產(chǎn)業(yè)落地的關(guān)鍵命題。
現(xiàn)場,2024年去年大賽的獲獎代表、深圳元始智能聯(lián)合創(chuàng)始人兼COO羅璇在發(fā)展匯報中表示,當(dāng)前主流AI大模型所依賴的Transformer架構(gòu)存在計算復(fù)雜度高、能耗大及端側(cè)部署不友好等問題。對此,他們提出RWKV作為一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的架構(gòu),其核心優(yōu)勢在于將計算復(fù)雜度從二次方降低至線性,從而在理論層面提升了訓(xùn)練與推理效率,并降低了資源消耗。
![]()
羅璇在匯報中提到,網(wǎng)易大賽的支持極大促進了項目的發(fā)展,RWKV作為一個開源項目,已獲得了新一輪融資,而且RWKV開發(fā)者社區(qū)發(fā)展迅速,與此同時,該架構(gòu)在端側(cè)智能及多智能體等領(lǐng)域已經(jīng)展現(xiàn)出強大的應(yīng)用潛力。
以下為羅璇的演講全文,經(jīng)不影響原意的編輯:
非常感謝網(wǎng)易再次給我一個機會分享我們的項目,去年參加網(wǎng)易的活動之后,去年年底拿到天使輪的融資。今年7月世界人工智能大會上,我們作為未來之星項目獲得了總理的接見。今天分享的RWKV項目,是面向未來的高效AI大模型架構(gòu)。
很多人關(guān)注大模型從2022年ChatGPT開始的,在ChatGPT出來以后大家關(guān)注了大模型這個技術(shù)賽道,更多看到的像Chat GPT、DeepSeek、千問、Llama這種模型公司以及上層的應(yīng)用公司,這一切的底層神經(jīng)網(wǎng)絡(luò)架構(gòu)都基于Transformer架構(gòu),這個架構(gòu)源自于2017年Google發(fā)的論文叫“Attention is all you need”。它打破了過去RNN不能高效并行訓(xùn)練的問題,也帶來了新的問題。而RWKV是全球首個的非Transformer架構(gòu),正在解決Transformer的問題。
這是我們團隊,創(chuàng)始人彭博,背景比較傳奇,6歲開始寫代碼,16歲全獎進港大物理系,畢業(yè)后開始在全球最大的外匯對沖基金管理6000萬美元的資產(chǎn)。后來,自己做了一家智能硬件公司,也是知乎的人工智能領(lǐng)域的大V。
我是羅璇,是RWKV的聯(lián)合創(chuàng)始人,之前在大廠,在騰訊、阿里,在阿里負責(zé)機器人和人工智能,之前也做機器人的公司。我們更多人來自于開源社區(qū),現(xiàn)在全職的同事,包括實習(xí)的同事來自于全球數(shù)萬人的社區(qū)。RWKV源自于2020年初彭博的開源項目,過去五年迭代了8代,也發(fā)表了3篇學(xué)術(shù)論文。OpenAI在2023年初邀請彭博入職,但是彭博馬上就回復(fù):如果OpenAI重新Open的話他愿意合作。
在拒絕OpenAI之后,彭博把RWKV開源項目放到了Linux Foundation下面孵化,現(xiàn)在是全球的開源項目。所有的開發(fā)者、科研機構(gòu)可以沒有負擔(dān)的使用這個架構(gòu)。過去也出現(xiàn)了很多的新架構(gòu),像Mamba,Google出的Titans,國內(nèi)也有KDA等等的架構(gòu),都在跟進這個路線,而RWKV現(xiàn)在的第八代還沒有跟隨者。去年8月份,微軟在每一臺Windows電腦里面內(nèi)置了RWKV架構(gòu)。去年,RWKV被評為英偉達的初創(chuàng)生態(tài)榮耀企業(yè),掛他們的官網(wǎng),今年3月份我在也分享了最新的架構(gòu)。我們也跟多家的芯片廠商合作,做端側(cè)的模型,我們認為端側(cè)是巨大的機會,尤其中國巨大的機會。今年WAIC我們獲得了未來之星獎,也獲得了總理的接見。
![]()
我們看看RWKV到底解決什么問題。
第一,Transformer模型在推理側(cè)是二次方復(fù)雜度問題。過去三年大家發(fā)現(xiàn)英偉達這家公司非常值錢,大家在大模型的訓(xùn)練和推理過程當(dāng)中需要大量的算力,為什么需要這么多算力?因為底層算法的效率非常低,Token生成的長度跟算力的需求是二次方增長的關(guān)系。隨之需要的能源也非常高,以及對于端側(cè)非常不友好,大家看到大部分的模型幾乎都是調(diào)云端的API,沒有辦法形成規(guī)模效應(yīng)。
第二,最近Ilya說的Scaling law沒有了,很多業(yè)內(nèi)人說原因是數(shù)據(jù)不夠用了,但是實際上現(xiàn)在大語言模型訓(xùn)練了30T的Token,人類從出生到死亡這段時間內(nèi)需要的文本數(shù)據(jù)是遠遠低于這個數(shù)據(jù)量。就相當(dāng)于一個人說全世界的糧食都不夠他吃,這到底是糧食的原因呢?還是人本身的問題?所以,我們認為應(yīng)該是模型架構(gòu)本身的問題,如果模型不是暴力記憶,而是能快速的找到數(shù)據(jù)中規(guī)律的話,訓(xùn)練需要的數(shù)據(jù)也不需要那么多了。
第三,國內(nèi)之前沒關(guān)注的點,就是Transformer是有商業(yè)專利的,谷歌在2017年就建立了全球?qū)@谋趬尽?/p>
RWKV是全球的首個非Transformer架構(gòu),我們叫新型RNN架構(gòu),它不但可以高效并行訓(xùn)練,同時它推理的速度和推理的資源占用也是恒定的,我們也帶來了新的極致上下文的State-tuning的能力。
無論是效率、能耗還是效果,RWKV都是優(yōu)于Transformer。能耗這塊RWKV非常適合存算一體、3D堆疊的近存芯片,因為RWKV模型推理在Decode的階段只需要做矩陣乘矢量,不需要做矩陣乘矩陣,同時它不需要管理KV-Cache不斷變大的問題。在云端,RWKV架構(gòu)模型也是更有優(yōu)勢的,并發(fā)的能力是Transformer模型的一百倍。
除此之外,RWKV本質(zhì)上是在做類腦架構(gòu),包括持久的記憶能力、持續(xù)學(xué)習(xí)能力,還有內(nèi)部模型持續(xù)擬合外部世界的能力、無限長的推理能力。
現(xiàn)在的Transformer模型的QKV機制更像是一個超級小鎮(zhèn)做題家,它希望把全世界的題目背下來去參加高考,去做一個模糊的匹配,而RWKV架構(gòu)模型是實時地找題目和答案之間的解題規(guī)律和方法,所以它是非常高效的架構(gòu)。
大家喜歡看Benchmark,所以我們最近也做了一些Benchmark,RWKV的13B模型,泛化能力和語言能力都優(yōu)于千問14B Base 模型。數(shù)學(xué)百科代碼指令這塊我們也非常接近于現(xiàn)在千問14B Base,而這些能力是可以靠刷題解決的。
RWKV-8是我們最近公開的全球首個神經(jīng)符號大模型架構(gòu),它帶來完全不同的特性,它讓AI內(nèi)部生成它自己的語言,可以做無限范圍無損信息的傳播,未來的大模型是具備可解釋性,這是一個業(yè)界的重大突破,現(xiàn)在全球的大量學(xué)者都在關(guān)注我們這個架構(gòu)。
RWKV 目前有誰在用呢?第一個是我們商業(yè)公司在用,我們把它落在端側(cè),包括手機、PC、眼鏡、機器人等終端上,讓他們具備語言、圖片識別、語音合成能力等等,其中一些應(yīng)用已經(jīng)在海外上架。這是端側(cè)的AI 編程項目,可以在一臺單卡的消費級電腦上面,同時跑24個并發(fā)去做網(wǎng)頁生成。這也是現(xiàn)在的架構(gòu)做不到的。這是海外一個非常知名的編程獨角獸,估值三十億美金,所有的模型都基于RWKV的架構(gòu)提供給客戶。如果是程序員的話可能認識 Fabrice Bellard,他是全球知名的程序員,跟Google的Jeff Dean齊名的,他去年公開了用RWKV做的信息壓縮軟件。具身智能是大家今年特別關(guān)注的賽道,地瓜機器人和有鹿機器人,我們都是有深度合作。還有國家電網(wǎng)在用RWKV做做新能源的發(fā)電預(yù)測和調(diào)度。中國電科的30B的小可大模型也是基于RWKV。RWKV已經(jīng)在工業(yè)界廣泛的有落地。
更重要的是RWKV的開源生態(tài),在海外有數(shù)萬的開發(fā)者,光Discord上面就有九千多,GitHub上面基于RWKV的開源項目超過六百個,有超過160篇的前沿學(xué)術(shù)論文在基于RWKV 訓(xùn)練模型,像語言、多模態(tài)、智能體、具身智能等等。多智能體是過去幾年業(yè)內(nèi)非常頭疼的問題,今年二月份斯坦福用 RWKV做了一個項目,證明了 RWKV 這種架構(gòu)才是做多智能體的正確方向。騰訊今年的3D動作生成的論文,也是基于RWKV做的。這是美國第一大的語音識別的公司叫 Rev,他們基于 RWKV做長語音的流式識別,未來新的計算終端需要Always on,那就會非常有用。還有弗吉尼亞大學(xué)用RWKV做的端側(cè)模型,UCLA用 RWKV做的肌電手勢識別。UCSD用RWKV做的脈沖類腦計算。國內(nèi)也有浙大李爾平教授在用RWKV做脈沖類腦計算。上海有一家對沖基金,用RWKV做的股價預(yù)測和量化交易。還有哈佛用RWKV做的量子增強的實踐訓(xùn)練預(yù)測,聽說也是用來做對沖基金的。國內(nèi)也有團隊用RWKV做藥物發(fā)現(xiàn),海外的團隊用RWKV做RNA預(yù)測。所以簡單而言,RWKV正在全面的替代Transformer。
RWKV是面向未來的高效AI大模型架構(gòu),解決了Transformer的二次方復(fù)雜度問題,是更加高效節(jié)能的架構(gòu)。尤其是適合下一代的芯片:近存和存算一體的芯片。RWKV是持續(xù)在沿著類腦的路線在迭代,包括神經(jīng)符號這種業(yè)內(nèi)的突破 RWKV架構(gòu)是開源可商用的,我們正在建立一個全球龐大的開源生態(tài)。
我們現(xiàn)在的商業(yè)化聚焦在端側(cè)。大家都知道國內(nèi)軟件不賺錢,所以未來中國的新型智能終端會是拉動內(nèi)需的重要產(chǎn)品。另外云端的多智能體網(wǎng)絡(luò),是下一代的互聯(lián)網(wǎng),大家也會發(fā)現(xiàn)一定會基于新的架構(gòu)來做。歡迎在場的有志之士試一試。
我們期望的人工智能的發(fā)展方向:用存算一體訓(xùn)練一體的芯片、RWKV這種新型RNN架構(gòu),已經(jīng)變成了一個確定性的方向。
歡迎大家關(guān)注RWKV,也歡迎大家使用RWKV。謝謝。
