網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

元始智能羅璇：全球首個非Transformer架構(gòu)RWKV，正在突破AI算力瓶頸

2025-12-26 13:45:12　來源: 網(wǎng)易科技報道

北京舉報

分享至

12月18日，網(wǎng)易傳媒主辦的“2025新一代人工智能創(chuàng)業(yè)大賽”頒獎典禮在北京網(wǎng)易大廈成功舉辦。

“2025新一代人工智能創(chuàng)業(yè)大賽”聚焦“AI基礎(chǔ)設(shè)施”、“AI應(yīng)用和智能體”和“AI硬件”三大前沿賽道，旨在挖掘頂尖創(chuàng)業(yè)團隊。下午的AI投資論壇系列活動從往屆獲獎?wù)叩膶崙?zhàn)分享，到聚焦AI全球化與商業(yè)化路徑的深度剖析，再到圍繞具身智能、Agent等前沿議題的“圍爐夜話”思辨，層層遞進，探討了AI從技術(shù)探索走向產(chǎn)業(yè)落地的關(guān)鍵命題。

現(xiàn)場，2024年去年大賽的獲獎代表、深圳元始智能聯(lián)合創(chuàng)始人兼COO羅璇在發(fā)展匯報中表示，當(dāng)前主流AI大模型所依賴的Transformer架構(gòu)存在計算復(fù)雜度高、能耗大及端側(cè)部署不友好等問題。對此，他們提出RWKV作為一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的架構(gòu)，其核心優(yōu)勢在于將計算復(fù)雜度從二次方降低至線性，從而在理論層面提升了訓(xùn)練與推理效率，并降低了資源消耗。

羅璇在匯報中提到，網(wǎng)易大賽的支持極大促進了項目的發(fā)展，RWKV作為一個開源項目，已獲得了新一輪融資，而且RWKV開發(fā)者社區(qū)發(fā)展迅速，與此同時，該架構(gòu)在端側(cè)智能及多智能體等領(lǐng)域已經(jīng)展現(xiàn)出強大的應(yīng)用潛力。

以下為羅璇的演講全文，經(jīng)不影響原意的編輯：

非常感謝網(wǎng)易再次給我一個機會分享我們的項目，去年參加網(wǎng)易的活動之后，去年年底拿到天使輪的融資。今年7月世界人工智能大會上，我們作為未來之星項目獲得了總理的接見。今天分享的RWKV項目，是面向未來的高效AI大模型架構(gòu)。

很多人關(guān)注大模型從2022年ChatGPT開始的，在ChatGPT出來以后大家關(guān)注了大模型這個技術(shù)賽道，更多看到的像Chat GPT、DeepSeek、千問、Llama這種模型公司以及上層的應(yīng)用公司，這一切的底層神經(jīng)網(wǎng)絡(luò)架構(gòu)都基于Transformer架構(gòu)，這個架構(gòu)源自于2017年Google發(fā)的論文叫“Attention is all you need”。它打破了過去RNN不能高效并行訓(xùn)練的問題，也帶來了新的問題。而RWKV是全球首個的非Transformer架構(gòu)，正在解決Transformer的問題。

這是我們團隊，創(chuàng)始人彭博，背景比較傳奇，6歲開始寫代碼，16歲全獎進港大物理系，畢業(yè)后開始在全球最大的外匯對沖基金管理6000萬美元的資產(chǎn)。后來，自己做了一家智能硬件公司，也是知乎的人工智能領(lǐng)域的大V。

我是羅璇，是RWKV的聯(lián)合創(chuàng)始人，之前在大廠，在騰訊、阿里，在阿里負責(zé)機器人和人工智能，之前也做機器人的公司。我們更多人來自于開源社區(qū)，現(xiàn)在全職的同事，包括實習(xí)的同事來自于全球數(shù)萬人的社區(qū)。RWKV源自于2020年初彭博的開源項目，過去五年迭代了8代，也發(fā)表了3篇學(xué)術(shù)論文。OpenAI在2023年初邀請彭博入職，但是彭博馬上就回復(fù)：如果OpenAI重新Open的話他愿意合作。

在拒絕OpenAI之后，彭博把RWKV開源項目放到了Linux Foundation下面孵化，現(xiàn)在是全球的開源項目。所有的開發(fā)者、科研機構(gòu)可以沒有負擔(dān)的使用這個架構(gòu)。過去也出現(xiàn)了很多的新架構(gòu)，像Mamba，Google出的Titans，國內(nèi)也有KDA等等的架構(gòu)，都在跟進這個路線，而RWKV現(xiàn)在的第八代還沒有跟隨者。去年8月份，微軟在每一臺Windows電腦里面內(nèi)置了RWKV架構(gòu)。去年，RWKV被評為英偉達的初創(chuàng)生態(tài)榮耀企業(yè)，掛他們的官網(wǎng)，今年3月份我在也分享了最新的架構(gòu)。我們也跟多家的芯片廠商合作，做端側(cè)的模型，我們認為端側(cè)是巨大的機會，尤其中國巨大的機會。今年WAIC我們獲得了未來之星獎，也獲得了總理的接見。

我們看看RWKV到底解決什么問題。

第一，Transformer模型在推理側(cè)是二次方復(fù)雜度問題。過去三年大家發(fā)現(xiàn)英偉達這家公司非常值錢，大家在大模型的訓(xùn)練和推理過程當(dāng)中需要大量的算力，為什么需要這么多算力？因為底層算法的效率非常低，Token生成的長度跟算力的需求是二次方增長的關(guān)系。隨之需要的能源也非常高，以及對于端側(cè)非常不友好，大家看到大部分的模型幾乎都是調(diào)云端的API，沒有辦法形成規(guī)模效應(yīng)。

第二，最近Ilya說的Scaling law沒有了，很多業(yè)內(nèi)人說原因是數(shù)據(jù)不夠用了，但是實際上現(xiàn)在大語言模型訓(xùn)練了30T的Token，人類從出生到死亡這段時間內(nèi)需要的文本數(shù)據(jù)是遠遠低于這個數(shù)據(jù)量。就相當(dāng)于一個人說全世界的糧食都不夠他吃，這到底是糧食的原因呢？還是人本身的問題？所以，我們認為應(yīng)該是模型架構(gòu)本身的問題，如果模型不是暴力記憶，而是能快速的找到數(shù)據(jù)中規(guī)律的話，訓(xùn)練需要的數(shù)據(jù)也不需要那么多了。

第三，國內(nèi)之前沒關(guān)注的點，就是Transformer是有商業(yè)專利的，谷歌在2017年就建立了全球?qū)＠谋趬尽?/p>

RWKV是全球的首個非Transformer架構(gòu)，我們叫新型RNN架構(gòu)，它不但可以高效并行訓(xùn)練，同時它推理的速度和推理的資源占用也是恒定的，我們也帶來了新的極致上下文的State-tuning的能力。

無論是效率、能耗還是效果，RWKV都是優(yōu)于Transformer。能耗這塊RWKV非常適合存算一體、3D堆疊的近存芯片，因為RWKV模型推理在Decode的階段只需要做矩陣乘矢量，不需要做矩陣乘矩陣，同時它不需要管理KV-Cache不斷變大的問題。在云端，RWKV架構(gòu)模型也是更有優(yōu)勢的，并發(fā)的能力是Transformer模型的一百倍。

除此之外，RWKV本質(zhì)上是在做類腦架構(gòu)，包括持久的記憶能力、持續(xù)學(xué)習(xí)能力，還有內(nèi)部模型持續(xù)擬合外部世界的能力、無限長的推理能力。

現(xiàn)在的Transformer模型的QKV機制更像是一個超級小鎮(zhèn)做題家，它希望把全世界的題目背下來去參加高考，去做一個模糊的匹配，而RWKV架構(gòu)模型是實時地找題目和答案之間的解題規(guī)律和方法，所以它是非常高效的架構(gòu)。

大家喜歡看Benchmark，所以我們最近也做了一些Benchmark，RWKV的13B模型，泛化能力和語言能力都優(yōu)于千問14B Base 模型。數(shù)學(xué)百科代碼指令這塊我們也非常接近于現(xiàn)在千問14B Base，而這些能力是可以靠刷題解決的。

RWKV-8是我們最近公開的全球首個神經(jīng)符號大模型架構(gòu)，它帶來完全不同的特性，它讓AI內(nèi)部生成它自己的語言，可以做無限范圍無損信息的傳播，未來的大模型是具備可解釋性，這是一個業(yè)界的重大突破，現(xiàn)在全球的大量學(xué)者都在關(guān)注我們這個架構(gòu)。

RWKV 目前有誰在用呢？第一個是我們商業(yè)公司在用，我們把它落在端側(cè)，包括手機、PC、眼鏡、機器人等終端上，讓他們具備語言、圖片識別、語音合成能力等等，其中一些應(yīng)用已經(jīng)在海外上架。這是端側(cè)的AI 編程項目，可以在一臺單卡的消費級電腦上面，同時跑24個并發(fā)去做網(wǎng)頁生成。這也是現(xiàn)在的架構(gòu)做不到的。這是海外一個非常知名的編程獨角獸，估值三十億美金，所有的模型都基于RWKV的架構(gòu)提供給客戶。如果是程序員的話可能認識 Fabrice Bellard，他是全球知名的程序員，跟Google的Jeff Dean齊名的，他去年公開了用RWKV做的信息壓縮軟件。具身智能是大家今年特別關(guān)注的賽道，地瓜機器人和有鹿機器人，我們都是有深度合作。還有國家電網(wǎng)在用RWKV做做新能源的發(fā)電預(yù)測和調(diào)度。中國電科的30B的小可大模型也是基于RWKV。RWKV已經(jīng)在工業(yè)界廣泛的有落地。

更重要的是RWKV的開源生態(tài)，在海外有數(shù)萬的開發(fā)者，光Discord上面就有九千多，GitHub上面基于RWKV的開源項目超過六百個，有超過160篇的前沿學(xué)術(shù)論文在基于RWKV 訓(xùn)練模型，像語言、多模態(tài)、智能體、具身智能等等。多智能體是過去幾年業(yè)內(nèi)非常頭疼的問題，今年二月份斯坦福用 RWKV做了一個項目，證明了 RWKV 這種架構(gòu)才是做多智能體的正確方向。騰訊今年的3D動作生成的論文，也是基于RWKV做的。這是美國第一大的語音識別的公司叫 Rev，他們基于 RWKV做長語音的流式識別，未來新的計算終端需要Always on，那就會非常有用。還有弗吉尼亞大學(xué)用RWKV做的端側(cè)模型，UCLA用 RWKV做的肌電手勢識別。UCSD用RWKV做的脈沖類腦計算。國內(nèi)也有浙大李爾平教授在用RWKV做脈沖類腦計算。上海有一家對沖基金，用RWKV做的股價預(yù)測和量化交易。還有哈佛用RWKV做的量子增強的實踐訓(xùn)練預(yù)測，聽說也是用來做對沖基金的。國內(nèi)也有團隊用RWKV做藥物發(fā)現(xiàn)，海外的團隊用RWKV做RNA預(yù)測。所以簡單而言，RWKV正在全面的替代Transformer。

RWKV是面向未來的高效AI大模型架構(gòu)，解決了Transformer的二次方復(fù)雜度問題，是更加高效節(jié)能的架構(gòu)。尤其是適合下一代的芯片：近存和存算一體的芯片。RWKV是持續(xù)在沿著類腦的路線在迭代，包括神經(jīng)符號這種業(yè)內(nèi)的突破 RWKV架構(gòu)是開源可商用的，我們正在建立一個全球龐大的開源生態(tài)。

我們現(xiàn)在的商業(yè)化聚焦在端側(cè)。大家都知道國內(nèi)軟件不賺錢，所以未來中國的新型智能終端會是拉動內(nèi)需的重要產(chǎn)品。另外云端的多智能體網(wǎng)絡(luò)，是下一代的互聯(lián)網(wǎng)，大家也會發(fā)現(xiàn)一定會基于新的架構(gòu)來做。歡迎在場的有志之士試一試。

我們期望的人工智能的發(fā)展方向：用存算一體訓(xùn)練一體的芯片、RWKV這種新型RNN架構(gòu)，已經(jīng)變成了一個確定性的方向。

歡迎大家關(guān)注RWKV，也歡迎大家使用RWKV。謝謝。