![]()
真格基金是開源項(xiàng)目 vLLM 的早期捐贈(zèng)人。我們見證了 vLLM 團(tuán)隊(duì)對(duì)技術(shù)的前瞻判斷與極致追求,也深深被他們?yōu)殚_源生態(tài)作出的卓越貢獻(xiàn)所打動(dòng)。非常激動(dòng)能夠從第一天起,繼續(xù)支持由 vLLM 核心團(tuán)隊(duì)創(chuàng)辦的 Inferact。祝賀 Simon,Woosuk,Kaichao,Roger,Ion 等創(chuàng)始團(tuán)隊(duì)成員!期待 Inferact 在他們的帶領(lǐng)下,打造世界級(jí)的 AI 推理引擎,加速整個(gè) AI 產(chǎn)業(yè)的進(jìn)步。
真格基金管理合伙人戴雨森
1 月 22 日,由開源軟件 vLLM 核心團(tuán)隊(duì)創(chuàng)立的 AI 初創(chuàng)公司 Inferact 正式宣布完成 1.5 億美元的種子輪融資,公司估值達(dá)到 8 億美元。本輪融資由 Andreessen Horowitz 與 Lightspeed 領(lǐng)投,真格基金與 Sequoia Capital、Altimeter Capital、Redpoint Ventures 等硅谷頂級(jí) VC 跟投。
成立于 2025 年 11 月的 Inferact 誕生于 vLLM 社區(qū)長(zhǎng)期實(shí)踐的基礎(chǔ)之上。vLLM 是當(dāng)下最重要的開源推理引擎之一,也是整個(gè)開源世界中規(guī)模最大的項(xiàng)目之一。今天,vLLM 已支持 500 余種模型架構(gòu),運(yùn)行在 200 多種加速器之上,在全球范圍內(nèi)承載著真實(shí)且大規(guī)模的推理負(fù)載,累計(jì)擁有 2000 多名貢獻(xiàn)者。Meta、Google、Character.ai 等多家公司也已在生產(chǎn)環(huán)境中使用 vLLM。2024 年 7 月,真格宣布捐贈(zèng)支持 vLLM,一路陪伴核心團(tuán)隊(duì)從一個(gè)開源項(xiàng)目走到今天。
Inferact 成立后,來(lái)自 vLLM 核心團(tuán)隊(duì)的 Simon Mo 將出任 Inferact CEO,Woosuk 任 CTO,Kaichao(游凱超)任首席科學(xué)家。團(tuán)隊(duì)還包括 Roger Wang、伯克利大學(xué)計(jì)算機(jī)系教授 Ion Stoica 等聯(lián)合創(chuàng)始人和十幾位創(chuàng)始團(tuán)隊(duì)成員。他們的使命十分明確:把 vLLM 打造成世界級(jí)的 AI 推理引擎,通過讓推理變得更便宜、更高效,來(lái)加速整個(gè) AI 產(chǎn)業(yè)的進(jìn)步。
Inferact 聯(lián)合創(chuàng)始人兼 CTO Woosuk Kwon 在 X 上宣布公司成立的推文中提到:
當(dāng)前,AI 行業(yè)正經(jīng)歷一輪明確的遷移:從訓(xùn)練端的能力不足與不穩(wěn)定性,快速轉(zhuǎn)向推理端的資源受限和執(zhí)行效率問題。隨之而來(lái)的是推理需求的爆發(fā)式增長(zhǎng),而且很可能是超線性的。隨著 Agent 執(zhí)行步數(shù)增加、單步所需 token 數(shù)上升,推理負(fù)載本身正在變得愈發(fā)復(fù)雜。
模型規(guī)模持續(xù)增長(zhǎng),新架構(gòu)層出不窮。從 MoE、多模態(tài)到智能體化,幾乎每一次模型能力的突破,都會(huì)提出全新的基礎(chǔ)設(shè)施要求;硬件端也在不斷碎片化,出現(xiàn)了更多類型的加速器、更多編程模型以及更多需要被優(yōu)化的組合。
模型能力與承載它們的系統(tǒng)方案之間正在形成越來(lái)越大的鴻溝。最強(qiáng)大的模型受限于算力瓶頸,全部潛力只能被少數(shù)擁有定制化基礎(chǔ)設(shè)施能力的團(tuán)隊(duì)完全釋放。且這一問題仍在加劇。推理正從計(jì)算資源中的「一小部分」演變?yōu)椤附^對(duì)主體」:test-time compute、RL 訓(xùn)練閉環(huán)及合成數(shù)據(jù)生成,都在不斷推高對(duì)推理的需求。
惟有補(bǔ)上這層差距,新的可能性才會(huì)真正打開。
![]()
這一理念源自 vLLM 的起點(diǎn)。
2022 年,在 ChatGPT 發(fā)布之前,vLLM 團(tuán)隊(duì)曾在加州大學(xué)伯克利分校內(nèi)部搭建過一個(gè)大語(yǔ)言模型 demo。當(dāng)時(shí)部署在服務(wù)器上的還是 Facebook 的 OPT-175B,目的是為了展示團(tuán)隊(duì)此前一個(gè)用于自動(dòng)化模型定型與推理的研究項(xiàng)目 alpha。但在部署過程中,團(tuán)隊(duì)很快發(fā)現(xiàn) demo 運(yùn)行緩慢、GPU 利用率極低,這讓他們意識(shí)到:大語(yǔ)言模型的瓶頸并不只在模型本身,推理階段的系統(tǒng)層問題同樣關(guān)鍵。隨著模型規(guī)模擴(kuò)大,僅靠模型層優(yōu)化已經(jīng)遠(yuǎn)遠(yuǎn)不夠。
Inferact CEO Simon Mo 曾在 2024 年做客真格播客「此話當(dāng)真」時(shí)分享:「在推理過程中,單點(diǎn)的算子優(yōu)化當(dāng)然重要,但真正有效的,是跨請(qǐng)求、跨任務(wù)的系統(tǒng)級(jí)優(yōu)化。當(dāng)時(shí)市面上幾乎沒有任何專門針對(duì)大語(yǔ)言模型推理優(yōu)化的開源系統(tǒng),所以我們決定自己動(dòng)手,從零開始做一個(gè)。」
在隨后的實(shí)踐中,團(tuán)隊(duì)進(jìn)一步定位到 GPU 顯存管理這一核心瓶頸。傳統(tǒng)的內(nèi)存管理方式存在大量浪費(fèi),嚴(yán)重限制了吞吐與并發(fā)能力。經(jīng)過多輪迭代,vLLM 團(tuán)隊(duì)提出了新的 attention 計(jì)算方法 PagedAttention,借鑒操作系統(tǒng)中的 Paging 與虛擬內(nèi)存機(jī)制,對(duì) Transformer 中 attention 所使用的 KV Cache 進(jìn)行管理,從而顯著降低顯存占用,并提升整體吞吐能力。這一技術(shù)突破成為 vLLM 乃至 Inferact 的重要起點(diǎn)。
![]()
vLLM 位于模型與硬件交匯的關(guān)鍵位置,而這個(gè)位置,是用多年時(shí)間一點(diǎn)點(diǎn)打磨出來(lái)的。
正如同樣誕生于伯克利、隨后成長(zhǎng)為獨(dú)角獸的 Apache Spark、Ray 等項(xiàng)目一樣,Inferact 也是在持續(xù)運(yùn)營(yíng)一個(gè)被全球頂級(jí)公司真實(shí)使用的開源社區(qū)中,匯聚了大量?jī)?yōu)秀開發(fā)者的長(zhǎng)期貢獻(xiàn),同時(shí)打磨出了一支推動(dòng)智能邊界、具備清晰使命感的團(tuán)隊(duì)。
伯克利的開源傳統(tǒng)本質(zhì)上是一種「碰撞機(jī)制」,讓學(xué)界最新的想法與真實(shí)的生產(chǎn)環(huán)境和用例相遇,也讓更具探索性的研究思維與業(yè)界務(wù)實(shí)的工程取向不斷摩擦。雙方彼此學(xué)習(xí),最終孕育出既實(shí)用又能引領(lǐng)范式變化的開源項(xiàng)目。
這一機(jī)制也體現(xiàn)在 vLLM 的成長(zhǎng)路徑中。當(dāng)模型廠商推出新的架構(gòu)時(shí),會(huì)第一時(shí)間與 vLLM 協(xié)作,確保 Day-zero 支持;當(dāng)硬件廠商設(shè)計(jì)新的芯片時(shí),也會(huì)直接與 vLLM 集成;而從前沿實(shí)驗(yàn)室、云廠商到服務(wù)數(shù)百萬(wàn)用戶的初創(chuàng)公司,在規(guī)模化部署時(shí),運(yùn)行在生產(chǎn)環(huán)境中的仍是 vLLM。這個(gè)由 2000 多名貢獻(xiàn)者共同構(gòu)建的生態(tài)構(gòu)成了 vLLM 和 Inferact 最堅(jiān)實(shí)、也最難以復(fù)制的基礎(chǔ)。
Inferact 表示,公司的首要任務(wù)始終是以獨(dú)立開源項(xiàng)目的形式持續(xù)支持 vLLM,并將所有改進(jìn)回饋社區(qū);同時(shí),Inferact 將開發(fā)商業(yè)化產(chǎn)品以幫助企業(yè)在不同類型的硬件上更高效、更穩(wěn)定地運(yùn)行 AI 模型。
Inferact 看到的未來(lái)是:AI 的部署與服務(wù)將變得像基礎(chǔ)設(shè)施一樣輕松。
Woosuk Kwon 在官宣推文的最后展望:「大規(guī)模部署一個(gè)前沿模型仍需要一整支專業(yè)的基礎(chǔ)設(shè)施團(tuán)隊(duì)。而在未來(lái),這件事理應(yīng)像啟動(dòng)一個(gè) serverless 數(shù)據(jù)庫(kù)一樣簡(jiǎn)單。復(fù)雜性不會(huì)消失——它將被吸收進(jìn) Inferact 正在構(gòu)建的基礎(chǔ)設(shè)施之中。」
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.