網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

vLLM 團(tuán)隊(duì)創(chuàng)立 Inferact 并完成 1.5 億美元種子輪融資，真格基金首輪投資

2026-01-23 18:04:42　來(lái)源: 真格基金

北京舉報(bào)

分享至

真格基金是開源項(xiàng)目 vLLM 的早期捐贈(zèng)人。我們見證了 vLLM 團(tuán)隊(duì)對(duì)技術(shù)的前瞻判斷與極致追求，也深深被他們?yōu)殚_源生態(tài)作出的卓越貢獻(xiàn)所打動(dòng)。非常激動(dòng)能夠從第一天起，繼續(xù)支持由 vLLM 核心團(tuán)隊(duì)創(chuàng)辦的 Inferact。祝賀 Simon，Woosuk，Kaichao，Roger，Ion 等創(chuàng)始團(tuán)隊(duì)成員！期待 Inferact 在他們的帶領(lǐng)下，打造世界級(jí)的 AI 推理引擎，加速整個(gè) AI 產(chǎn)業(yè)的進(jìn)步。

真格基金管理合伙人戴雨森

1 月 22 日，由開源軟件 vLLM 核心團(tuán)隊(duì)創(chuàng)立的 AI 初創(chuàng)公司 Inferact 正式宣布完成 1.5 億美元的種子輪融資，公司估值達(dá)到 8 億美元。本輪融資由 Andreessen Horowitz 與 Lightspeed 領(lǐng)投，真格基金與 Sequoia Capital、Altimeter Capital、Redpoint Ventures 等硅谷頂級(jí) VC 跟投。

成立于 2025 年 11 月的 Inferact 誕生于 vLLM 社區(qū)長(zhǎng)期實(shí)踐的基礎(chǔ)之上。vLLM 是當(dāng)下最重要的開源推理引擎之一，也是整個(gè)開源世界中規(guī)模最大的項(xiàng)目之一。今天，vLLM 已支持 500 余種模型架構(gòu)，運(yùn)行在 200 多種加速器之上，在全球范圍內(nèi)承載著真實(shí)且大規(guī)模的推理負(fù)載，累計(jì)擁有 2000 多名貢獻(xiàn)者。Meta、Google、Character.ai 等多家公司也已在生產(chǎn)環(huán)境中使用 vLLM。2024 年 7 月，真格宣布捐贈(zèng)支持 vLLM，一路陪伴核心團(tuán)隊(duì)從一個(gè)開源項(xiàng)目走到今天。

Inferact 成立后，來(lái)自 vLLM 核心團(tuán)隊(duì)的 Simon Mo 將出任 Inferact CEO，Woosuk 任 CTO，Kaichao（游凱超）任首席科學(xué)家。團(tuán)隊(duì)還包括 Roger Wang、伯克利大學(xué)計(jì)算機(jī)系教授 Ion Stoica 等聯(lián)合創(chuàng)始人和十幾位創(chuàng)始團(tuán)隊(duì)成員。他們的使命十分明確：把 vLLM 打造成世界級(jí)的 AI 推理引擎，通過讓推理變得更便宜、更高效，來(lái)加速整個(gè) AI 產(chǎn)業(yè)的進(jìn)步。

Inferact 聯(lián)合創(chuàng)始人兼 CTO Woosuk Kwon 在 X 上宣布公司成立的推文中提到：

當(dāng)前，AI 行業(yè)正經(jīng)歷一輪明確的遷移：從訓(xùn)練端的能力不足與不穩(wěn)定性，快速轉(zhuǎn)向推理端的資源受限和執(zhí)行效率問題。隨之而來(lái)的是推理需求的爆發(fā)式增長(zhǎng)，而且很可能是超線性的。隨著 Agent 執(zhí)行步數(shù)增加、單步所需 token 數(shù)上升，推理負(fù)載本身正在變得愈發(fā)復(fù)雜。

模型規(guī)模持續(xù)增長(zhǎng)，新架構(gòu)層出不窮。從 MoE、多模態(tài)到智能體化，幾乎每一次模型能力的突破，都會(huì)提出全新的基礎(chǔ)設(shè)施要求；硬件端也在不斷碎片化，出現(xiàn)了更多類型的加速器、更多編程模型以及更多需要被優(yōu)化的組合。

模型能力與承載它們的系統(tǒng)方案之間正在形成越來(lái)越大的鴻溝。最強(qiáng)大的模型受限于算力瓶頸，全部潛力只能被少數(shù)擁有定制化基礎(chǔ)設(shè)施能力的團(tuán)隊(duì)完全釋放。且這一問題仍在加劇。推理正從計(jì)算資源中的「一小部分」演變?yōu)椤附^對(duì)主體」：test-time compute、RL 訓(xùn)練閉環(huán)及合成數(shù)據(jù)生成，都在不斷推高對(duì)推理的需求。

惟有補(bǔ)上這層差距，新的可能性才會(huì)真正打開。

這一理念源自 vLLM 的起點(diǎn)。

2022 年，在 ChatGPT 發(fā)布之前，vLLM 團(tuán)隊(duì)曾在加州大學(xué)伯克利分校內(nèi)部搭建過一個(gè)大語(yǔ)言模型 demo。當(dāng)時(shí)部署在服務(wù)器上的還是 Facebook 的 OPT-175B，目的是為了展示團(tuán)隊(duì)此前一個(gè)用于自動(dòng)化模型定型與推理的研究項(xiàng)目 alpha。但在部署過程中，團(tuán)隊(duì)很快發(fā)現(xiàn) demo 運(yùn)行緩慢、GPU 利用率極低，這讓他們意識(shí)到：大語(yǔ)言模型的瓶頸并不只在模型本身，推理階段的系統(tǒng)層問題同樣關(guān)鍵。隨著模型規(guī)模擴(kuò)大，僅靠模型層優(yōu)化已經(jīng)遠(yuǎn)遠(yuǎn)不夠。

Inferact CEO Simon Mo 曾在 2024 年做客真格播客「此話當(dāng)真」時(shí)分享：「在推理過程中，單點(diǎn)的算子優(yōu)化當(dāng)然重要，但真正有效的，是跨請(qǐng)求、跨任務(wù)的系統(tǒng)級(jí)優(yōu)化。當(dāng)時(shí)市面上幾乎沒有任何專門針對(duì)大語(yǔ)言模型推理優(yōu)化的開源系統(tǒng)，所以我們決定自己動(dòng)手，從零開始做一個(gè)。」

在隨后的實(shí)踐中，團(tuán)隊(duì)進(jìn)一步定位到 GPU 顯存管理這一核心瓶頸。傳統(tǒng)的內(nèi)存管理方式存在大量浪費(fèi)，嚴(yán)重限制了吞吐與并發(fā)能力。經(jīng)過多輪迭代，vLLM 團(tuán)隊(duì)提出了新的 attention 計(jì)算方法 PagedAttention，借鑒操作系統(tǒng)中的 Paging 與虛擬內(nèi)存機(jī)制，對(duì) Transformer 中 attention 所使用的 KV Cache 進(jìn)行管理，從而顯著降低顯存占用，并提升整體吞吐能力。這一技術(shù)突破成為 vLLM 乃至 Inferact 的重要起點(diǎn)。

vLLM 位于模型與硬件交匯的關(guān)鍵位置，而這個(gè)位置，是用多年時(shí)間一點(diǎn)點(diǎn)打磨出來(lái)的。

正如同樣誕生于伯克利、隨后成長(zhǎng)為獨(dú)角獸的 Apache Spark、Ray 等項(xiàng)目一樣，Inferact 也是在持續(xù)運(yùn)營(yíng)一個(gè)被全球頂級(jí)公司真實(shí)使用的開源社區(qū)中，匯聚了大量?jī)?yōu)秀開發(fā)者的長(zhǎng)期貢獻(xiàn)，同時(shí)打磨出了一支推動(dòng)智能邊界、具備清晰使命感的團(tuán)隊(duì)。

伯克利的開源傳統(tǒng)本質(zhì)上是一種「碰撞機(jī)制」，讓學(xué)界最新的想法與真實(shí)的生產(chǎn)環(huán)境和用例相遇，也讓更具探索性的研究思維與業(yè)界務(wù)實(shí)的工程取向不斷摩擦。雙方彼此學(xué)習(xí)，最終孕育出既實(shí)用又能引領(lǐng)范式變化的開源項(xiàng)目。

這一機(jī)制也體現(xiàn)在 vLLM 的成長(zhǎng)路徑中。當(dāng)模型廠商推出新的架構(gòu)時(shí)，會(huì)第一時(shí)間與 vLLM 協(xié)作，確保 Day-zero 支持；當(dāng)硬件廠商設(shè)計(jì)新的芯片時(shí)，也會(huì)直接與 vLLM 集成；而從前沿實(shí)驗(yàn)室、云廠商到服務(wù)數(shù)百萬(wàn)用戶的初創(chuàng)公司，在規(guī)模化部署時(shí)，運(yùn)行在生產(chǎn)環(huán)境中的仍是 vLLM。這個(gè)由 2000 多名貢獻(xiàn)者共同構(gòu)建的生態(tài)構(gòu)成了 vLLM 和 Inferact 最堅(jiān)實(shí)、也最難以復(fù)制的基礎(chǔ)。

Inferact 表示，公司的首要任務(wù)始終是以獨(dú)立開源項(xiàng)目的形式持續(xù)支持 vLLM，并將所有改進(jìn)回饋社區(qū)；同時(shí)，Inferact 將開發(fā)商業(yè)化產(chǎn)品以幫助企業(yè)在不同類型的硬件上更高效、更穩(wěn)定地運(yùn)行 AI 模型。

Inferact 看到的未來(lái)是：AI 的部署與服務(wù)將變得像基礎(chǔ)設(shè)施一樣輕松。

Woosuk Kwon 在官宣推文的最后展望：「大規(guī)模部署一個(gè)前沿模型仍需要一整支專業(yè)的基礎(chǔ)設(shè)施團(tuán)隊(duì)。而在未來(lái)，這件事理應(yīng)像啟動(dòng)一個(gè) serverless 數(shù)據(jù)庫(kù)一樣簡(jiǎn)單。復(fù)雜性不會(huì)消失——它將被吸收進(jìn) Inferact 正在構(gòu)建的基礎(chǔ)設(shè)施之中。」

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.