網易首頁 > 網易號 > 正文申請入駐

領先推理服務商采用NVIDIA Blackwell開源模型將AI成本降低10倍

2026-02-14 20:58:04　來源: 至頂頭條

北京舉報

分享至

醫療診斷洞察、互動游戲中的角色對話、客服智能體的自主響應——這些AI驅動的交互都基于同一個智能單元：Token。

擴展這些AI交互需要企業考慮是否能負擔更多Token成本。答案在于更好的Token經濟學——其核心是降低每個Token的成本。這一下降趨勢正在各行業展開。麻省理工學院最新研究發現，基礎設施和算法效率正將前沿性能的推理成本年降幅提升至10倍。

要理解基礎設施效率如何改善Token經濟學，可以想象一臺高速印刷機。如果印刷機通過對墨水、能源和機器本身的增量投資實現10倍產出，那么每頁的印刷成本就會下降。同樣，對AI基礎設施的投資能帶來遠超成本增長的Token產出，從而顯著降低每Token成本。

這正是Baseten、DeepInfra、Fireworks AI和Together AI等領先推理服務商選擇使用NVIDIA Blackwell平臺的原因，該平臺幫助他們將每Token成本相比NVIDIA Hopper平臺降低多達10倍。

這些服務商托管先進的開源模型，這些模型現已達到前沿智能水平。通過結合開源前沿智能、NVIDIA Blackwell的極致硬件-軟件協同設計以及他們自己的優化推理堆棧，這些服務商正為各行各業的企業實現顯著的Token成本降低。

醫療領域變革

在醫療領域，醫療編碼、文檔記錄和保險表格管理等繁瑣耗時的任務占用了醫生與患者相處的時間。

Sully.ai通過開發能處理醫療編碼和記錄等常規任務的"AI員工"來幫助解決這一問題。隨著公司平臺規模擴大，其專有閉源模型產生了三個瓶頸：實時臨床工作流中的不可預測延遲、推理成本增長超過收入增長，以及對模型質量和更新控制不足。

為克服這些瓶頸，Sully.ai使用Baseten的模型API，在NVIDIA Blackwell GPU上部署如gpt-oss-120b等開源模型。Baseten采用低精度NVFP4數據格式、NVIDIA TensorRT-大語言模型庫和NVIDIA Dynamo推理框架來提供優化推理。公司選擇NVIDIA Blackwell運行其模型API，因為相比NVIDIA Hopper平臺，每美元吞吐量提升了2.5倍。

結果，Sully.ai的推理成本下降了90%，相比之前的閉源實現實現了10倍降低，同時醫療記錄生成等關鍵工作流的響應時間改善了65%。公司現已為醫生節省超過3000萬分鐘，這些時間此前都浪費在數據錄入和其他手動任務上。

游戲體驗革命

Latitude正在通過其AI Dungeon冒險故事游戲和即將推出的AI驅動角色扮演游戲平臺Voyage構建AI原生游戲的未來，玩家可以創建或游玩世界，自由選擇任何行動并創造自己的故事。

公司平臺使用大語言模型響應玩家行動——但這帶來了擴展挑戰，因為每個玩家行動都會觸發推理請求。成本隨參與度擴展，響應時間必須保持足夠快以確保無縫體驗。

Latitude在DeepInfra的推理平臺上運行大型開源模型，該平臺由NVIDIA Blackwell GPU和TensorRT-大語言模型驅動。對于大規模專家混合模型，DeepInfra將每百萬Token成本從NVIDIA Hopper平臺的20美分降至Blackwell上的10美分。轉向Blackwell原生低精度NVFP4格式進一步將成本降至僅5美分——總計4倍每Token成本改善——同時保持客戶期望的準確性。

在DeepInfra的Blackwell驅動平臺上運行這些大規模專家混合模型，使Latitude能夠經濟高效地提供快速可靠響應。DeepInfra推理平臺在可靠處理流量峰值的同時提供這種性能，讓Latitude能部署更強大的模型而不妨礙玩家體驗。

推理系統突破

Sentient Labs專注于匯聚AI開發者共同構建強大的推理AI系統，所有系統都是開源的。目標是通過安全自主、智能體架構和持續學習研究加速AI解決更難推理問題。

其首個應用Sentient Chat編排復雜的多智能體工作流，集成了社區中十多個專業AI智能體。因此，Sentient Chat有巨大計算需求，因為單個用戶查詢可能觸發通常導致昂貴基礎設施開銷的自主交互級聯。

為管理這種規模和復雜性，Sentient使用運行在NVIDIA Blackwell上的Fireworks AI推理平臺。通過Fireworks的Blackwell優化推理堆棧，Sentient實現了相比之前基于Hopper部署25-50%的成本效率提升。

每GPU更高吞吐量使公司能以相同成本服務顯著更多并發用戶。平臺的可擴展性支持了24小時內180萬用戶排隊的病毒式發布，單周處理560萬次查詢，同時保持一致的低延遲。

客服智能體優化

語音AI客服通話往往以挫敗告終，因為即使輕微延遲也可能導致用戶與智能體重疊說話、掛斷或失去信任。

Decagon為企業客戶支持構建AI智能體，AI驅動語音是其最苛刻的渠道。Decagon需要能在不可預測流量負載下提供亞秒級響應的基礎設施，以及支持全天候語音部署的Token經濟學。

Together AI在NVIDIA Blackwell GPU上為Decagon的多模型語音堆棧運行生產推理。兩家公司在幾個關鍵優化上合作：投機解碼，訓練較小模型生成更快響應，同時較大模型在后臺驗證準確性；緩存重復對話元素以加速響應；構建自動擴展以處理流量激增而不降低性能。

Decagon看到響應時間在處理每查詢數千Token時仍保持400毫秒以下。每查詢成本（完成一次語音交互的總成本）相比使用閉源專有模型下降了6倍。這通過Decagon的多模型方法（部分開源，部分在NVIDIA GPU上內部訓練）、NVIDIA Blackwell的極致協同設計和Together的優化推理堆棧組合實現。

未來發展趨勢

醫療、游戲和客服領域看到的顯著成本節省由NVIDIA Blackwell的效率驅動。NVIDIA GB200 NVL72系統通過為推理專家混合模型提供相比NVIDIA Hopper突破性的10倍每Token成本降低，進一步擴大了這一影響。

NVIDIA在堆棧每一層的極致協同設計——涵蓋計算、網絡和軟件——及其合作伙伴生態系統正在大規模解鎖每Token成本的巨大降低。

這一勢頭將延續到NVIDIA Rubin平臺——將六款新芯片集成到單一AI超級計算機中，相比Blackwell提供10倍性能和10倍更低Token成本。

Q&A

Q1：NVIDIA Blackwell平臺相比Hopper平臺在成本節省方面有什么優勢？

A：NVIDIA Blackwell平臺幫助領先推理服務商將每Token成本相比NVIDIA Hopper平臺降低多達10倍。例如，DeepInfra將大規模專家混合模型的每百萬Token成本從Hopper平臺的20美分降至Blackwell上的10美分，使用NVFP4格式進一步降至5美分。

Q2：開源模型在AI應用中能達到什么樣的性能水平？

A：開源模型現已達到前沿智能水平。通過結合開源前沿智能、NVIDIA Blackwell的極致硬件-軟件協同設計以及優化的推理堆棧，這些模型能夠為各行業企業實現顯著的Token成本降低，同時保持高質量的AI交互體驗。

Q3：這些成本優化對實際業務應用有什么影響？

A：成本優化帶來顯著業務價值。例如，Sully.ai推理成本下降90%，為醫生節省超過3000萬分鐘；Decagon每查詢成本下降6倍，響應時間保持400毫秒以下；Sentient實現25-50%成本效率提升，支持24小時內180萬用戶排隊的病毒式發布。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.