<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      領先推理服務商采用NVIDIA Blackwell開源模型將AI成本降低10倍

      0
      分享至


      醫療診斷洞察、互動游戲中的角色對話、客服智能體的自主響應——這些AI驅動的交互都基于同一個智能單元:Token。

      擴展這些AI交互需要企業考慮是否能負擔更多Token成本。答案在于更好的Token經濟學——其核心是降低每個Token的成本。這一下降趨勢正在各行業展開。麻省理工學院最新研究發現,基礎設施和算法效率正將前沿性能的推理成本年降幅提升至10倍。

      要理解基礎設施效率如何改善Token經濟學,可以想象一臺高速印刷機。如果印刷機通過對墨水、能源和機器本身的增量投資實現10倍產出,那么每頁的印刷成本就會下降。同樣,對AI基礎設施的投資能帶來遠超成本增長的Token產出,從而顯著降低每Token成本。

      這正是Baseten、DeepInfra、Fireworks AI和Together AI等領先推理服務商選擇使用NVIDIA Blackwell平臺的原因,該平臺幫助他們將每Token成本相比NVIDIA Hopper平臺降低多達10倍。

      這些服務商托管先進的開源模型,這些模型現已達到前沿智能水平。通過結合開源前沿智能、NVIDIA Blackwell的極致硬件-軟件協同設計以及他們自己的優化推理堆棧,這些服務商正為各行各業的企業實現顯著的Token成本降低。

      醫療領域變革

      在醫療領域,醫療編碼、文檔記錄和保險表格管理等繁瑣耗時的任務占用了醫生與患者相處的時間。

      Sully.ai通過開發能處理醫療編碼和記錄等常規任務的"AI員工"來幫助解決這一問題。隨著公司平臺規模擴大,其專有閉源模型產生了三個瓶頸:實時臨床工作流中的不可預測延遲、推理成本增長超過收入增長,以及對模型質量和更新控制不足。

      為克服這些瓶頸,Sully.ai使用Baseten的模型API,在NVIDIA Blackwell GPU上部署如gpt-oss-120b等開源模型。Baseten采用低精度NVFP4數據格式、NVIDIA TensorRT-大語言模型庫和NVIDIA Dynamo推理框架來提供優化推理。公司選擇NVIDIA Blackwell運行其模型API,因為相比NVIDIA Hopper平臺,每美元吞吐量提升了2.5倍。

      結果,Sully.ai的推理成本下降了90%,相比之前的閉源實現實現了10倍降低,同時醫療記錄生成等關鍵工作流的響應時間改善了65%。公司現已為醫生節省超過3000萬分鐘,這些時間此前都浪費在數據錄入和其他手動任務上。

      游戲體驗革命

      Latitude正在通過其AI Dungeon冒險故事游戲和即將推出的AI驅動角色扮演游戲平臺Voyage構建AI原生游戲的未來,玩家可以創建或游玩世界,自由選擇任何行動并創造自己的故事。

      公司平臺使用大語言模型響應玩家行動——但這帶來了擴展挑戰,因為每個玩家行動都會觸發推理請求。成本隨參與度擴展,響應時間必須保持足夠快以確保無縫體驗。

      Latitude在DeepInfra的推理平臺上運行大型開源模型,該平臺由NVIDIA Blackwell GPU和TensorRT-大語言模型驅動。對于大規模專家混合模型,DeepInfra將每百萬Token成本從NVIDIA Hopper平臺的20美分降至Blackwell上的10美分。轉向Blackwell原生低精度NVFP4格式進一步將成本降至僅5美分——總計4倍每Token成本改善——同時保持客戶期望的準確性。

      在DeepInfra的Blackwell驅動平臺上運行這些大規模專家混合模型,使Latitude能夠經濟高效地提供快速可靠響應。DeepInfra推理平臺在可靠處理流量峰值的同時提供這種性能,讓Latitude能部署更強大的模型而不妨礙玩家體驗。

      推理系統突破

      Sentient Labs專注于匯聚AI開發者共同構建強大的推理AI系統,所有系統都是開源的。目標是通過安全自主、智能體架構和持續學習研究加速AI解決更難推理問題。

      其首個應用Sentient Chat編排復雜的多智能體工作流,集成了社區中十多個專業AI智能體。因此,Sentient Chat有巨大計算需求,因為單個用戶查詢可能觸發通常導致昂貴基礎設施開銷的自主交互級聯。

      為管理這種規模和復雜性,Sentient使用運行在NVIDIA Blackwell上的Fireworks AI推理平臺。通過Fireworks的Blackwell優化推理堆棧,Sentient實現了相比之前基于Hopper部署25-50%的成本效率提升。

      每GPU更高吞吐量使公司能以相同成本服務顯著更多并發用戶。平臺的可擴展性支持了24小時內180萬用戶排隊的病毒式發布,單周處理560萬次查詢,同時保持一致的低延遲。

      客服智能體優化

      語音AI客服通話往往以挫敗告終,因為即使輕微延遲也可能導致用戶與智能體重疊說話、掛斷或失去信任。

      Decagon為企業客戶支持構建AI智能體,AI驅動語音是其最苛刻的渠道。Decagon需要能在不可預測流量負載下提供亞秒級響應的基礎設施,以及支持全天候語音部署的Token經濟學。

      Together AI在NVIDIA Blackwell GPU上為Decagon的多模型語音堆棧運行生產推理。兩家公司在幾個關鍵優化上合作:投機解碼,訓練較小模型生成更快響應,同時較大模型在后臺驗證準確性;緩存重復對話元素以加速響應;構建自動擴展以處理流量激增而不降低性能。

      Decagon看到響應時間在處理每查詢數千Token時仍保持400毫秒以下。每查詢成本(完成一次語音交互的總成本)相比使用閉源專有模型下降了6倍。這通過Decagon的多模型方法(部分開源,部分在NVIDIA GPU上內部訓練)、NVIDIA Blackwell的極致協同設計和Together的優化推理堆棧組合實現。

      未來發展趨勢

      醫療、游戲和客服領域看到的顯著成本節省由NVIDIA Blackwell的效率驅動。NVIDIA GB200 NVL72系統通過為推理專家混合模型提供相比NVIDIA Hopper突破性的10倍每Token成本降低,進一步擴大了這一影響。

      NVIDIA在堆棧每一層的極致協同設計——涵蓋計算、網絡和軟件——及其合作伙伴生態系統正在大規模解鎖每Token成本的巨大降低。

      這一勢頭將延續到NVIDIA Rubin平臺——將六款新芯片集成到單一AI超級計算機中,相比Blackwell提供10倍性能和10倍更低Token成本。

      Q&A

      Q1:NVIDIA Blackwell平臺相比Hopper平臺在成本節省方面有什么優勢?

      A:NVIDIA Blackwell平臺幫助領先推理服務商將每Token成本相比NVIDIA Hopper平臺降低多達10倍。例如,DeepInfra將大規模專家混合模型的每百萬Token成本從Hopper平臺的20美分降至Blackwell上的10美分,使用NVFP4格式進一步降至5美分。

      Q2:開源模型在AI應用中能達到什么樣的性能水平?

      A:開源模型現已達到前沿智能水平。通過結合開源前沿智能、NVIDIA Blackwell的極致硬件-軟件協同設計以及優化的推理堆棧,這些模型能夠為各行業企業實現顯著的Token成本降低,同時保持高質量的AI交互體驗。

      Q3:這些成本優化對實際業務應用有什么影響?

      A:成本優化帶來顯著業務價值。例如,Sully.ai推理成本下降90%,為醫生節省超過3000萬分鐘;Decagon每查詢成本下降6倍,響應時間保持400毫秒以下;Sentient實現25-50%成本效率提升,支持24小時內180萬用戶排隊的病毒式發布。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      劉強東宣布投資50億進軍游艇行業

      劉強東宣布投資50億進軍游艇行業

      21世紀經濟報道
      2026-02-24 22:57:37
      陳妍希慌了!婚內出軌舊照瘋傳全網,證據越扒越多,緊急發聲明滅火

      陳妍希慌了!婚內出軌舊照瘋傳全網,證據越扒越多,緊急發聲明滅火

      八卦王者
      2026-02-23 21:55:26
      簽了簽了!雷霆首輪秀!正式加盟CBA黑馬球隊

      簽了簽了!雷霆首輪秀!正式加盟CBA黑馬球隊

      籃球實戰寶典
      2026-02-24 16:38:25
      一女子坐牢20年終于出獄,去辦身份證時警察竟淚灑當場

      一女子坐牢20年終于出獄,去辦身份證時警察竟淚灑當場

      故事秘棧
      2025-05-27 18:56:51
      外交部介紹德國總理默茨訪華有關安排

      外交部介紹德國總理默茨訪華有關安排

      新華社
      2026-02-24 16:04:02
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      劉邦有啥突出才能,能成為皇帝?毛澤東:封建皇帝里最厲害的一個

      劉邦有啥突出才能,能成為皇帝?毛澤東:封建皇帝里最厲害的一個

      小莜讀史
      2026-02-18 17:12:13
      瑞銀:預計未來幾個月金價將觸及每盎司6200美元

      瑞銀:預計未來幾個月金價將觸及每盎司6200美元

      財聯社
      2026-02-24 16:44:19
      年輕人累死累活掙三四千,老人拿七八千退休金,該如何破局?

      年輕人累死累活掙三四千,老人拿七八千退休金,該如何破局?

      貓叔東山再起
      2026-02-24 10:55:03
      美國洛馬怎么也沒想到,沒繳中國的990億罰單,后果竟如此嚴重!

      美國洛馬怎么也沒想到,沒繳中國的990億罰單,后果竟如此嚴重!

      青青子衿
      2025-12-12 22:03:33
      OpenClaw刪光Meta安全總監郵箱!連喊3次停手都沒用,她狂奔去拔網線

      OpenClaw刪光Meta安全總監郵箱!連喊3次停手都沒用,她狂奔去拔網線

      新智元
      2026-02-24 12:33:20
      吳越納土歸宋的真相:3千多錢氏宗族遷居開封,錢弘俶本人被軟禁

      吳越納土歸宋的真相:3千多錢氏宗族遷居開封,錢弘俶本人被軟禁

      歷史擺渡
      2026-02-18 17:15:03
      突發!李嘉誠被「遠洋捕撈」、強行接管

      突發!李嘉誠被「遠洋捕撈」、強行接管

      家傳編輯部
      2026-02-24 15:29:58
      純電新能源所剩無幾,其他集體塞回發動機,這事到底誰在“打臉”

      純電新能源所剩無幾,其他集體塞回發動機,這事到底誰在“打臉”

      小怪吃美食
      2026-02-24 20:57:37
      《鏢人》海外口碑爆了,評分接近滿分,全球票房將破紀錄

      《鏢人》海外口碑爆了,評分接近滿分,全球票房將破紀錄

      影視高原說
      2026-02-22 09:52:32
      發現奇怪的現象:你呵斥了孩子,孩子敢回嘴,說明這個家庭還有救

      發現奇怪的現象:你呵斥了孩子,孩子敢回嘴,說明這個家庭還有救

      明智家庭教育
      2026-02-03 13:04:26
      河南一15歲女孩離家出走失聯14天,河邊找到疑似她的拖鞋,家屬表示提供線索找到人給5萬,直接找到人給10萬,救援人員:還在搜尋

      河南一15歲女孩離家出走失聯14天,河邊找到疑似她的拖鞋,家屬表示提供線索找到人給5萬,直接找到人給10萬,救援人員:還在搜尋

      揚子晚報
      2026-02-24 17:29:07
      美國海關正式公告:對所有國家加征10%關稅!豁免清單公布

      美國海關正式公告:對所有國家加征10%關稅!豁免清單公布

      貿易夜航
      2026-02-24 15:14:55
      縣城,已經毫無隱私

      縣城,已經毫無隱私

      視覺志
      2026-02-24 18:59:01
      平頂山事件最新進展,受害者態度強硬,多少錢都不諒解

      平頂山事件最新進展,受害者態度強硬,多少錢都不諒解

      吃貨的分享
      2026-02-24 09:54:04
      2026-02-25 00:55:00
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動數字化創新
      16259文章數 49691關注度
      往期回顧 全部

      科技要聞

      宇樹科技發布四足機器人Unitree As2

      頭條要聞

      男子摟住繼女強吻動作親密 當地婦聯介入

      頭條要聞

      男子摟住繼女強吻動作親密 當地婦聯介入

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      汪小菲官宣三胎出生:承諾會照顧好3個孩子

      財經要聞

      縣城消費「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達AIR版上市 13.78萬元起

      態度原創

      本地
      健康
      家居
      旅游
      軍事航空

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      轉頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      本真棲居 愛暖伴流年

      旅游要聞

      張家界玻璃棧道對身高有限制嗎?別再被誤導,張家界玻璃棧道身高規定,真實情況和你想的不一樣!

      軍事要聞

      美軍參聯會主席警告:對伊朗動武可能帶來重大風險

      無障礙瀏覽 進入關懷版