![]()
“120萬億Token背后,是每一個普通人的AI時刻。
武漢光谷希爾頓酒店的大屏幕上,火山引擎總裁譚待的“數(shù)字分身”正在侃侃而談。而整個短片,從劇本到畫面,全部由豆包視頻模型Seedance 2.0生成。
“我要做的,僅僅是輸入自己的想法和創(chuàng)意。”譚待站在臺上說。
更讓人會心一笑的是,他養(yǎng)了一只“龍蝦”——一個名叫“tdclaw”的AI智能體,如今已成為他工作中不可或缺的助手。
這場看似輕松的開場,實則暗藏了火山引擎想要傳遞的兩個信號:
第一,AI視頻創(chuàng)作,正式進入產(chǎn)業(yè)化時代。當Seedance 2.0能夠生成電影級畫質(zhì)、理解物理規(guī)律的視頻時,內(nèi)容生產(chǎn)的成本曲線正在斷崖式下降。
第二,AI智能體,正在從“聊天”走向“干活”。當“龍蝦”們可以操作瀏覽器、處理文件、定時執(zhí)行任務時,它們不再只是玩具,而是生產(chǎn)力工具。
而這一切的底層,是一個令人瞠目的數(shù)字。
截至2026年3月,豆包大模型日均Token使用量已突破120萬億。三個月前,這個數(shù)字是63萬億;兩年前剛發(fā)布時,則是現(xiàn)在的千分之一。
120萬億Token。這相當于什么?如果按每Token1.5個漢字計算,這相當于全球每個人每天用豆包“寫”一篇上萬字的長文。
Token,正在成為AI時代的“工業(yè)用電量”。而火山引擎這場武漢巡展,正是要告訴市場:電表在狂轉(zhuǎn),但電用在了哪里?用出了什么價值?
Seedance 2.0
讓視頻生成跨越“恐怖谷”
過去兩年,視頻生成領域一直面臨一個尷尬局面——生成的畫面確實“好看”,但經(jīng)不起細看。
打斗場景中,拳頭穿過了對方的臉;流體飛濺時,水花像塑料片一樣僵硬;人物轉(zhuǎn)身時,身體比例突然失調(diào)。這是AI對物理世界的理解不夠深入——它學會了“像素排列”,但沒有學會“物體應該怎么運動”。
張?zhí)靹拢鹕揭娲竽P徒鉀Q方案負責人,用了一個詞來形容這種變化:“拳拳到肉”。
在演示視頻中,Seedance 2.0生成的動漫打斗場景,肢體碰撞時的反彈、力量的傳遞,都表現(xiàn)得非常自然。“模型在處理肢體對抗時的碰撞和反彈,表現(xiàn)非常合理,真正實現(xiàn)了拳拳到肉,力量感十足。”張?zhí)靹抡f。
這背后的技術突破,是Seedance 2.0對物理世界的深度理解。在訓練過程中,將大量的世界知識灌注給了模型。創(chuàng)作者不需要對生成細節(jié)做細致描述,模型會自動“腦補”出符合物理規(guī)律的效果。
另一個突破是多模態(tài)參考能力。
傳統(tǒng)視頻生成,靠的是“文生視頻”——用戶輸入一段提示詞,模型輸出一段視頻。但人類的創(chuàng)意往往是多維度的:一張參考圖、一段參考視頻、一段背景音樂……語言很難窮盡所有細節(jié)。
Seedance 2.0的做法是:讓模型能看懂圖片、理解視頻、感知環(huán)境、記住音色。創(chuàng)作者只需上傳幾張簡單的圖像、一些過去的視頻演繹和相應的背景音樂,模型就能在理解這些素材的基礎上,按照人類的創(chuàng)意進行創(chuàng)作。
“好的創(chuàng)作從來不是一蹴而就的。”張?zhí)靹抡f。Seedance 2.0還支持基于視頻素材的參考進行精準定向修改——改變主體、變換環(huán)境、增減關鍵形象。這意味著創(chuàng)作者不再需要在無數(shù)次“抽卡”中碰運氣,而是可以在模型提供的創(chuàng)意基礎上進行精細化調(diào)整。
算一筆經(jīng)濟賬:成本砍半,效率翻十倍
技術再炫酷,最終要回到商業(yè)價值。而Seedance 2.0給出的商業(yè)故事,足夠有說服力。
福建奇想,一家從事漫劇制作的公司,是Seedance 2.0的首批邀測企業(yè)客戶。
過去,制作一部高水準的精品漫劇,每分鐘成本超過1萬元。現(xiàn)在,通過Seedance 2.0,每分鐘成本降低4000到5000元。
成本砍半。這還不是全部。
過去,制作這樣一部劇需要20多人天的人力投入。現(xiàn)在,只需要3人天。
綜合測算下來,效率提升了近10倍。
更值得關注的是,Seedance 2.0正在進入最苛刻的商業(yè)場景。
2026年除夕夜,總臺春晚的熒幕上,《賀花神》里絕美的國風畫面,《馭風歌》里極具張力的八駿圖視覺AI特效,都是通過Seedance 2.0生成的。
“春晚作為全球華人最重要的舞臺,對審美、畫質(zhì)、穩(wěn)定性都有極致要求。”譚待說。能通過春晚的檢驗,意味著Seedance 2.0已經(jīng)具備了工業(yè)級的可靠性。
安全:視頻生成的“通行證”
一個容易被忽視但極其重要的細節(jié)是:Seedance 2.0的API,直到今天才開放公測。
為什么?
“版權保護是一個動態(tài)的過程。”譚待在群訪中解釋,“我們一直非常重視。Seedance 2.0 API現(xiàn)在才對外公測,就是因為我們要先搭建好完善的版權保護系統(tǒng)。”
視頻生成面臨的版權和深度偽造風險,遠比文本生成復雜。
一個角色,不僅要保護它當下的樣子,還要保護它十年前、年輕時的樣子,以及穿古裝、現(xiàn)代裝的樣子,還有素描版、漫畫版……傳統(tǒng)的水印或指紋技術,無法應對這種多模態(tài)、跨風格的識別需求。
火山引擎的做法是:基于豆包強大的視覺理解能力,打造了一套全新的版權IP保護機制。
安全不是錦上添花,而是視頻生成進入商業(yè)世界的通行證。Seedance 2.0的公測,意味著這張通行證已經(jīng)拿到手了。
全民都在“養(yǎng)龍蝦”
火山引擎的“龍蝦”有什么不同?
在火山引擎的語境里,“龍蝦”指的是基于OpenClaw框架構建的AI智能體服務ArkClaw。
OpenClaw是近期AI領域最火熱的技術框架之一。它做的事情,簡單來說就是——讓AI不再只是“聊天”,而是可以“干活”。
通過OpenClaw,AI可以連接工具、調(diào)用系統(tǒng)、執(zhí)行流程。你給它一個任務——“幫我去B站、知乎、微博看看今天大家都在討論什么熱點,總結一下”——它真的會打開瀏覽器、訪問網(wǎng)頁、抓取信息、整理成報告。
在OpenClaw之前,AI是“會說”;在OpenClaw之后,AI開始“能做”。
而火山引擎的ArkClaw,可以理解為OpenClaw的“企業(yè)級增強版”——更安全、更易用、更穩(wěn)定。
但“養(yǎng)蝦”并不總是愉快的體驗。
田濤濤,火山引擎云基礎產(chǎn)品負責人,在演講中分享了一組調(diào)研數(shù)據(jù):超過30%的用戶表示,養(yǎng)龍蝦,無法達到期望。
他總結了用戶“養(yǎng)蝦”的四大痛點,每一個都很扎心:
·不敢用:AI如果誤判,可能直接修改系統(tǒng)密碼、刪除數(shù)據(jù)。沒有安全隔離,誰敢把關鍵任務交給它?
·用不起:開箱能力弱,需要大量手動配置。只有技術背景強的人才能真正用起來。
·用不好:AI會調(diào)用工具,但無法完成任務。缺少編排、記憶和上下文銜接,需要不斷人工介入。
·修不好:出錯了不知道原因,報錯信息不友好,非技術用戶完全無法定位問題。
這四大痛點,恰恰是所有AI Agent產(chǎn)品從“極客玩具”走向“大眾工具”必須跨越的門檻。而ArkClaw的升級,正是要解決這些問題。
火山的解藥:安全、記憶、技能
解藥一:安全,讓用戶“敢用”
ArkClaw從底層就基于云端虛擬化和沙箱機制。所有執(zhí)行都在完全隔離的環(huán)境中,不會影響本地系統(tǒng)。
一個直觀的例子:如果你給一個普通的OpenClaw下達指令“把系統(tǒng)密碼改成111”,它會立刻執(zhí)行,甚至可能把你的系統(tǒng)鎖死。但在ArkClaw中,高危操作會被自動攔截,或要求人工二次確認。
火山引擎最近正式通過了信通院兩項權威安全測評——可信能力認證,和安全防護產(chǎn)品有效性認證。
譚待在群訪中特別強調(diào)了安全的重要性:“每次Force大會,我第一個講的產(chǎn)品就是安全。其他云廠商基本不會這樣。因為AI能力越強,安全的重要性就越高。”
解藥二:記憶,讓用戶“用得好”
“養(yǎng)蝦”的一大痛點是:龍蝦“健忘”。
你今天告訴它的偏好,過兩天它就忘了。你糾正過的錯誤,它下次還會再犯。你布置的任務,執(zhí)行到一半就“斷片”了。
為了解決這個問題,火山引擎開源了OpenViking——一個專門為Agent長期記憶設計的上下文數(shù)據(jù)庫。
OpenViking的核心設計理念是“漸進式加載”。它會將信息按照“摘要—概要—細節(jié)”的層級整理成文件系統(tǒng),執(zhí)行任務時只加載最必要的信息。
這樣做有兩個好處:
第一,成本大幅降低。數(shù)據(jù)顯示,使用OpenViking后,任務完成率提升43%,輸入成本降低91%。
第二,Agent越用越聰明。OpenViking會將Agent的決策過程存儲下來,實現(xiàn)“決策白盒化”。用戶糾正過的錯誤會被沉淀為經(jīng)驗,下次同類任務時Agent會自動規(guī)避。
“上一個時代的軟件都是要裝一套軟件,但這個時代我們常常講要養(yǎng)一只龍蝦。”張?zhí)靹抡f,“只要解決好長期記憶的問題,龍蝦的能力是可以被不斷培養(yǎng)、調(diào)教和進化的。”
解藥三:技能,讓用戶“用得起”
Skills是Agent的“手和腳”——它決定了Agent能做什么事。
火山引擎做了一件很聰明的事——與OpenClaw官方合作,共建ClawHub中國鏡像站。
此前,中國開發(fā)者訪問OpenClaw的全球社區(qū),延遲高、穩(wěn)定性差。現(xiàn)在,通過中國鏡像站,開發(fā)者可以免登錄訪問、搜索、下載超過2萬個Skills,并且這些Skills都經(jīng)過了火山引擎的安全篩選。
![]()
“我們認為一個繁榮的智能體生態(tài),不能閉門造車,一定要擁抱全球開發(fā)者的智慧。”譚待說。
火山引擎的“龍蝦”方法論
以及Token價值觀
在群訪環(huán)節(jié),譚待被問到一個很有深度的問題:OpenClaw帶來的變化是巨大的,但很多企業(yè)在過去已經(jīng)投入了不少資源搭建workflow。這些過去的投資,是否都要推倒重來?
這是所有企業(yè)決策者面對AI浪潮時的真實困惑。
譚待給出的答案是——“敏態(tài)Agent”與“穩(wěn)態(tài)Agent”的雙路徑模型。
![]()
所謂敏態(tài)Agent,強調(diào)的是探索,重點是解決個人生產(chǎn)力問題。
“比如如何成為一個更好的招聘HR?如何成為市場分析的高手?這些其實都在員工的腦子里沉淀著。”譚待說,“而OpenClaw這類產(chǎn)品就可以幫助員工把這些想法快速實驗出來。”
在火山引擎的產(chǎn)品體系中,ArkClaw就是敏態(tài)Agent的代表。
任何一個員工,都可以通過ArkClaw進行廣泛的AI嘗試和創(chuàng)新。不需要IT部門的審批,不需要復雜的基礎設施配置。這種低門檻,讓AI的探索權回到了最懂業(yè)務的一線員工手中。
另一方面,當某個AI實踐被驗證有效后,企業(yè)需要做的事情是:把它固化下來,流程化、規(guī)模化、管理好成本和風險。
這就是穩(wěn)態(tài)Agent的定位。
“比如合同交易、流程生產(chǎn)等,就需要把Agent做好流程化,降低幻覺,做好規(guī)模化服務。”譚待說。
在火山引擎的產(chǎn)品體系中,HiAgent為穩(wěn)態(tài)Agent提供開發(fā)、運營和管理的一站式服務。
譚待認為,敏態(tài)Agent和穩(wěn)態(tài)Agent不是替代關系,而是共生互補的關系。
一線員工通過ArkClaw的創(chuàng)新,可以沉淀、固化成HiAgent中的組織能力;同時,HiAgent再通過Skill、API、插件等形式,把這些標準化的能力重新輸送給所有一線員工,進一步反哺個體進化。
這是一個“創(chuàng)新—沉淀—輸出—再創(chuàng)新”的循環(huán)。
這個框架的價值在于,它同時回應了兩種焦慮。
對員工而言,不用擔心自己的創(chuàng)新會被“標準化”取代——恰恰相反,你的創(chuàng)新會被放大、被復用,創(chuàng)造更大價值。
對企業(yè)而言,不用擔心AI投資會打水漂——敏態(tài)階段的探索成本是可控的,而穩(wěn)態(tài)階段的固化收益是可預期的。
Token觀重塑:不看單價,看整體成本
在這個框架下,譚待提出了一個關于Token成本的犀利觀點。
“很多用戶反饋用量消耗快,核心問題是龍蝦完成任務時有很多無效嘗試。”他說,“它沒有限制,能嘗試各種方法最終成功,會帶來驚艷的解法,但缺點是有大量無效溝通。”
目前探索中的Tokens,有一大半都是無謂的探索。
但這是必經(jīng)之路。敏態(tài)階段允許一定程度的“浪費”,因為探索的本質(zhì)就是試錯。而當方法被驗證、進入穩(wěn)態(tài)階段后,企業(yè)就可以通過優(yōu)化路徑、選擇不同尺寸和能力的模型,大幅降低成本。
“企業(yè)真正關注的是端到端完成事情的整體成本,而非單Token成本。”譚待強調(diào),“若單Token成本低,但用較差的模型需要消耗10倍甚至20倍Token還做不出結果,只會造成浪費。”
這個觀點,直擊當前大模型價格戰(zhàn)的核心盲點。
AI馬拉松
我們剛跑完“一公里”
人類文明史上,有過幾次關于“度量”的根本性轉(zhuǎn)變。
工業(yè)革命時期,人們開始用“千瓦時”衡量一個國家的實力。發(fā)電量、鋼鐵產(chǎn)量、鐵路里程——這些冰冷的數(shù)字背后,是蒸汽機的轟鳴、流水線的轉(zhuǎn)動、城市的燈火通明。彼時,誰消耗更多的電力,誰就掌握了現(xiàn)代文明的鑰匙。
信息革命時期,度量衡變成了“帶寬”和“算力”。兆比特每秒、萬億次浮點運算,這些詞匯定義了互聯(lián)網(wǎng)時代的權力版圖。硅谷的崛起,本質(zhì)上是一場關于數(shù)據(jù)處理能力的競賽。
而今天,一個新的度量單位正在浮出水面——Token。
它不是電,不是比特,而是人類知識與機器智能之間最小的“意義單元”。每一次Token的消耗,都是一次人與機器的對話、一次創(chuàng)意的生成、一次任務的執(zhí)行。120萬億Token/日,這個數(shù)字的意義,不亞于百年前一座大型電廠的發(fā)電量。
譚待說,AI馬拉松剛跑完“一公里”。
這既是一種清醒,也是一種宏大敘事中的從容。回看歷史,電力從發(fā)明到真正重塑社會結構,用了近半個世紀;互聯(lián)網(wǎng)從軍用協(xié)議變成全民基礎設施,也用了二十年。AI從2022年的ChatGPT爆發(fā)到今天,不過短短四年。120萬億Token,只是序章的序章。
當“養(yǎng)龍蝦”成為白領的工作日常,當視頻創(chuàng)作的成本趨近于零,當每個企業(yè)都有了自己的Token看板——我們正在見證的,不僅僅是技術的迭代,更是生產(chǎn)力底層邏輯的重構。
Token的背后,是模型,是算力,是數(shù)據(jù),更是無數(shù)個被釋放的人類創(chuàng)意。
回望歷史,每一次度量衡的更替,都預示著一個新時代的開啟。
從蒸汽機的馬力,到電力的千瓦時,再到AI的Token——文明的進步,本質(zhì)上是一場又一場“能量”形態(tài)的升維。而今天,我們正站在Token成為新通用度量的起點上。
至于這個時代將通向何方?沒有人能給出最終答案。
但有一點可以確定:那些學會用Token丈量進步、用Agent擴展版圖的企業(yè)與個人,將在下一個十年,擁有定義規(guī)則的權力。
至于未來會走向何方,就讓我們懷著期待與忐忑的心情,拭目以待吧。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.