網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話譚待：AI馬拉松跑完一公里，終點在哪？

2026-04-03 21:50:22　來源: 數(shù)據(jù)猿DataYuan

內(nèi)蒙古舉報

分享至

“120萬億Token背后，是每一個普通人的AI時刻。

武漢光谷希爾頓酒店的大屏幕上，火山引擎總裁譚待的“數(shù)字分身”正在侃侃而談。而整個短片，從劇本到畫面，全部由豆包視頻模型Seedance 2.0生成。

“我要做的，僅僅是輸入自己的想法和創(chuàng)意。”譚待站在臺上說。

更讓人會心一笑的是，他養(yǎng)了一只“龍蝦”——一個名叫“tdclaw”的AI智能體，如今已成為他工作中不可或缺的助手。

這場看似輕松的開場，實則暗藏了火山引擎想要傳遞的兩個信號：

第一，AI視頻創(chuàng)作，正式進入產(chǎn)業(yè)化時代。當Seedance 2.0能夠生成電影級畫質(zhì)、理解物理規(guī)律的視頻時，內(nèi)容生產(chǎn)的成本曲線正在斷崖式下降。

第二，AI智能體，正在從“聊天”走向“干活”。當“龍蝦”們可以操作瀏覽器、處理文件、定時執(zhí)行任務時，它們不再只是玩具，而是生產(chǎn)力工具。

而這一切的底層，是一個令人瞠目的數(shù)字。

截至2026年3月，豆包大模型日均Token使用量已突破120萬億。三個月前，這個數(shù)字是63萬億；兩年前剛發(fā)布時，則是現(xiàn)在的千分之一。

120萬億Token。這相當于什么？如果按每Token1.5個漢字計算，這相當于全球每個人每天用豆包“寫”一篇上萬字的長文。

Token，正在成為AI時代的“工業(yè)用電量”。而火山引擎這場武漢巡展，正是要告訴市場：電表在狂轉(zhuǎn)，但電用在了哪里？用出了什么價值？

Seedance 2.0

讓視頻生成跨越“恐怖谷”

過去兩年，視頻生成領域一直面臨一個尷尬局面——生成的畫面確實“好看”，但經(jīng)不起細看。

打斗場景中，拳頭穿過了對方的臉；流體飛濺時，水花像塑料片一樣僵硬；人物轉(zhuǎn)身時，身體比例突然失調(diào)。這是AI對物理世界的理解不夠深入——它學會了“像素排列”，但沒有學會“物體應該怎么運動”。

張?zhí)靹拢鹕揭娲竽Ｐ徒鉀Q方案負責人，用了一個詞來形容這種變化：“拳拳到肉”。

在演示視頻中，Seedance 2.0生成的動漫打斗場景，肢體碰撞時的反彈、力量的傳遞，都表現(xiàn)得非常自然。“模型在處理肢體對抗時的碰撞和反彈，表現(xiàn)非常合理，真正實現(xiàn)了拳拳到肉，力量感十足。”張?zhí)靹抡f。

這背后的技術突破，是Seedance 2.0對物理世界的深度理解。在訓練過程中，將大量的世界知識灌注給了模型。創(chuàng)作者不需要對生成細節(jié)做細致描述，模型會自動“腦補”出符合物理規(guī)律的效果。

另一個突破是多模態(tài)參考能力。

傳統(tǒng)視頻生成，靠的是“文生視頻”——用戶輸入一段提示詞，模型輸出一段視頻。但人類的創(chuàng)意往往是多維度的：一張參考圖、一段參考視頻、一段背景音樂……語言很難窮盡所有細節(jié)。

Seedance 2.0的做法是：讓模型能看懂圖片、理解視頻、感知環(huán)境、記住音色。創(chuàng)作者只需上傳幾張簡單的圖像、一些過去的視頻演繹和相應的背景音樂，模型就能在理解這些素材的基礎上，按照人類的創(chuàng)意進行創(chuàng)作。

“好的創(chuàng)作從來不是一蹴而就的。”張?zhí)靹抡f。Seedance 2.0還支持基于視頻素材的參考進行精準定向修改——改變主體、變換環(huán)境、增減關鍵形象。這意味著創(chuàng)作者不再需要在無數(shù)次“抽卡”中碰運氣，而是可以在模型提供的創(chuàng)意基礎上進行精細化調(diào)整。

算一筆經(jīng)濟賬：成本砍半，效率翻十倍

技術再炫酷，最終要回到商業(yè)價值。而Seedance 2.0給出的商業(yè)故事，足夠有說服力。

福建奇想，一家從事漫劇制作的公司，是Seedance 2.0的首批邀測企業(yè)客戶。

過去，制作一部高水準的精品漫劇，每分鐘成本超過1萬元。現(xiàn)在，通過Seedance 2.0，每分鐘成本降低4000到5000元。

成本砍半。這還不是全部。

過去，制作這樣一部劇需要20多人天的人力投入。現(xiàn)在，只需要3人天。

綜合測算下來，效率提升了近10倍。

更值得關注的是，Seedance 2.0正在進入最苛刻的商業(yè)場景。

2026年除夕夜，總臺春晚的熒幕上，《賀花神》里絕美的國風畫面，《馭風歌》里極具張力的八駿圖視覺AI特效，都是通過Seedance 2.0生成的。

“春晚作為全球華人最重要的舞臺，對審美、畫質(zhì)、穩(wěn)定性都有極致要求。”譚待說。能通過春晚的檢驗，意味著Seedance 2.0已經(jīng)具備了工業(yè)級的可靠性。

安全：視頻生成的“通行證”

一個容易被忽視但極其重要的細節(jié)是：Seedance 2.0的API，直到今天才開放公測。

為什么？

“版權保護是一個動態(tài)的過程。”譚待在群訪中解釋，“我們一直非常重視。Seedance 2.0 API現(xiàn)在才對外公測，就是因為我們要先搭建好完善的版權保護系統(tǒng)。”

視頻生成面臨的版權和深度偽造風險，遠比文本生成復雜。

一個角色，不僅要保護它當下的樣子，還要保護它十年前、年輕時的樣子，以及穿古裝、現(xiàn)代裝的樣子，還有素描版、漫畫版……傳統(tǒng)的水印或指紋技術，無法應對這種多模態(tài)、跨風格的識別需求。

火山引擎的做法是：基于豆包強大的視覺理解能力，打造了一套全新的版權IP保護機制。

安全不是錦上添花，而是視頻生成進入商業(yè)世界的通行證。Seedance 2.0的公測，意味著這張通行證已經(jīng)拿到手了。

全民都在“養(yǎng)龍蝦”

火山引擎的“龍蝦”有什么不同？

在火山引擎的語境里，“龍蝦”指的是基于OpenClaw框架構建的AI智能體服務ArkClaw。

OpenClaw是近期AI領域最火熱的技術框架之一。它做的事情，簡單來說就是——讓AI不再只是“聊天”，而是可以“干活”。

通過OpenClaw，AI可以連接工具、調(diào)用系統(tǒng)、執(zhí)行流程。你給它一個任務——“幫我去B站、知乎、微博看看今天大家都在討論什么熱點，總結一下”——它真的會打開瀏覽器、訪問網(wǎng)頁、抓取信息、整理成報告。

在OpenClaw之前，AI是“會說”；在OpenClaw之后，AI開始“能做”。

而火山引擎的ArkClaw，可以理解為OpenClaw的“企業(yè)級增強版”——更安全、更易用、更穩(wěn)定。

但“養(yǎng)蝦”并不總是愉快的體驗。

田濤濤，火山引擎云基礎產(chǎn)品負責人，在演講中分享了一組調(diào)研數(shù)據(jù)：超過30%的用戶表示，養(yǎng)龍蝦，無法達到期望。

他總結了用戶“養(yǎng)蝦”的四大痛點，每一個都很扎心：

·不敢用：AI如果誤判，可能直接修改系統(tǒng)密碼、刪除數(shù)據(jù)。沒有安全隔離，誰敢把關鍵任務交給它？

·用不起：開箱能力弱，需要大量手動配置。只有技術背景強的人才能真正用起來。

·用不好：AI會調(diào)用工具，但無法完成任務。缺少編排、記憶和上下文銜接，需要不斷人工介入。

·修不好：出錯了不知道原因，報錯信息不友好，非技術用戶完全無法定位問題。

這四大痛點，恰恰是所有AI Agent產(chǎn)品從“極客玩具”走向“大眾工具”必須跨越的門檻。而ArkClaw的升級，正是要解決這些問題。

火山的解藥：安全、記憶、技能

解藥一：安全，讓用戶“敢用”

ArkClaw從底層就基于云端虛擬化和沙箱機制。所有執(zhí)行都在完全隔離的環(huán)境中，不會影響本地系統(tǒng)。

一個直觀的例子：如果你給一個普通的OpenClaw下達指令“把系統(tǒng)密碼改成111”，它會立刻執(zhí)行，甚至可能把你的系統(tǒng)鎖死。但在ArkClaw中，高危操作會被自動攔截，或要求人工二次確認。

火山引擎最近正式通過了信通院兩項權威安全測評——可信能力認證，和安全防護產(chǎn)品有效性認證。

譚待在群訪中特別強調(diào)了安全的重要性：“每次Force大會，我第一個講的產(chǎn)品就是安全。其他云廠商基本不會這樣。因為AI能力越強，安全的重要性就越高。”

解藥二：記憶，讓用戶“用得好”

“養(yǎng)蝦”的一大痛點是：龍蝦“健忘”。

你今天告訴它的偏好，過兩天它就忘了。你糾正過的錯誤，它下次還會再犯。你布置的任務，執(zhí)行到一半就“斷片”了。

為了解決這個問題，火山引擎開源了OpenViking——一個專門為Agent長期記憶設計的上下文數(shù)據(jù)庫。

OpenViking的核心設計理念是“漸進式加載”。它會將信息按照“摘要—概要—細節(jié)”的層級整理成文件系統(tǒng)，執(zhí)行任務時只加載最必要的信息。

這樣做有兩個好處：

第一，成本大幅降低。數(shù)據(jù)顯示，使用OpenViking后，任務完成率提升43%，輸入成本降低91%。

第二，Agent越用越聰明。OpenViking會將Agent的決策過程存儲下來，實現(xiàn)“決策白盒化”。用戶糾正過的錯誤會被沉淀為經(jīng)驗，下次同類任務時Agent會自動規(guī)避。

“上一個時代的軟件都是要裝一套軟件，但這個時代我們常常講要養(yǎng)一只龍蝦。”張?zhí)靹抡f，“只要解決好長期記憶的問題，龍蝦的能力是可以被不斷培養(yǎng)、調(diào)教和進化的。”

解藥三：技能，讓用戶“用得起”

Skills是Agent的“手和腳”——它決定了Agent能做什么事。

火山引擎做了一件很聰明的事——與OpenClaw官方合作，共建ClawHub中國鏡像站。

此前，中國開發(fā)者訪問OpenClaw的全球社區(qū)，延遲高、穩(wěn)定性差。現(xiàn)在，通過中國鏡像站，開發(fā)者可以免登錄訪問、搜索、下載超過2萬個Skills，并且這些Skills都經(jīng)過了火山引擎的安全篩選。

“我們認為一個繁榮的智能體生態(tài)，不能閉門造車，一定要擁抱全球開發(fā)者的智慧。”譚待說。

火山引擎的“龍蝦”方法論

以及Token價值觀

在群訪環(huán)節(jié)，譚待被問到一個很有深度的問題：OpenClaw帶來的變化是巨大的，但很多企業(yè)在過去已經(jīng)投入了不少資源搭建workflow。這些過去的投資，是否都要推倒重來？

這是所有企業(yè)決策者面對AI浪潮時的真實困惑。

譚待給出的答案是——“敏態(tài)Agent”與“穩(wěn)態(tài)Agent”的雙路徑模型。

所謂敏態(tài)Agent，強調(diào)的是探索，重點是解決個人生產(chǎn)力問題。

“比如如何成為一個更好的招聘HR？如何成為市場分析的高手？這些其實都在員工的腦子里沉淀著。”譚待說，“而OpenClaw這類產(chǎn)品就可以幫助員工把這些想法快速實驗出來。”

在火山引擎的產(chǎn)品體系中，ArkClaw就是敏態(tài)Agent的代表。

任何一個員工，都可以通過ArkClaw進行廣泛的AI嘗試和創(chuàng)新。不需要IT部門的審批，不需要復雜的基礎設施配置。這種低門檻，讓AI的探索權回到了最懂業(yè)務的一線員工手中。

另一方面，當某個AI實踐被驗證有效后，企業(yè)需要做的事情是：把它固化下來，流程化、規(guī)模化、管理好成本和風險。

這就是穩(wěn)態(tài)Agent的定位。

“比如合同交易、流程生產(chǎn)等，就需要把Agent做好流程化，降低幻覺，做好規(guī)模化服務。”譚待說。

在火山引擎的產(chǎn)品體系中，HiAgent為穩(wěn)態(tài)Agent提供開發(fā)、運營和管理的一站式服務。

譚待認為，敏態(tài)Agent和穩(wěn)態(tài)Agent不是替代關系，而是共生互補的關系。

一線員工通過ArkClaw的創(chuàng)新，可以沉淀、固化成HiAgent中的組織能力；同時，HiAgent再通過Skill、API、插件等形式，把這些標準化的能力重新輸送給所有一線員工，進一步反哺個體進化。

這是一個“創(chuàng)新—沉淀—輸出—再創(chuàng)新”的循環(huán)。

這個框架的價值在于，它同時回應了兩種焦慮。

對員工而言，不用擔心自己的創(chuàng)新會被“標準化”取代——恰恰相反，你的創(chuàng)新會被放大、被復用，創(chuàng)造更大價值。

對企業(yè)而言，不用擔心AI投資會打水漂——敏態(tài)階段的探索成本是可控的，而穩(wěn)態(tài)階段的固化收益是可預期的。

Token觀重塑：不看單價，看整體成本

在這個框架下，譚待提出了一個關于Token成本的犀利觀點。

“很多用戶反饋用量消耗快，核心問題是龍蝦完成任務時有很多無效嘗試。”他說，“它沒有限制，能嘗試各種方法最終成功，會帶來驚艷的解法，但缺點是有大量無效溝通。”

目前探索中的Tokens，有一大半都是無謂的探索。

但這是必經(jīng)之路。敏態(tài)階段允許一定程度的“浪費”，因為探索的本質(zhì)就是試錯。而當方法被驗證、進入穩(wěn)態(tài)階段后，企業(yè)就可以通過優(yōu)化路徑、選擇不同尺寸和能力的模型，大幅降低成本。

“企業(yè)真正關注的是端到端完成事情的整體成本，而非單Token成本。”譚待強調(diào)，“若單Token成本低，但用較差的模型需要消耗10倍甚至20倍Token還做不出結果，只會造成浪費。”

這個觀點，直擊當前大模型價格戰(zhàn)的核心盲點。

AI馬拉松

我們剛跑完“一公里”

人類文明史上，有過幾次關于“度量”的根本性轉(zhuǎn)變。

工業(yè)革命時期，人們開始用“千瓦時”衡量一個國家的實力。發(fā)電量、鋼鐵產(chǎn)量、鐵路里程——這些冰冷的數(shù)字背后，是蒸汽機的轟鳴、流水線的轉(zhuǎn)動、城市的燈火通明。彼時，誰消耗更多的電力，誰就掌握了現(xiàn)代文明的鑰匙。

信息革命時期，度量衡變成了“帶寬”和“算力”。兆比特每秒、萬億次浮點運算，這些詞匯定義了互聯(lián)網(wǎng)時代的權力版圖。硅谷的崛起，本質(zhì)上是一場關于數(shù)據(jù)處理能力的競賽。

而今天，一個新的度量單位正在浮出水面——Token。

它不是電，不是比特，而是人類知識與機器智能之間最小的“意義單元”。每一次Token的消耗，都是一次人與機器的對話、一次創(chuàng)意的生成、一次任務的執(zhí)行。120萬億Token/日，這個數(shù)字的意義，不亞于百年前一座大型電廠的發(fā)電量。

譚待說，AI馬拉松剛跑完“一公里”。

這既是一種清醒，也是一種宏大敘事中的從容。回看歷史，電力從發(fā)明到真正重塑社會結構，用了近半個世紀；互聯(lián)網(wǎng)從軍用協(xié)議變成全民基礎設施，也用了二十年。AI從2022年的ChatGPT爆發(fā)到今天，不過短短四年。120萬億Token，只是序章的序章。

當“養(yǎng)龍蝦”成為白領的工作日常，當視頻創(chuàng)作的成本趨近于零，當每個企業(yè)都有了自己的Token看板——我們正在見證的，不僅僅是技術的迭代，更是生產(chǎn)力底層邏輯的重構。

Token的背后，是模型，是算力，是數(shù)據(jù)，更是無數(shù)個被釋放的人類創(chuàng)意。

回望歷史，每一次度量衡的更替，都預示著一個新時代的開啟。

從蒸汽機的馬力，到電力的千瓦時，再到AI的Token——文明的進步，本質(zhì)上是一場又一場“能量”形態(tài)的升維。而今天，我們正站在Token成為新通用度量的起點上。

至于這個時代將通向何方？沒有人能給出最終答案。

但有一點可以確定：那些學會用Token丈量進步、用Agent擴展版圖的企業(yè)與個人，將在下一個十年，擁有定義規(guī)則的權力。

至于未來會走向何方，就讓我們懷著期待與忐忑的心情，拭目以待吧。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.