“親愛的數(shù)據(jù)”觀察到,
模型之間已經(jīng)出現(xiàn)“架構哲學差異”。
證據(jù)包括,token usage情況差距極大,
成本差距極大。
簡單說,
Input Cost
是讀題理解費,
比如,用戶 prompt,系統(tǒng)提示詞,上下文歷史,工具返回內(nèi)容。
Reasoning Cost
是推理思考費,不是“模型腦子內(nèi)部真正想了多少”,
而是,被計費的reasoning token數(shù)量。
有些公司把“reasoning token”單獨定價,
而且更貴。
為什么?它是把高級思考能力單獨當作商品來賣。
也就是說,某些模型定價邏輯變成多思考,多付錢。
思考本身成為盈利點。
Output Cost
是生成結果費,最終輸出的計費成本。
也就是說,看上去,token成本結構,
會變成比Benchmark分數(shù)更重要的指標。
光比Benchmark分數(shù)衡量方法太單一了,
刷分玩法該落幕了。
而且,這兩張圖真正的深層洞察不是“誰貴誰便宜?
Claude 4.6是單個token推理成本極高的模型,
Google推理成本碾壓 Anthropic嗎?
未必,
如果Claude 得分更高,
那貴未必不合理。
只能說,
Gemini 在相似token使用量下,
成本結構更激進(更便宜)。
Claude可能在用這樣一種策略:
把高階推理當premium產(chǎn)品賣。
核心觀察:
早期模型差距是:誰參數(shù)大,誰數(shù)據(jù)多,
而當下,模型之間已經(jīng)不是簡單大小差異,
誰靠推理展開贏,
誰靠推理壓縮贏,
誰靠算力堆贏。
當下看來,算是一種計算哲學的分化。
更進一步,這背后可能對應訓練策略差異化。
觀察細節(jié)一:
有的模型打法是為了拿高分“靠堆推理 token”。
也就是說:推理寫得特別長,
思考鏈極度展開,
算是“用過程算力換效果”的策略。
觀察細節(jié)二:
有的模型打法不是靠爆量token,
而是,用相對可控的推理長度,達到不錯表現(xiàn)。
這類模型更傾向“商業(yè)化部署”的思路。
觀察細節(jié)三:
有模型是在極低輸出token下跑完整個Index。
這通常是說,推理更壓縮,
不寫長思考鏈(CoT),
或內(nèi)部推理但不外顯;
這是另一種技術路線:
不堆 token,而是提高單 token 信息密度。
觀察細節(jié)四:
適用于Agent模型有哪些特點?
Token中等(夠想)、成本低廉(夠跑)、
性能及格但不差(夠對)、輸出成本低(夠動)
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.