奧特曼因為陪孩子,缺席的GPT4.5發(fā)布會,其實還是有看點的。
?
理解其在OpenAI家族中的定位,不是推理模型,不是O系列的,所以圖1 中,4.5整體各領(lǐng)域分數(shù)比4o都強,但是GPQA(科學(xué))、AIME24(數(shù)學(xué))等都不及O3。
4.5最大性能提升是『高情商』,這點根據(jù)圖2比較好理解,以前都大模型是F型人格,安慰人『你怎么樣?』,現(xiàn)在T型人格,會直接問:『你怎么辦?』。 ?
還有重要提升,從圖3可以理解,GPT模型做自畫像,圖像生成能力從文字跨越到SVG矢量圖形,經(jīng)歷了從抽象到逼真的演變。 ?
從圖4看,Scaling law確實要撞墻了,用了超多算力,做了一個巨大的模型,但是基準(zhǔn)測試比4o能力只提升了5%,還比DeePSeek V3輸入輸出Token貴了272倍,這還有什么競爭力! ?
而從圖5看,對于編碼能力來說,昨天發(fā)布的Claude 3.7還是最強王者,對于程序員行業(yè)有重大影響!4.5在這方面沒什么可期待。 ?
總之來看,這是個過渡模型,為GPT5做準(zhǔn)備,預(yù)訓(xùn)練側(cè)的大模型提升確實有限了,能力增長還得看推理側(cè)。
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.