上周還在罵Grok"聽不懂人話"的開發(fā)者,這周突然發(fā)現(xiàn)同一串提示詞居然能跑了。沒人收到通知,但API返回的結(jié)果確實(shí)變了——有人用代碼檢測(cè)工具比對(duì),發(fā)現(xiàn)模型權(quán)重在72小時(shí)內(nèi)被熱更新過兩次。
這種"靜默迭代"在AI圈不算新鮮事,OpenAI也干過。但xAI的特別之處在于連版本號(hào)都懶得改,開發(fā)者只能靠輸出結(jié)果的隨機(jī)性來猜:今天抽風(fēng),明天可能就好了。一位在Reddit吐槽的用戶被官方賬號(hào)親自回復(fù):「Grok is constantly being updated, so there is a good chance that what didn't work for you even a few days ago might work now」——翻譯成人話就是:你罵早了,再試試。
這種策略的副作用很明顯。有團(tuán)隊(duì)上周剛把Grok接進(jìn)客服系統(tǒng),這周回答風(fēng)格突變,用戶以為換了個(gè)人工。更麻煩的是調(diào)試:昨天能復(fù)現(xiàn)的bug今天消失了,工程師連日志都不知道該抓哪份。一位產(chǎn)品經(jīng)理在Hacker News抱怨,他們現(xiàn)在給Grok的提示詞必須加時(shí)間戳,"就像跟金魚談戀愛,每次都得重新自我介紹"。
馬斯克此前放話要讓Grok"每周都有大更新",現(xiàn)在看來是把敏捷開發(fā)玩到了極致。沒有發(fā)布會(huì),沒有changelog,連API文檔里的示例代碼都滯后于實(shí)際模型。有開發(fā)者調(diào)侃,xAI的更新頻率和馬斯克的推文密度成正比——后者凌晨三點(diǎn)發(fā)個(gè)表情包,前者四點(diǎn)就可能上線新特性。
目前xAI仍未回應(yīng)是否會(huì)引入版本鎖定機(jī)制。一位連續(xù)追蹤了14天模型輸出的研究員發(fā)現(xiàn),Grok在數(shù)學(xué)推理上的準(zhǔn)確率波動(dòng)幅度高達(dá)23%,"比加密貨幣還難預(yù)測(cè)"。他最后把測(cè)試腳本改成了每小時(shí)跑一遍,"至少能知道自己活在哪個(gè)版本的時(shí)間線上"。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.