文 kiki
繼上周預(yù)告了ChatGPT和GPT-4「就像魔法一樣」的重大更新后,OpenAI在北京時(shí)間14日凌晨,通過(guò)直播向外界展現(xiàn)了這家全球最矚目人工智能大模型企業(yè)的最新成果。
關(guān)于此次發(fā)布會(huì)的時(shí)間與內(nèi)容,在直播前就已掀起了一場(chǎng)「全民大預(yù)測(cè)」,足見(jiàn)OpenAI的影響力。距離去年11月6日的OpenAI DevDay已經(jīng)過(guò)去半年,盡管OpenAI開(kāi)年以來(lái)放出Sora等大招,圍繞ChatGPT功能和模型商業(yè)模式,如API調(diào)用等方面都進(jìn)行了「漸進(jìn)式改革」,但業(yè)內(nèi)更希望看到OpenAI的系統(tǒng)化更新。
從本次發(fā)布會(huì)來(lái)看,OpenAI圍繞ChatGPT和GPT-4模型層更新的亮點(diǎn)如下:
1、模型:推出了全新旗艦GPT-4o模型(o是omni全能),在文本、視覺(jué)和音頻處理方面能力都有顯著增強(qiáng);
2、交互:在GPT-4o能力支持下,ChatGPT能實(shí)現(xiàn)語(yǔ)音聊天和實(shí)時(shí)視頻交互,類似一個(gè)更先進(jìn)的AI語(yǔ)音助手。同時(shí),OpenA宣布將推出桌面版ChatGPT。
3、價(jià)格:GPT-4o向所有人免費(fèi)開(kāi)放,對(duì)比GPT-4 Turbo,API定價(jià)減半,但速度是GPT-4 Turbo的2倍。
![]()
圖源:直播活動(dòng)截圖
值得一提的是,此次發(fā)布會(huì)創(chuàng)始人Sam Altman并沒(méi)有出現(xiàn),而時(shí)間恰好卡在谷歌I/O 2024大會(huì)的前一天,且此前已有爆料OpenAI正在開(kāi)發(fā)類搜索引擎產(chǎn)品,名為「SearchGPT」。 在最新的公開(kāi)采訪中,Altman提到對(duì)「打造比谷歌更好的搜索引擎沒(méi)興趣」。不管是如OpenAI一樣的明星初創(chuàng)公司,還是如谷歌一樣的巨頭,2024無(wú)疑都是它們的關(guān)鍵之年。
本文「硅基研究室」梳理了此次發(fā)布會(huì)OpenAI的主要升級(jí)方向和它的競(jìng)爭(zhēng)對(duì)手們的最新動(dòng)態(tài),試圖回答兩個(gè)主要問(wèn)題:
1、OpenAI此次發(fā)布會(huì)主要的亮點(diǎn)是什么?它們有何影響?
2、從最新格局來(lái)看,OpenAI還面臨哪些挑戰(zhàn)?
1、硬扛谷歌,OpenAI做了那些事?
OpenAI此次發(fā)布會(huì)的重頭戲無(wú)疑是最新的模型與暗示已久的AI語(yǔ)音助手。
在發(fā)布會(huì)前,除了媒體爆料外,OpenAI「音頻AGI研究負(fù)責(zé)人」Alexis Conneau就將自己的社交媒體主頁(yè)背景換成了電影《Her》,這部電影講述得正是一個(gè)有感情的AI語(yǔ)音助手的故事。
![]()
圖源:X
Altman本人對(duì)于語(yǔ)音交互也有自己的看法,在不久前的一次采訪中,他就提到:“我相信語(yǔ)音交互是通向未來(lái)交互方式的一個(gè)重要線索。如果能夠?qū)崿F(xiàn)真正優(yōu)質(zhì)的語(yǔ)音互動(dòng)體驗(yàn),那將是一種與計(jì)算機(jī)互動(dòng)的全新方式。”發(fā)布會(huì)結(jié)束,他在X上也發(fā)了一條:“Her”。
![]()
圖源:X
在直播活動(dòng)中,OpenAI演示了這款實(shí)時(shí)語(yǔ)音助手的能力,不僅可以響應(yīng)速度快,沒(méi)有尷尬的延遲,能聲情并茂地講故事和唱歌,還能模仿人的語(yǔ)氣,甚至具備情緒感知的能力。
這背后是對(duì)GPT-4o模型結(jié)構(gòu)的優(yōu)化。出行問(wèn)問(wèn)創(chuàng)始人、CEO李志飛表示,GPT-4o更像是一個(gè)萬(wàn)能的虛擬個(gè)人助理(VPA),但并不是一個(gè)新概念,OpenAI之所以把VPA推到新高度,只要是實(shí)現(xiàn)了模型的端到端、實(shí)時(shí)交互、多模態(tài)交互與更絲滑的體驗(yàn)。
語(yǔ)音AI并非是新鮮事物,發(fā)展數(shù)十年之久,據(jù)英偉達(dá)高級(jí)研究科學(xué)家Jim Fan的劃分,幾乎所有的語(yǔ)音AI都會(huì)經(jīng)歷三個(gè)階段:
一是語(yǔ)音識(shí)別技術(shù)(Automatic Speech Recognition,ASR),將用戶的音頻語(yǔ)音轉(zhuǎn)化為文字信息,例如(Speech-to-Text),例如OpenAI在2022年9月推出開(kāi)源Whisper語(yǔ)音轉(zhuǎn)文字模型。二是大語(yǔ)言模型,例如chatGPT。三是語(yǔ)音合成技術(shù)(TTS),可以自動(dòng)將文本轉(zhuǎn)化為語(yǔ)音,例如ElevenLabs自研的Eleven Multilingual系列模型,微軟的VALL-E系列等。
![]()
圖源:X@Jim Fan
從ASR-LLM-TTS的過(guò)程,OpenAI表示,它們找到將「三個(gè)獨(dú)立模型變成一個(gè)」的方式,借助GPT-4o,OpenAI通過(guò)跨文本、視覺(jué)和音頻端到端訓(xùn)練出了一個(gè)新模型,讓所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。
![]()
不過(guò),Jim Fan表示,從技術(shù)角度來(lái)說(shuō),總的來(lái)說(shuō),這是一個(gè)數(shù)據(jù)和系統(tǒng)的優(yōu)化問(wèn)題。
OpenAI在語(yǔ)音AI上的技術(shù)也有多年布局,其不僅擁有開(kāi)源語(yǔ)音識(shí)別項(xiàng)目 Whisper,還擁有熱門的語(yǔ)音生成開(kāi)源項(xiàng)目Tortoise的作者James Betker。在今年3月,OpenAI所推出的語(yǔ)音合成引擎Voice Engine,可通過(guò)15秒的語(yǔ)音樣本,克隆出一個(gè)人的聲音,這也是驅(qū)動(dòng)ChatGPT APP版語(yǔ)音功能的關(guān)鍵技術(shù)。
在去年大語(yǔ)言模型和多模態(tài)的風(fēng)潮中,聲音模態(tài)雖然熱度不及二者,但始終也是備受關(guān)注的對(duì)象。行業(yè)們玩家的進(jìn)化主要分為三個(gè)方向:
一是細(xì)分賽道的語(yǔ)音AI企業(yè),針對(duì)內(nèi)容創(chuàng)作者,滿足其內(nèi)容制作過(guò)程中語(yǔ)音的設(shè)計(jì)、克隆與合成等需求,包括ElevenLabs等初創(chuàng)企業(yè)均是如此。二是大型科技企業(yè),如谷歌、Meta、微軟等,它們均具備語(yǔ)音AI儲(chǔ)備,但出于安全、隱私等合規(guī)需求,它們大多數(shù)是將語(yǔ)音AI技術(shù)糅合進(jìn)現(xiàn)有業(yè)務(wù)中,并未直接推出商業(yè)化產(chǎn)品。
還有一類其實(shí)就是OpenAI所擅長(zhǎng)的,人們一直期待著由大語(yǔ)言模型驅(qū)動(dòng)的chatGPT可以實(shí)現(xiàn)自由地語(yǔ)音交互。(不久前,火遍全網(wǎng)的由前Google研究員的AI初創(chuàng)公司Hume AI也是類似邏輯的產(chǎn)品)。
OpenAI為chatGPT增加語(yǔ)音助手功能并不意外:首先,從時(shí)間點(diǎn)上來(lái)看,從年初Sora拉動(dòng)的多模態(tài)浪潮開(kāi)始,OpenAI已頻頻向外界展示其新的模型技術(shù)。
其次,語(yǔ)音AI助手對(duì)OpenAI利好處也是多重的:最直接的就是增加C端用戶的吸引力,此前我們?cè)凇禖hatGPT悄悄變懶,OpenAI還能加速跑嗎?》上曾說(shuō),隨著GPT-4用戶體驗(yàn)的下降,特別是在其專注企業(yè)AI下,它的一批忠實(shí)用戶們,正在開(kāi)始尋找替代方案。
另一方面,OpenAI需要更強(qiáng)有力的AI故事支撐,以應(yīng)對(duì)競(jìng)爭(zhēng)。比如,在去年OpenAI DevDay上展示出的GPT Store,并沒(méi)有如OpenAI預(yù)想之中帶來(lái)好的成效。
更為關(guān)鍵的是,它能為OpenAI提供更多商業(yè)化的想象力。圍繞語(yǔ)音方面進(jìn)行功能更新,可以幫助OpenAI深入更多的硬件設(shè)備,隨著科技巨頭爭(zhēng)相進(jìn)入AI硬件的新競(jìng)爭(zhēng),這對(duì)OpenAI而言也是一條穩(wěn)定的商業(yè)化道路。
2、「停更」半年,AI變天?
每次OpenAI一個(gè)更新,社交媒體幾乎都會(huì)預(yù)言一部分初創(chuàng)公司的「死亡」,這次也不例外,有網(wǎng)友就直接寫了一份「死亡名單」,包括情感分析、翻譯助手、心理健康等領(lǐng)域。
![]()
圖源:X
如果從去年11月6日發(fā)布會(huì)的「大更新」算起,盡管OpenAI圍繞ChatGPT和模型API進(jìn)行了諸多「小更新」,但畢竟也過(guò)了半年之久。
坊間經(jīng)常說(shuō):“AI一天,人間一年”,對(duì)OpenAI來(lái)說(shuō),或許也有類似的體感。
對(duì)比OpenAI和Altman半年前立下的「Flag」,人工智能的競(jìng)爭(zhēng)比他們想象中或許還要更戲劇些。
首先,就是競(jìng)爭(zhēng)對(duì)手們超出預(yù)期的擴(kuò)張速度。被稱為「法國(guó)版OpenAI」的Mistral AI據(jù)報(bào)道已獲得新一輪6億美元的融資,目前估值達(dá)60億美元。馬斯克的人工智能初創(chuàng)公司xAI也被傳在新一輪融資中,估值約在180億美元。作為OpenAI最大勁敵的Anthropic,也在近期推出了其首款移動(dòng)端應(yīng)用程序,為用戶提供訪問(wèn)Claude 3模型的新渠道。
其次,則是撲朔迷離的AI硬件計(jì)劃。除了與蘋果的合作,據(jù)外媒此前報(bào)道,Sam Altman正計(jì)劃和前蘋果設(shè)計(jì)師Jony Ive創(chuàng)立的一家神秘公司,推出一款人工智能驅(qū)動(dòng)的個(gè)人設(shè)備。更早前,Altman領(lǐng)投了AI硬件初創(chuàng)企業(yè)Humane。Humane推出的首款產(chǎn)品AI Pin在最近上市時(shí)由于體驗(yàn)較差,受到了國(guó)外媒體的「集體吐槽」。
不過(guò),在這次直播演示中,OpenAI展示了其利用智能手機(jī)中的能力。比如,chatGPT可以掃描紙上的方程后,引導(dǎo)用戶解決數(shù)學(xué)問(wèn)題。前Uber和Skype工程師Gergely Orosz表示:“很難看到蘋果執(zhí)行這樣的'神奇'手機(jī)體驗(yàn)。”
好在這次的發(fā)布會(huì),至少讓人們看到了OpenAI一直在專注自己的「主線任務(wù)」——新模型、新產(chǎn)品一直在迭代。在直播后,Altman在博客中更新了OpenAI的新使命,他提到:“首先,我們的使命是向人們免費(fèi)(或以非常優(yōu)惠的價(jià)格)提供功能強(qiáng)大的AI工具。”
這是一個(gè)正確且要持續(xù)打硬仗的信號(hào)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.