網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI再打「響指」，硬「杠」谷歌，「免費(fèi)」開(kāi)道

2024-05-14 10:43:08　來(lái)源: 硅基研究室

江蘇舉報(bào)

分享至

文 kiki

繼上周預(yù)告了ChatGPT和GPT-4「就像魔法一樣」的重大更新后，OpenAI在北京時(shí)間14日凌晨，通過(guò)直播向外界展現(xiàn)了這家全球最矚目人工智能大模型企業(yè)的最新成果。

關(guān)于此次發(fā)布會(huì)的時(shí)間與內(nèi)容，在直播前就已掀起了一場(chǎng)「全民大預(yù)測(cè)」，足見(jiàn)OpenAI的影響力。距離去年11月6日的OpenAI DevDay已經(jīng)過(guò)去半年，盡管OpenAI開(kāi)年以來(lái)放出Sora等大招，圍繞ChatGPT功能和模型商業(yè)模式，如API調(diào)用等方面都進(jìn)行了「漸進(jìn)式改革」，但業(yè)內(nèi)更希望看到OpenAI的系統(tǒng)化更新。

從本次發(fā)布會(huì)來(lái)看，OpenAI圍繞ChatGPT和GPT-4模型層更新的亮點(diǎn)如下：

1、模型：推出了全新旗艦GPT-4o模型（o是omni全能），在文本、視覺(jué)和音頻處理方面能力都有顯著增強(qiáng)；

2、交互：在GPT-4o能力支持下，ChatGPT能實(shí)現(xiàn)語(yǔ)音聊天和實(shí)時(shí)視頻交互，類似一個(gè)更先進(jìn)的AI語(yǔ)音助手。同時(shí)，OpenA宣布將推出桌面版ChatGPT。

3、價(jià)格：GPT-4o向所有人免費(fèi)開(kāi)放，對(duì)比GPT-4 Turbo，API定價(jià)減半，但速度是GPT-4 Turbo的2倍。

圖源：直播活動(dòng)截圖

值得一提的是，此次發(fā)布會(huì)創(chuàng)始人Sam Altman并沒(méi)有出現(xiàn)，而時(shí)間恰好卡在谷歌I/O 2024大會(huì)的前一天，且此前已有爆料OpenAI正在開(kāi)發(fā)類搜索引擎產(chǎn)品，名為「SearchGPT」。在最新的公開(kāi)采訪中，Altman提到對(duì)「打造比谷歌更好的搜索引擎沒(méi)興趣」。不管是如OpenAI一樣的明星初創(chuàng)公司，還是如谷歌一樣的巨頭，2024無(wú)疑都是它們的關(guān)鍵之年。

本文「硅基研究室」梳理了此次發(fā)布會(huì)OpenAI的主要升級(jí)方向和它的競(jìng)爭(zhēng)對(duì)手們的最新動(dòng)態(tài)，試圖回答兩個(gè)主要問(wèn)題：

1、OpenAI此次發(fā)布會(huì)主要的亮點(diǎn)是什么？它們有何影響？

2、從最新格局來(lái)看，OpenAI還面臨哪些挑戰(zhàn)？

1、硬扛谷歌，OpenAI做了那些事?

OpenAI此次發(fā)布會(huì)的重頭戲無(wú)疑是最新的模型與暗示已久的AI語(yǔ)音助手。

在發(fā)布會(huì)前，除了媒體爆料外，OpenAI「音頻AGI研究負(fù)責(zé)人」Alexis Conneau就將自己的社交媒體主頁(yè)背景換成了電影《Her》，這部電影講述得正是一個(gè)有感情的AI語(yǔ)音助手的故事。

圖源：X

Altman本人對(duì)于語(yǔ)音交互也有自己的看法，在不久前的一次采訪中，他就提到：“我相信語(yǔ)音交互是通向未來(lái)交互方式的一個(gè)重要線索。如果能夠?qū)崿F(xiàn)真正優(yōu)質(zhì)的語(yǔ)音互動(dòng)體驗(yàn)，那將是一種與計(jì)算機(jī)互動(dòng)的全新方式。”發(fā)布會(huì)結(jié)束，他在X上也發(fā)了一條：“Her”。

圖源：X

在直播活動(dòng)中，OpenAI演示了這款實(shí)時(shí)語(yǔ)音助手的能力，不僅可以響應(yīng)速度快，沒(méi)有尷尬的延遲，能聲情并茂地講故事和唱歌，還能模仿人的語(yǔ)氣，甚至具備情緒感知的能力。

這背后是對(duì)GPT-4o模型結(jié)構(gòu)的優(yōu)化。出行問(wèn)問(wèn)創(chuàng)始人、CEO李志飛表示，GPT-4o更像是一個(gè)萬(wàn)能的虛擬個(gè)人助理（VPA），但并不是一個(gè)新概念，OpenAI之所以把VPA推到新高度，只要是實(shí)現(xiàn)了模型的端到端、實(shí)時(shí)交互、多模態(tài)交互與更絲滑的體驗(yàn)。

語(yǔ)音AI并非是新鮮事物，發(fā)展數(shù)十年之久，據(jù)英偉達(dá)高級(jí)研究科學(xué)家Jim Fan的劃分，幾乎所有的語(yǔ)音AI都會(huì)經(jīng)歷三個(gè)階段：

一是語(yǔ)音識(shí)別技術(shù)（Automatic Speech Recognition，ASR），將用戶的音頻語(yǔ)音轉(zhuǎn)化為文字信息，例如（Speech-to-Text），例如OpenAI在2022年9月推出開(kāi)源Whisper語(yǔ)音轉(zhuǎn)文字模型。二是大語(yǔ)言模型，例如chatGPT。三是語(yǔ)音合成技術(shù)（TTS），可以自動(dòng)將文本轉(zhuǎn)化為語(yǔ)音，例如ElevenLabs自研的Eleven Multilingual系列模型，微軟的VALL-E系列等。

圖源：X@Jim Fan

從ASR-LLM-TTS的過(guò)程，OpenAI表示，它們找到將「三個(gè)獨(dú)立模型變成一個(gè)」的方式，借助GPT-4o，OpenAI通過(guò)跨文本、視覺(jué)和音頻端到端訓(xùn)練出了一個(gè)新模型，讓所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

不過(guò)，Jim Fan表示，從技術(shù)角度來(lái)說(shuō)，總的來(lái)說(shuō)，這是一個(gè)數(shù)據(jù)和系統(tǒng)的優(yōu)化問(wèn)題。

OpenAI在語(yǔ)音AI上的技術(shù)也有多年布局，其不僅擁有開(kāi)源語(yǔ)音識(shí)別項(xiàng)目 Whisper，還擁有熱門的語(yǔ)音生成開(kāi)源項(xiàng)目Tortoise的作者James Betker。在今年3月，OpenAI所推出的語(yǔ)音合成引擎Voice Engine，可通過(guò)15秒的語(yǔ)音樣本，克隆出一個(gè)人的聲音，這也是驅(qū)動(dòng)ChatGPT APP版語(yǔ)音功能的關(guān)鍵技術(shù)。

在去年大語(yǔ)言模型和多模態(tài)的風(fēng)潮中，聲音模態(tài)雖然熱度不及二者，但始終也是備受關(guān)注的對(duì)象。行業(yè)們玩家的進(jìn)化主要分為三個(gè)方向：

一是細(xì)分賽道的語(yǔ)音AI企業(yè)，針對(duì)內(nèi)容創(chuàng)作者，滿足其內(nèi)容制作過(guò)程中語(yǔ)音的設(shè)計(jì)、克隆與合成等需求，包括ElevenLabs等初創(chuàng)企業(yè)均是如此。二是大型科技企業(yè)，如谷歌、Meta、微軟等，它們均具備語(yǔ)音AI儲(chǔ)備，但出于安全、隱私等合規(guī)需求，它們大多數(shù)是將語(yǔ)音AI技術(shù)糅合進(jìn)現(xiàn)有業(yè)務(wù)中，并未直接推出商業(yè)化產(chǎn)品。

還有一類其實(shí)就是OpenAI所擅長(zhǎng)的，人們一直期待著由大語(yǔ)言模型驅(qū)動(dòng)的chatGPT可以實(shí)現(xiàn)自由地語(yǔ)音交互。（不久前，火遍全網(wǎng)的由前Google研究員的AI初創(chuàng)公司Hume AI也是類似邏輯的產(chǎn)品）。

OpenAI為chatGPT增加語(yǔ)音助手功能并不意外：首先，從時(shí)間點(diǎn)上來(lái)看，從年初Sora拉動(dòng)的多模態(tài)浪潮開(kāi)始，OpenAI已頻頻向外界展示其新的模型技術(shù)。

其次，語(yǔ)音AI助手對(duì)OpenAI利好處也是多重的：最直接的就是增加C端用戶的吸引力，此前我們?cè)凇禖hatGPT悄悄變懶，OpenAI還能加速跑嗎？》上曾說(shuō)，隨著GPT-4用戶體驗(yàn)的下降，特別是在其專注企業(yè)AI下，它的一批忠實(shí)用戶們，正在開(kāi)始尋找替代方案。

另一方面，OpenAI需要更強(qiáng)有力的AI故事支撐，以應(yīng)對(duì)競(jìng)爭(zhēng)。比如，在去年OpenAI DevDay上展示出的GPT Store，并沒(méi)有如OpenAI預(yù)想之中帶來(lái)好的成效。

更為關(guān)鍵的是，它能為OpenAI提供更多商業(yè)化的想象力。圍繞語(yǔ)音方面進(jìn)行功能更新，可以幫助OpenAI深入更多的硬件設(shè)備，隨著科技巨頭爭(zhēng)相進(jìn)入AI硬件的新競(jìng)爭(zhēng)，這對(duì)OpenAI而言也是一條穩(wěn)定的商業(yè)化道路。

2、「停更」半年，AI變天？

每次OpenAI一個(gè)更新，社交媒體幾乎都會(huì)預(yù)言一部分初創(chuàng)公司的「死亡」，這次也不例外，有網(wǎng)友就直接寫了一份「死亡名單」，包括情感分析、翻譯助手、心理健康等領(lǐng)域。

圖源：X

如果從去年11月6日發(fā)布會(huì)的「大更新」算起，盡管OpenAI圍繞ChatGPT和模型API進(jìn)行了諸多「小更新」，但畢竟也過(guò)了半年之久。

坊間經(jīng)常說(shuō)：“AI一天，人間一年”，對(duì)OpenAI來(lái)說(shuō)，或許也有類似的體感。

對(duì)比OpenAI和Altman半年前立下的「Flag」，人工智能的競(jìng)爭(zhēng)比他們想象中或許還要更戲劇些。

首先，就是競(jìng)爭(zhēng)對(duì)手們超出預(yù)期的擴(kuò)張速度。被稱為「法國(guó)版OpenAI」的Mistral AI據(jù)報(bào)道已獲得新一輪6億美元的融資，目前估值達(dá)60億美元。馬斯克的人工智能初創(chuàng)公司xAI也被傳在新一輪融資中，估值約在180億美元。作為OpenAI最大勁敵的Anthropic，也在近期推出了其首款移動(dòng)端應(yīng)用程序，為用戶提供訪問(wèn)Claude 3模型的新渠道。

其次，則是撲朔迷離的AI硬件計(jì)劃。除了與蘋果的合作，據(jù)外媒此前報(bào)道，Sam Altman正計(jì)劃和前蘋果設(shè)計(jì)師Jony Ive創(chuàng)立的一家神秘公司，推出一款人工智能驅(qū)動(dòng)的個(gè)人設(shè)備。更早前，Altman領(lǐng)投了AI硬件初創(chuàng)企業(yè)Humane。Humane推出的首款產(chǎn)品AI Pin在最近上市時(shí)由于體驗(yàn)較差，受到了國(guó)外媒體的「集體吐槽」。

不過(guò)，在這次直播演示中，OpenAI展示了其利用智能手機(jī)中的能力。比如，chatGPT可以掃描紙上的方程后，引導(dǎo)用戶解決數(shù)學(xué)問(wèn)題。前Uber和Skype工程師Gergely Orosz表示：“很難看到蘋果執(zhí)行這樣的'神奇'手機(jī)體驗(yàn)。”

好在這次的發(fā)布會(huì)，至少讓人們看到了OpenAI一直在專注自己的「主線任務(wù)」——新模型、新產(chǎn)品一直在迭代。在直播后，Altman在博客中更新了OpenAI的新使命，他提到：“首先，我們的使命是向人們免費(fèi)（或以非常優(yōu)惠的價(jià)格）提供功能強(qiáng)大的AI工具。”

這是一個(gè)正確且要持續(xù)打硬仗的信號(hào)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.