![]()
這項(xiàng)由Allen AI人工智能研究所聯(lián)合佐治亞理工大學(xué)SHI實(shí)驗(yàn)室、華盛頓大學(xué)等多家頂尖機(jī)構(gòu)共同完成的研究,發(fā)表于2025年12月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2512.13874v1),首次讓機(jī)器學(xué)會(huì)了像人類一樣靈活地觀看視頻并進(jìn)行推理。
說(shuō)起看視頻,我們?nèi)祟惼鋵?shí)有個(gè)很神奇的能力:當(dāng)我們想快速了解一個(gè)短視頻的內(nèi)容時(shí),會(huì)從頭到尾仔細(xì)觀看;但面對(duì)一部?jī)尚r(shí)的電影時(shí),我們會(huì)根據(jù)需要選擇快進(jìn)、跳躍或者重點(diǎn)觀看某些片段。然而,目前的人工智能系統(tǒng)卻做不到這一點(diǎn)——它們要么一股腦地處理完整個(gè)視頻,要么只能看固定長(zhǎng)度的片段,完全沒(méi)有這種"因材施看"的智慧。
Allen AI的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個(gè)問(wèn)題,于是開(kāi)發(fā)出了一個(gè)叫做SAGE的智能系統(tǒng)。SAGE的全稱是"Smart Any-horizon aGEnt",翻譯過(guò)來(lái)就是"智能任意時(shí)長(zhǎng)代理"。這個(gè)系統(tǒng)最厲害的地方在于,它能夠根據(jù)問(wèn)題的復(fù)雜程度自動(dòng)決定是需要深入分析整個(gè)視頻,還是只看關(guān)鍵片段就夠了。
更有意思的是,研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)專門(mén)的評(píng)估平臺(tái)SAGE-Bench,里面包含了1744個(gè)來(lái)自真實(shí)娛樂(lè)視頻的問(wèn)題,平均每個(gè)視頻長(zhǎng)達(dá)727秒(超過(guò)12分鐘)。這些問(wèn)題就像普通觀眾在看YouTube視頻時(shí)可能產(chǎn)生的疑問(wèn)一樣自然真實(shí)。
一、突破傳統(tǒng)局限:從"一刀切"到"量體裁衣"的視頻理解
傳統(tǒng)的視頻AI系統(tǒng)就像一個(gè)只會(huì)按部就班工作的機(jī)器人。無(wú)論你給它一個(gè)30秒的搞笑短視頻,還是一部90分鐘的紀(jì)錄片,它都會(huì)用同樣的方式處理:要么把整個(gè)視頻的每一幀都仔細(xì)分析一遍,要么隨機(jī)采樣一些片段來(lái)看。這種方法不僅效率低下,而且經(jīng)常會(huì)錯(cuò)過(guò)關(guān)鍵信息或者浪費(fèi)大量時(shí)間在無(wú)關(guān)緊要的內(nèi)容上。
SAGE系統(tǒng)的創(chuàng)新之處在于引入了"任意時(shí)長(zhǎng)推理"的概念。它就像一個(gè)經(jīng)驗(yàn)豐富的視頻編輯師,能夠根據(jù)任務(wù)的需要靈活調(diào)整觀看策略。當(dāng)面對(duì)簡(jiǎn)單問(wèn)題時(shí),比如"這個(gè)視頻里的人穿的是什么顏色的衣服",SAGE會(huì)快速瀏覽一下就給出答案。但如果問(wèn)題比較復(fù)雜,比如"請(qǐng)分析這場(chǎng)F1比賽中法拉利車隊(duì)的戰(zhàn)術(shù)變化",SAGE就會(huì)啟動(dòng)多輪深度分析模式,先搜索相關(guān)背景信息,然后定位關(guān)鍵時(shí)間段,最后綜合分析得出結(jié)論。
研究團(tuán)隊(duì)在設(shè)計(jì)SAGE時(shí),特別注重模擬人類的觀看習(xí)慣。我們?cè)诳撮L(zhǎng)視頻時(shí),往往會(huì)結(jié)合自己的背景知識(shí),有選擇性地關(guān)注某些片段,甚至?xí)和Hゲ殚喯嚓P(guān)資料。SAGE也具備了這些能力:它不僅能夠分析視頻內(nèi)容,還能進(jìn)行網(wǎng)絡(luò)搜索來(lái)獲取背景信息,甚至可以提取視頻中的語(yǔ)音內(nèi)容進(jìn)行分析。
這種靈活性帶來(lái)的好處是顯而易見(jiàn)的。在實(shí)際測(cè)試中,SAGE在處理長(zhǎng)于10分鐘的視頻時(shí),準(zhǔn)確率比傳統(tǒng)方法提升了8.2%,而在處理開(kāi)放式問(wèn)題時(shí)的提升幅度更是達(dá)到了6.1%。更重要的是,SAGE的處理速度也大大提升了,因?yàn)樗辉傩枰獙?duì)每個(gè)視頻都進(jìn)行全面的"地毯式"分析。
二、智能工具箱:給AI配備"瑞士軍刀"般的分析能力
SAGE系統(tǒng)的另一個(gè)創(chuàng)新點(diǎn)在于它配備了一套完整的"智能工具箱"。傳統(tǒng)的視頻AI系統(tǒng)通常只依賴一種分析方法,就像只有一把錘子的工人,看什么都像釘子。而SAGE擁有六種不同的分析工具,每一種都有其獨(dú)特的用途。
首先是網(wǎng)絡(luò)搜索工具。當(dāng)SAGE遇到需要背景知識(shí)才能回答的問(wèn)題時(shí),它會(huì)自動(dòng)在網(wǎng)上搜索相關(guān)信息。比如在分析一段F1比賽視頻時(shí),如果問(wèn)題涉及到車隊(duì)的歷史戰(zhàn)績(jī),SAGE會(huì)先搜索最新的積分榜和比賽結(jié)果,這樣它就能更準(zhǔn)確地理解視頻中發(fā)生的事情。
第二個(gè)工具是網(wǎng)頁(yè)解析功能。找到相關(guān)網(wǎng)頁(yè)后,SAGE能夠自動(dòng)提取其中的有用信息,就像一個(gè)高效的研究助手,能夠快速?gòu)膹?fù)雜的網(wǎng)頁(yè)中找到關(guān)鍵數(shù)據(jù)。
語(yǔ)音轉(zhuǎn)寫(xiě)工具則讓SAGE能夠"聽(tīng)懂"視頻中的對(duì)話和旁白。這個(gè)功能特別有用,因?yàn)楹芏嘁曨l的關(guān)鍵信息都隱藏在語(yǔ)音中。比如在分析一段新聞視頻時(shí),主播的解說(shuō)往往包含了比畫(huà)面更豐富的信息。
事件定位工具幫助SAGE在長(zhǎng)視頻中快速找到特定的時(shí)間段。與傳統(tǒng)系統(tǒng)不同,SAGE不會(huì)試圖在整個(gè)兩小時(shí)的視頻中搜索一個(gè)10秒鐘的片段,而是會(huì)智能地縮小搜索范圍,通常在10分鐘的時(shí)間窗口內(nèi)進(jìn)行精確定位。
視頻片段提取工具可以從指定的時(shí)間段中提取關(guān)鍵幀或視頻片段,為進(jìn)一步分析做準(zhǔn)備。最后,分析工具負(fù)責(zé)對(duì)提取的內(nèi)容進(jìn)行深度理解和推理。
這些工具的協(xié)同工作就像一個(gè)訓(xùn)練有素的團(tuán)隊(duì)。SAGE會(huì)根據(jù)問(wèn)題的特點(diǎn)和復(fù)雜程度,自動(dòng)選擇合適的工具組合,有時(shí)只需要用到一兩個(gè)工具,有時(shí)則需要所有工具輪番上陣。這種靈活性使得SAGE能夠處理各種類型的視頻分析任務(wù),從簡(jiǎn)單的視覺(jué)識(shí)別到復(fù)雜的邏輯推理都游刃有余。
三、數(shù)據(jù)創(chuàng)新:用AI訓(xùn)練AI的巧妙策略
訓(xùn)練像SAGE這樣復(fù)雜的AI系統(tǒng)需要大量高質(zhì)量的數(shù)據(jù),但獲取長(zhǎng)視頻的標(biāo)注數(shù)據(jù)一直是個(gè)難題。人工標(biāo)注一個(gè)一小時(shí)長(zhǎng)的視頻可能需要花費(fèi)30美元,而且標(biāo)注質(zhì)量難以保證。研究團(tuán)隊(duì)想出了一個(gè)巧妙的解決方案:利用先進(jìn)的AI模型來(lái)生成訓(xùn)練數(shù)據(jù)。
他們使用了Gemini-2.5-Flash這個(gè)強(qiáng)大的AI模型作為"數(shù)據(jù)生產(chǎn)工廠"。這個(gè)過(guò)程就像讓一個(gè)有經(jīng)驗(yàn)的老師為學(xué)生出題一樣:Gemini-2.5-Flash會(huì)仔細(xì)觀看每個(gè)視頻,然后針對(duì)不同的時(shí)間段和內(nèi)容特點(diǎn)生成10到20個(gè)問(wèn)題和答案對(duì)。
為了確保生成的問(wèn)題覆蓋整個(gè)視頻的內(nèi)容,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的機(jī)制:要求AI模型預(yù)測(cè)每個(gè)問(wèn)題覆蓋了視頻的百分比。比如一個(gè)問(wèn)題可能只涉及視頻前半部分的內(nèi)容(覆蓋率50%),而另一個(gè)問(wèn)題可能需要綜合全片信息才能回答(覆蓋率100%)。通過(guò)這種方式,他們確保了生成的問(wèn)題既有局部細(xì)節(jié)的考查,也有全局理解的檢驗(yàn)。
更令人印象深刻的是這種方法的效率。傳統(tǒng)的人工標(biāo)注不僅成本高昂,而且速度緩慢,標(biāo)注一個(gè)小時(shí)的視頻可能需要好幾天時(shí)間。而使用AI生成數(shù)據(jù)的方法在成本上節(jié)省了近100倍,在時(shí)間上節(jié)省了10倍,同時(shí)質(zhì)量檢驗(yàn)顯示錯(cuò)誤率僅有5%左右。
研究團(tuán)隊(duì)總共處理了超過(guò)6600個(gè)視頻,生成了99,000多個(gè)問(wèn)題答案對(duì),涵蓋了從體育賽事到科普教育,從美食制作到旅行記錄等各種類型的內(nèi)容。這些數(shù)據(jù)不僅數(shù)量龐大,而且質(zhì)量很高,為SAGE的訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)。
除了問(wèn)題答案對(duì),研究團(tuán)隊(duì)還生成了40多萬(wàn)個(gè)工具調(diào)用軌跡,這些軌跡記錄了SAGE在處理不同類型問(wèn)題時(shí)應(yīng)該如何選擇和使用各種工具。這就像為SAGE提供了一本詳細(xì)的"操作手冊(cè)",告訴它在什么情況下該使用哪些工具,以什么順序使用它們。
四、強(qiáng)化學(xué)習(xí):讓AI學(xué)會(huì)"舉一反三"的智慧
僅僅有大量的訓(xùn)練數(shù)據(jù)還不夠,SAGE還需要學(xué)會(huì)如何靈活運(yùn)用這些知識(shí)。研究團(tuán)隊(duì)采用了強(qiáng)化學(xué)習(xí)技術(shù),這種方法就像教孩子做作業(yè)時(shí)給予及時(shí)的獎(jiǎng)勵(lì)和糾正一樣,能夠讓AI系統(tǒng)不斷改進(jìn)自己的表現(xiàn)。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)通常只關(guān)注最終結(jié)果的對(duì)錯(cuò),但SAGE的學(xué)習(xí)過(guò)程更加精細(xì)化。研究團(tuán)隊(duì)設(shè)計(jì)了一套多維度的獎(jiǎng)勵(lì)機(jī)制,不僅會(huì)獎(jiǎng)勵(lì)正確的最終答案,還會(huì)獎(jiǎng)勵(lì)A(yù)I在解決問(wèn)題過(guò)程中的每一個(gè)合理步驟。
具體來(lái)說(shuō),當(dāng)SAGE能夠產(chǎn)生格式正確的輸出時(shí)會(huì)獲得獎(jiǎng)勵(lì),當(dāng)它選擇了合理的工具時(shí)也會(huì)獲得獎(jiǎng)勵(lì),當(dāng)它避免重復(fù)使用同樣的工具時(shí)同樣會(huì)得到正面反饋。最重要的是,當(dāng)SAGE能夠在簡(jiǎn)單問(wèn)題上直接給出答案,在復(fù)雜問(wèn)題上進(jìn)行多輪推理時(shí),會(huì)獲得額外的獎(jiǎng)勵(lì)。這種設(shè)計(jì)鼓勵(lì)SAGE學(xué)會(huì)"因題制宜"的策略選擇。
為了評(píng)估SAGE推理過(guò)程的合理性,研究團(tuán)隊(duì)還引入了GPT-4o作為"裁判"。就像請(qǐng)一位經(jīng)驗(yàn)豐富的老師來(lái)評(píng)估學(xué)生的解題思路是否合理一樣,GPT-4o會(huì)判斷SAGE在每一步推理中的工具選擇是否恰當(dāng),邏輯鏈條是否清晰。
這種訓(xùn)練方法的效果非常明顯。經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后的SAGE在各種測(cè)試中的表現(xiàn)都有了顯著提升,特別是在處理開(kāi)放性問(wèn)題時(shí),準(zhǔn)確率提升了4.1%。更重要的是,SAGE學(xué)會(huì)了自適應(yīng)的推理策略:對(duì)于簡(jiǎn)單問(wèn)題,它傾向于快速直接回答;對(duì)于復(fù)雜問(wèn)題,它會(huì)自動(dòng)啟動(dòng)多輪深度分析模式。
五、實(shí)戰(zhàn)檢驗(yàn):娛樂(lè)視頻中的真實(shí)挑戰(zhàn)
為了真正檢驗(yàn)SAGE的能力,研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為SAGE-Bench的專門(mén)測(cè)試平臺(tái)。與以往大多數(shù)學(xué)術(shù)測(cè)試不同,SAGE-Bench專門(mén)關(guān)注娛樂(lè)類視頻的理解,因?yàn)檫@類視頻更貼近普通用戶的實(shí)際使用場(chǎng)景。
SAGE-Bench包含了來(lái)自13個(gè)熱門(mén)YouTube頻道的視頻,涵蓋了體育比賽、美食制作、喜劇表演、科普教育和旅行記錄等多個(gè)領(lǐng)域。平均每個(gè)視頻長(zhǎng)度超過(guò)12分鐘,最長(zhǎng)的甚至達(dá)到了40分鐘以上。更重要的是,其中54%的問(wèn)題都是開(kāi)放性的,需要AI進(jìn)行復(fù)雜的理解和推理,而不是簡(jiǎn)單的選擇題。
在這個(gè)測(cè)試平臺(tái)上,SAGE展現(xiàn)出了令人印象深刻的表現(xiàn)。整體準(zhǔn)確率達(dá)到了68%,在處理超過(guò)10分鐘的長(zhǎng)視頻時(shí)表現(xiàn)尤為突出,相比傳統(tǒng)方法提升了8.2%。特別值得一提的是,SAGE在處理需要視覺(jué)信息的問(wèn)題時(shí)準(zhǔn)確率達(dá)到了64%,在處理需要語(yǔ)音信息的問(wèn)題時(shí)準(zhǔn)確率更是高達(dá)82.8%。
更有趣的發(fā)現(xiàn)是,SAGE表現(xiàn)出了明顯的"智能分配"特征。面對(duì)簡(jiǎn)單問(wèn)題時(shí),SAGE平均只需要1.7輪推理就能給出答案,而面對(duì)復(fù)雜問(wèn)題時(shí),它會(huì)自動(dòng)增加到2.8輪推理。這種自適應(yīng)行為恰恰反映了人類處理問(wèn)題時(shí)的策略選擇:簡(jiǎn)單問(wèn)題快速處理,復(fù)雜問(wèn)題深入思考。
與其他現(xiàn)有的視頻AI系統(tǒng)相比,SAGE的優(yōu)勢(shì)更加明顯。許多傳統(tǒng)系統(tǒng)在處理開(kāi)放性問(wèn)題時(shí)表現(xiàn)較差,準(zhǔn)確率往往在30-40%之間,而SAGE能夠達(dá)到55.6%。這個(gè)差距的背后反映的是兩種不同設(shè)計(jì)理念的區(qū)別:傳統(tǒng)系統(tǒng)追求"一招鮮吃遍天",而SAGE追求"因材施教"的靈活性。
六、技術(shù)深度:多輪推理的藝術(shù)與科學(xué)
SAGE的核心技術(shù)創(chuàng)新在于它的兩階段工作模式。第一階段稱為"情境理解階段",SAGE會(huì)像一個(gè)初次接觸視頻的觀眾一樣,快速瀏覽視頻內(nèi)容,理解基本情況,并判斷問(wèn)題的復(fù)雜程度。如果問(wèn)題相對(duì)簡(jiǎn)單,SAGE就會(huì)直接給出答案;如果問(wèn)題比較復(fù)雜,它就會(huì)制定一個(gè)詳細(xì)的分析計(jì)劃。
第二階段是"迭代推理階段",SAGE會(huì)根據(jù)第一階段制定的計(jì)劃,逐步使用各種工具來(lái)收集和分析信息。這個(gè)過(guò)程就像偵探破案一樣,每收集到一條線索,就會(huì)重新評(píng)估案情,決定下一步該往哪個(gè)方向調(diào)查。SAGE會(huì)持續(xù)這個(gè)過(guò)程,直到收集到足夠的信息來(lái)回答原始問(wèn)題。
在技術(shù)實(shí)現(xiàn)上,SAGE采用了一種叫做"狀態(tài)-動(dòng)作對(duì)"的表示方法。每一個(gè)推理步驟都被看作是從當(dāng)前狀態(tài)到下一個(gè)狀態(tài)的轉(zhuǎn)換,而工具的選擇和使用就是這個(gè)轉(zhuǎn)換過(guò)程中的"動(dòng)作"。這種表示方法使得SAGE能夠?qū)W會(huì)復(fù)雜的推理策略,并且能夠根據(jù)不同的問(wèn)題類型自動(dòng)調(diào)整自己的行為模式。
為了處理視頻的時(shí)序特性,SAGE引入了一種智能的時(shí)間窗口機(jī)制。與傳統(tǒng)方法試圖在整個(gè)視頻中搜索特定事件不同,SAGE會(huì)根據(jù)已有信息智能地估算可能的時(shí)間范圍,然后在這個(gè)較小的窗口內(nèi)進(jìn)行精確搜索。這種方法不僅提高了搜索效率,還減少了誤匹配的可能性。
SAGE的另一個(gè)技術(shù)亮點(diǎn)是它的"工具編排"能力。它不是簡(jiǎn)單地按照固定順序使用工具,而是會(huì)根據(jù)問(wèn)題的特點(diǎn)和當(dāng)前收集到的信息動(dòng)態(tài)決定下一步該使用哪個(gè)工具。有時(shí)它會(huì)先搜索背景信息再分析視頻內(nèi)容,有時(shí)它會(huì)先定位關(guān)鍵時(shí)間段再提取詳細(xì)信息,這種靈活性使得SAGE能夠高效地處理各種類型的視頻分析任務(wù)。
七、性能對(duì)比:效率與準(zhǔn)確性的雙重突破
在與現(xiàn)有技術(shù)的對(duì)比中,SAGE展現(xiàn)出了全面的優(yōu)勢(shì)。研究團(tuán)隊(duì)將SAGE與市面上最先進(jìn)的視頻AI系統(tǒng)進(jìn)行了詳細(xì)對(duì)比,包括Video-R1、VideoRFT、LongVILA-R1等知名系統(tǒng)。結(jié)果顯示,SAGE不僅在準(zhǔn)確率上領(lǐng)先,在處理效率上也有顯著優(yōu)勢(shì)。
從準(zhǔn)確率角度看,SAGE在SAGE-Bench測(cè)試集上的整體表現(xiàn)達(dá)到了68%,而最接近的競(jìng)爭(zhēng)對(duì)手VideoChat-R1.5的準(zhǔn)確率僅為54.8%。在處理開(kāi)放性問(wèn)題時(shí),這個(gè)差距更加明顯:SAGE達(dá)到了55.6%,而大多數(shù)傳統(tǒng)系統(tǒng)的準(zhǔn)確率都在40%以下。這個(gè)差距反映了SAGE在理解復(fù)雜視頻內(nèi)容方面的顯著優(yōu)勢(shì)。
從效率角度看,SAGE的表現(xiàn)同樣令人印象深刻。雖然SAGE使用了多種工具進(jìn)行分析,但由于其智能的任務(wù)分配機(jī)制,平均處理時(shí)間僅為8.6秒每樣本,比某些傳統(tǒng)系統(tǒng)還要快。相比之下,一些現(xiàn)有的智能體系統(tǒng)如VideoAgent平均需要1445秒才能處理一個(gè)樣本,效率差距高達(dá)168倍。
特別值得注意的是SAGE在不同視頻長(zhǎng)度上的表現(xiàn)差異。對(duì)于1小時(shí)以上的超長(zhǎng)視頻,SAGE的準(zhǔn)確率提升幅度達(dá)到了14.6%,這個(gè)數(shù)字遠(yuǎn)超其在短視頻上的提升幅度。這個(gè)現(xiàn)象說(shuō)明,SAGE的"任意時(shí)長(zhǎng)推理"能力在處理復(fù)雜長(zhǎng)視頻時(shí)發(fā)揮了更大的作用。
研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:SAGE表現(xiàn)出了明顯的"學(xué)習(xí)曲線"效應(yīng)。隨著訓(xùn)練數(shù)據(jù)的增加和強(qiáng)化學(xué)習(xí)的深入,SAGE不僅在準(zhǔn)確率上穩(wěn)步提升,在推理效率上也在不斷優(yōu)化。它學(xué)會(huì)了更精確地判斷問(wèn)題的復(fù)雜程度,能夠更準(zhǔn)確地決定是否需要啟動(dòng)多輪推理模式。
八、實(shí)際應(yīng)用前景:從實(shí)驗(yàn)室到日常生活的跨越
SAGE的成功不僅僅是一項(xiàng)學(xué)術(shù)成就,更重要的是它為視頻AI技術(shù)的實(shí)際應(yīng)用開(kāi)辟了新的可能性。目前的視頻AI系統(tǒng)大多只能處理標(biāo)準(zhǔn)化的任務(wù),而SAGE的靈活性使它能夠適應(yīng)更多樣化的實(shí)際應(yīng)用場(chǎng)景。
在教育領(lǐng)域,SAGE可以成為一個(gè)智能的視頻學(xué)習(xí)助手。學(xué)生觀看在線課程時(shí),可以隨時(shí)向SAGE提問(wèn),無(wú)論是關(guān)于某個(gè)具體概念的解釋,還是關(guān)于整節(jié)課內(nèi)容的總結(jié),SAGE都能給出準(zhǔn)確的回答。更重要的是,SAGE能夠根據(jù)問(wèn)題的復(fù)雜程度自動(dòng)調(diào)整分析深度,既能快速回答簡(jiǎn)單問(wèn)題,也能進(jìn)行深入的概念分析。
在娛樂(lè)行業(yè),SAGE可以為視頻平臺(tái)提供更智能的內(nèi)容理解和推薦服務(wù)。它不僅能夠理解視頻的表面內(nèi)容,還能深入分析視頻的情感色彩、主題內(nèi)容和藝術(shù)風(fēng)格,從而為用戶提供更精準(zhǔn)的個(gè)性化推薦。同時(shí),SAGE還可以幫助內(nèi)容創(chuàng)作者快速分析自己作品的效果,識(shí)別觀眾最感興趣的片段。
在新聞和媒體領(lǐng)域,SAGE可以成為記者和編輯的得力助手。面對(duì)大量的視頻素材,記者可以快速詢問(wèn)關(guān)鍵信息,比如"這段采訪中政治家的主要觀點(diǎn)是什么"或者"這場(chǎng)比賽的轉(zhuǎn)折點(diǎn)在哪里"。SAGE能夠快速定位關(guān)鍵片段并提供準(zhǔn)確的分析,大大提高新聞制作的效率。
在安防和監(jiān)控領(lǐng)域,SAGE的應(yīng)用前景同樣廣闊。傳統(tǒng)的監(jiān)控系統(tǒng)只能進(jìn)行基礎(chǔ)的目標(biāo)檢測(cè),而SAGE可以理解復(fù)雜的行為模式和事件序列。它能夠回答"在過(guò)去一小時(shí)內(nèi)是否有異常行為發(fā)生"這樣的復(fù)雜查詢,并且能夠準(zhǔn)確定位相關(guān)的時(shí)間段。
研究團(tuán)隊(duì)特別強(qiáng)調(diào),SAGE的設(shè)計(jì)理念是"以用戶為中心"的。與傳統(tǒng)的AI系統(tǒng)不同,SAGE不是要求用戶適應(yīng)系統(tǒng)的局限性,而是讓系統(tǒng)適應(yīng)用戶的實(shí)際需求。用戶可以用自然語(yǔ)言提出各種類型的問(wèn)題,SAGE會(huì)自動(dòng)判斷如何最有效地回答這些問(wèn)題。
說(shuō)到底,SAGE代表的是視頻AI技術(shù)發(fā)展的一個(gè)重要轉(zhuǎn)折點(diǎn)。它從根本上改變了我們對(duì)視頻AI能力的認(rèn)知:AI系統(tǒng)不再是只能按部就班工作的"笨機(jī)器",而是具備了類似人類的靈活思維能力。SAGE能夠根據(jù)任務(wù)的復(fù)雜程度自主決定分析策略,這種"智能分工"的能力使它在處理各種實(shí)際問(wèn)題時(shí)都能游刃有余。
更令人興奮的是,SAGE的成功為整個(gè)AI領(lǐng)域提供了重要啟示:真正實(shí)用的AI系統(tǒng)需要具備"任意時(shí)長(zhǎng)推理"的能力,也就是能夠根據(jù)問(wèn)題的特點(diǎn)靈活調(diào)整自己的工作方式。這種理念不僅適用于視頻分析,也可能推廣到語(yǔ)音理解、文檔分析等其他AI應(yīng)用領(lǐng)域。
當(dāng)然,SAGE目前還只是一個(gè)研究原型,距離大規(guī)模商業(yè)應(yīng)用還有一定距離。研究團(tuán)隊(duì)也坦誠(chéng)地指出了系統(tǒng)的一些局限性,比如對(duì)某些專業(yè)領(lǐng)域知識(shí)的理解還不夠深入,處理極其復(fù)雜的推理任務(wù)時(shí)偶爾還會(huì)出現(xiàn)錯(cuò)誤等。但是,SAGE所展現(xiàn)的技術(shù)方向和巨大潛力已經(jīng)讓整個(gè)AI界為之振奮。
隨著技術(shù)的不斷完善和數(shù)據(jù)的持續(xù)積累,我們有理由相信,像SAGE這樣的智能視頻分析系統(tǒng)將很快走出實(shí)驗(yàn)室,成為我們?nèi)粘I钪胁豢苫蛉钡闹悄苤帧5侥菚r(shí),與視頻內(nèi)容的交互將變得和與人對(duì)話一樣自然流暢,我們將真正進(jìn)入一個(gè)"視頻即對(duì)話"的全新時(shí)代。
Q&A
Q1:SAGE系統(tǒng)是什么,它有什么特殊能力?
A:SAGE是由Allen AI研究所開(kāi)發(fā)的智能視頻分析系統(tǒng),全稱"Smart Any-horizon aGEnt"。它的特殊能力是能像人類一樣根據(jù)問(wèn)題復(fù)雜程度靈活調(diào)整觀看策略:面對(duì)簡(jiǎn)單問(wèn)題時(shí)快速瀏覽給出答案,面對(duì)復(fù)雜問(wèn)題時(shí)啟動(dòng)多輪深度分析模式,甚至?xí)阉骶W(wǎng)絡(luò)獲取背景信息。這種"因材施看"的智慧使它在處理長(zhǎng)視頻時(shí)比傳統(tǒng)方法準(zhǔn)確率提升了8.2%。
Q2:SAGE如何解決傳統(tǒng)視頻AI系統(tǒng)效率低下的問(wèn)題?
A:傳統(tǒng)視頻AI系統(tǒng)采用"一刀切"方式,無(wú)論視頻長(zhǎng)短都用同樣方法處理,既浪費(fèi)時(shí)間又容易出錯(cuò)。SAGE配備了六種智能工具(網(wǎng)絡(luò)搜索、網(wǎng)頁(yè)解析、語(yǔ)音轉(zhuǎn)寫(xiě)、事件定位、視頻片段提取、深度分析),會(huì)根據(jù)問(wèn)題特點(diǎn)自動(dòng)選擇合適的工具組合。它不會(huì)對(duì)每個(gè)視頻進(jìn)行"地毯式"全面分析,而是智能縮小搜索范圍,在10分鐘窗口內(nèi)精確定位關(guān)鍵片段,處理效率比某些傳統(tǒng)系統(tǒng)快168倍。
Q3:SAGE的訓(xùn)練數(shù)據(jù)是怎么獲得的,質(zhì)量如何?
A:研究團(tuán)隊(duì)采用了創(chuàng)新的"AI訓(xùn)練AI"策略,使用Gemini-2.5-Flash模型作為"數(shù)據(jù)生產(chǎn)工廠",自動(dòng)觀看視頻并生成問(wèn)題答案對(duì)。這種方法成本節(jié)省近100倍,時(shí)間節(jié)省10倍,錯(cuò)誤率僅5%左右。團(tuán)隊(duì)總共處理了超過(guò)6600個(gè)來(lái)自熱門(mén)YouTube頻道的視頻,生成了99000多個(gè)問(wèn)題答案對(duì)和40多萬(wàn)個(gè)工具調(diào)用軌跡,涵蓋體育、美食、教育、旅行等多個(gè)領(lǐng)域。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.