在烹飪過(guò)程中,你是否曾想過(guò)AI能否預(yù)測(cè)下一步該做什么?這正是當(dāng)代人工智能研究的前沿領(lǐng)域。傳統(tǒng)AI模型只能給出單一預(yù)測(cè),但現(xiàn)實(shí)中烹飪的下一步往往有多種可能性。例如,在制作沙拉時(shí),加完黃瓜后,下一步可能是加橄欖油、加鹽和胡椒,或直接上菜。GEPSAN模型突破性地解決了這一挑戰(zhàn),它不僅能從視頻中理解當(dāng)前烹飪步驟,還能生成多種合理且多樣化的未來(lái)步驟預(yù)測(cè)。這種創(chuàng)新方法改變了我們思考AI輔助烹飪的方式,為開(kāi)發(fā)更智能、更實(shí)用的廚房助手鋪平了道路。
![]()
預(yù)測(cè)的新思路
在人工智能領(lǐng)域,程序步驟預(yù)測(cè)一直是個(gè)引人注目的研究方向。特別是在烹飪視頻這一場(chǎng)景中,預(yù)測(cè)下一步驟對(duì)開(kāi)發(fā)智能廚房助手具有重要意義。想象一下,當(dāng)你正在制作一道復(fù)雜的菜肴時(shí),AI助手能夠預(yù)測(cè)你即將需要的下一種食材或工具,及時(shí)提醒你,這無(wú)疑會(huì)讓烹飪過(guò)程更加順暢。
傳統(tǒng)的步驟預(yù)測(cè)模型通常只能給出一個(gè)單一的預(yù)測(cè)結(jié)果。這些模型被設(shè)計(jì)成在給定前幾個(gè)步驟的情況下,生成一個(gè)最可能的下一步驟。舉例來(lái)說(shuō),當(dāng)觀察到用戶已經(jīng)"切菜"、"加入西紅柿"和"加入黃瓜"后,傳統(tǒng)模型可能會(huì)預(yù)測(cè)下一步是"加入橄欖油"。但實(shí)際上,烹飪是一個(gè)充滿變數(shù)的過(guò)程,下一步可能是多種多樣的。有些人可能會(huì)選擇先"加入鹽和胡椒"來(lái)調(diào)味,而其他人則可能直接"裝盤上菜"。
這種現(xiàn)實(shí)中存在的多種可能性,在技術(shù)術(shù)語(yǔ)中被稱為"多模態(tài)"問(wèn)題。傳統(tǒng)模型忽視了這一特性,導(dǎo)致它們的預(yù)測(cè)往往不夠靈活,甚至可能生成一些不太現(xiàn)實(shí)的"中間態(tài)"預(yù)測(cè)結(jié)果,既不是這種做法也不是那種做法。
![]()
另一個(gè)重大挑戰(zhàn)是數(shù)據(jù)稀缺問(wèn)題。帶有詳細(xì)標(biāo)注的烹飪視頻數(shù)據(jù)集在規(guī)模上遠(yuǎn)遠(yuǎn)小于文本數(shù)據(jù)集。例如,一個(gè)典型的烹飪視頻數(shù)據(jù)集YouCookII僅包含2000個(gè)視頻,而文本形式的食譜數(shù)據(jù)集Recipe1M+則包含超過(guò)一百萬(wàn)份食譜。這種數(shù)據(jù)不平衡使得直接從視頻中學(xué)習(xí)程序步驟變得極為困難。
面對(duì)這些挑戰(zhàn),GEPSAN模型提出了一個(gè)創(chuàng)新性的解決方案:將未來(lái)步驟預(yù)測(cè)重新構(gòu)思為對(duì)所有可能候選步驟分布的建模問(wèn)題。具體來(lái)說(shuō),它不再嘗試生成單一的"最佳"預(yù)測(cè),而是設(shè)計(jì)成能夠生成多個(gè)合理且多樣化的候選步驟。
這種方法更加符合現(xiàn)實(shí)世界中烹飪活動(dòng)的本質(zhì)。在實(shí)際烹飪中,下一步驟往往取決于個(gè)人喜好、地區(qū)文化差異或者當(dāng)前可用的食材。通過(guò)生成多個(gè)可能的選項(xiàng),GEPSAN能夠更好地捕捉這種內(nèi)在的不確定性。
為了克服數(shù)據(jù)稀缺問(wèn)題,GEPSAN采用了一種巧妙的遷移學(xué)習(xí)策略。它首先在龐大的文本食譜數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,從中學(xué)習(xí)程序活動(dòng)的知識(shí),然后將學(xué)到的知識(shí)遷移到視頻領(lǐng)域。這樣,即使視頻數(shù)據(jù)有限,模型也能夠有效地理解視頻中的烹飪步驟。
實(shí)驗(yàn)證明,這種新的預(yù)測(cè)框架不僅能夠捕捉下一步預(yù)測(cè)中的多樣性,還能生成多個(gè)合理的未來(lái)預(yù)測(cè)。GEPSAN在YouCookII數(shù)據(jù)集上建立了新的最先進(jìn)水平,在下一步預(yù)測(cè)任務(wù)中優(yōu)于現(xiàn)有的基準(zhǔn)模型。更令人驚喜的是,該模型可以成功地從文本零樣本遷移到視頻領(lǐng)域,即無(wú)需微調(diào)或適應(yīng),就能從視頻中產(chǎn)生高質(zhì)量的未來(lái)步驟預(yù)測(cè)。
模型三大核心
![]()
GEPSAN模型的設(shè)計(jì)理念建立在捕捉未來(lái)步驟多樣性的基礎(chǔ)上,其核心架構(gòu)由三個(gè)關(guān)鍵模塊組成:?jiǎn)文B(tài)編碼器、配方編碼器和指令解碼器。這種設(shè)計(jì)使模型能夠從視頻或文本輸入中理解當(dāng)前的烹飪過(guò)程,并生成多種合理的下一步驟預(yù)測(cè)。
單模態(tài)編碼器是模型的入口,負(fù)責(zé)處理輸入的指令步驟。這些步驟可以是文本形式(如"將雞蛋打入碗中")或視頻片段。與以往研究不同,GEPSAN不是從零開(kāi)始訓(xùn)練這個(gè)編碼器,而是采用了預(yù)訓(xùn)練的UniVL編碼器。這個(gè)編碼器已經(jīng)學(xué)會(huì)了將視頻和文本映射到同一個(gè)特征空間,這意味著文本和視頻在這個(gè)空間中有著相似的表示方式。這一設(shè)計(jì)選擇為后續(xù)的零樣本模態(tài)遷移(從文本到視頻)奠定了基礎(chǔ)。
配方編碼器是GEPSAN的核心組件,它接收單模態(tài)編碼器產(chǎn)生的特征序列,并輸出多個(gè)可能的下一步驟嵌入。它由兩部分構(gòu)成:上下文編碼器和條件變分自編碼器(CVAE)。
上下文編碼器采用變換器(Transformer)架構(gòu),它能夠有效處理長(zhǎng)序列輸入。在處理時(shí),它匯總過(guò)去的指令步驟嵌入成一個(gè)單一的上下文向量。為了確保只考慮過(guò)去的歷史,上下文編碼器使用了因果注意力機(jī)制,即在預(yù)測(cè)第t步時(shí),只能看到前t-1步的信息。
CVAE是實(shí)現(xiàn)多樣化預(yù)測(cè)的關(guān)鍵。它由后驗(yàn)網(wǎng)絡(luò)和預(yù)測(cè)頭組成。在訓(xùn)練階段,后驗(yàn)網(wǎng)絡(luò)處理上下文向量和真實(shí)的下一步嵌入,預(yù)測(cè)出一個(gè)后驗(yàn)分布。從這個(gè)分布中采樣一個(gè)潛變量,與上下文向量一起傳遞給預(yù)測(cè)頭,生成預(yù)測(cè)的下一步嵌入。同時(shí),模型會(huì)最小化預(yù)測(cè)的后驗(yàn)分布與標(biāo)準(zhǔn)高斯先驗(yàn)之間的KL散度。在推理階段,舍棄后驗(yàn)網(wǎng)絡(luò),直接從標(biāo)準(zhǔn)高斯分布中采樣潛變量,結(jié)合上下文向量生成下一步預(yù)測(cè)。
這種設(shè)計(jì)實(shí)質(zhì)上是學(xué)習(xí)了一個(gè)條件分布,即給定觀察到的步驟歷史,下一步的分布是什么。通過(guò)從這個(gè)分布中多次采樣,模型能夠生成多個(gè)不同但都合理的下一步預(yù)測(cè)。
![]()
指令解碼器是模型的最后一個(gè)組件,它將預(yù)測(cè)的下一步嵌入轉(zhuǎn)換為自然語(yǔ)言描述。它采用了簡(jiǎn)單但有效的LSTM架構(gòu),而不是更復(fù)雜的變換器,因?yàn)閷?shí)驗(yàn)表明LSTM在這個(gè)任務(wù)上表現(xiàn)更好。
GEPSAN的訓(xùn)練目標(biāo)結(jié)合了三個(gè)不同的損失函數(shù),以更好地捕捉下一步的概率分布,提供良好的句子解碼,并穩(wěn)定訓(xùn)練過(guò)程。條件證據(jù)下界(ELBO)是用于訓(xùn)練CVAE的主要損失,它負(fù)責(zé)捕捉與下一步預(yù)測(cè)任務(wù)相關(guān)的多模態(tài)分布。輔助目標(biāo)用于簡(jiǎn)化CVAE的訓(xùn)練過(guò)程,而句子重構(gòu)目標(biāo)則幫助指令解碼器更好地將嵌入轉(zhuǎn)換為自然語(yǔ)言。
由于帶注釋的視頻烹飪數(shù)據(jù)集規(guī)模有限,GEPSAN首先在大型文本食譜語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練。具體來(lái)說(shuō),它使用包含超過(guò)一百萬(wàn)份食譜的Recipe1M+數(shù)據(jù)集來(lái)學(xué)習(xí)程序知識(shí)。完成預(yù)訓(xùn)練后,模型可以適應(yīng)以視頻作為輸入,或者通過(guò)少量微調(diào),或者完全零樣本(無(wú)需任何調(diào)整)。
這種靈活的設(shè)計(jì)使GEPSAN能夠輕松應(yīng)對(duì)不同的輸入模態(tài),并在保持預(yù)測(cè)多樣性的同時(shí),提供高質(zhì)量的下一步預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,這種方法不僅在YouCookII數(shù)據(jù)集上建立了新的最先進(jìn)水平,而且能夠成功地從文本零樣本遷移到視頻領(lǐng)域,無(wú)需任何微調(diào)就能從視頻中產(chǎn)生高質(zhì)量的未來(lái)步驟預(yù)測(cè)。
實(shí)驗(yàn)見(jiàn)真知
![]()
GEPSAN模型的性能表現(xiàn)需要通過(guò)嚴(yán)格的實(shí)驗(yàn)來(lái)驗(yàn)證。在實(shí)驗(yàn)設(shè)計(jì)中,研究團(tuán)隊(duì)選擇了兩個(gè)主要數(shù)據(jù)集:Recipe1M+和YouCookII。Recipe1M+是一個(gè)包含超過(guò)一百萬(wàn)份食譜的大型文本數(shù)據(jù)集,用于模型的預(yù)訓(xùn)練階段;而YouCookII則是一個(gè)視頻數(shù)據(jù)集,包含2000個(gè)長(zhǎng)時(shí)間未剪輯的烹飪視頻,來(lái)自89種不同的食譜。每個(gè)視頻都附有一系列描述烹飪步驟的自然語(yǔ)言指令,以及視頻中每個(gè)步驟的開(kāi)始和結(jié)束時(shí)間標(biāo)記。
為了全面評(píng)估GEPSAN的性能,研究團(tuán)隊(duì)采用了多種評(píng)估指標(biāo)。這些指標(biāo)包括BLEU1、BLEU4和METEOR分?jǐn)?shù),它們是衡量生成文本與參考文本相似度的標(biāo)準(zhǔn)指標(biāo)。與以往研究不同,GEPSAN使用了標(biāo)準(zhǔn)的語(yǔ)料級(jí)計(jì)算方法來(lái)計(jì)算這些分?jǐn)?shù),而不是句子級(jí)分?jǐn)?shù)的平均值,這提供了更準(zhǔn)確的評(píng)估結(jié)果。
除了這些標(biāo)準(zhǔn)指標(biāo)外,研究團(tuán)隊(duì)還計(jì)算了模型在預(yù)測(cè)地面真實(shí)句子中包含的成分(ING)和動(dòng)詞(VERB)方面的召回率。這些召回率是更強(qiáng)的性能指標(biāo),因?yàn)樗鼈儚?qiáng)調(diào)的是預(yù)測(cè)動(dòng)作的多樣性,而不僅僅是句子風(fēng)格的多樣性。
GEPSAN模型的一個(gè)獨(dú)特之處在于它能夠預(yù)測(cè)多個(gè)可能的下一步驟。這與傳統(tǒng)模型只能給出單一預(yù)測(cè)形成鮮明對(duì)比。為了在多預(yù)測(cè)設(shè)置下評(píng)估模型性能,研究團(tuán)隊(duì)從k個(gè)預(yù)測(cè)中選擇與地面真實(shí)句子最接近的一個(gè)進(jìn)行評(píng)分。接近度是通過(guò)計(jì)算預(yù)測(cè)句子與地面真實(shí)句子之間的Jaccard相似度(交集與并集的比率)來(lái)確定的。
在YouCookII數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果令人印象深刻。GEPSAN在所有評(píng)估指標(biāo)上都超過(guò)了基準(zhǔn)模型,無(wú)論是在零樣本模態(tài)遷移設(shè)置還是在視頻微調(diào)設(shè)置中。特別值得注意的是,多預(yù)測(cè)版本的GEPSAN(記為GEPSAN(M))在所有指標(biāo)上都優(yōu)于單預(yù)測(cè)版本(GEPSAN(S)),這證實(shí)了捕捉任務(wù)中固有不確定性的重要性。
在未見(jiàn)過(guò)的食譜分割上,GEPSAN(M)在視頻輸入的情況下實(shí)現(xiàn)了31.6%的成分召回率和37.8%的動(dòng)詞召回率,這比基準(zhǔn)模型分別高出3.8和6.2個(gè)百分點(diǎn)。在BLEU1、BLEU4和METEOR分?jǐn)?shù)上,GEPSAN(M)也顯著優(yōu)于基準(zhǔn)模型。這些結(jié)果突顯了GEPSAN在理解烹飪過(guò)程和預(yù)測(cè)合理下一步方面的強(qiáng)大能力。
更令人驚訝的是,GEPSAN能夠在零樣本模態(tài)遷移設(shè)置中取得競(jìng)爭(zhēng)性能。這意味著模型在僅用文本數(shù)據(jù)訓(xùn)練后,能夠直接處理視頻輸入并生成高質(zhì)量的下一步預(yù)測(cè),而無(wú)需任何額外的微調(diào)。這一能力歸功于GEPSAN精心設(shè)計(jì)的架構(gòu),特別是使用了預(yù)訓(xùn)練的UniVL編碼器,它將視頻和文本映射到同一特征空間。
研究團(tuán)隊(duì)也在文本輸入情況下評(píng)估了GEPSAN的性能。正如預(yù)期的那樣,文本輸入的結(jié)果優(yōu)于視頻輸入,因?yàn)樵谶@種情況下沒(méi)有模態(tài)變化。不過(guò),微調(diào)前后的結(jié)果表明,兩個(gè)數(shù)據(jù)集的分布存在差異。總體而言,這些結(jié)果突顯了GEPSAN模型的靈活性,它能夠在零樣本設(shè)置中輕松使用文本或視頻輸入,而這是以往工作所不具備的。
研究團(tuán)隊(duì)還進(jìn)行了消融研究,評(píng)估了不同訓(xùn)練目標(biāo)的貢獻(xiàn)。結(jié)果證實(shí)了輔助損失在訓(xùn)練CVAE方面的關(guān)鍵作用,如前所述。預(yù)測(cè)損失也在提升性能方面發(fā)揮了重要作用。值得注意的是,移除KL散度會(huì)導(dǎo)致模型發(fā)散。盡管重構(gòu)損失似乎對(duì)模型貢獻(xiàn)不大,但研究團(tuán)隊(duì)注意到它在訓(xùn)練早期階段起到了重要作用,有助于更快更平穩(wěn)的收斂。
此外,研究團(tuán)隊(duì)還比較了Recipe1M+預(yù)訓(xùn)練階段的性能。在單預(yù)測(cè)設(shè)置下,GEPSAN的表現(xiàn)與基準(zhǔn)相當(dāng)或略遜,這表明在大型文本數(shù)據(jù)集上訓(xùn)練時(shí),從頭學(xué)習(xí)文本編碼器可能比使用預(yù)訓(xùn)練的UniVL編碼器更有益(盡管在視頻測(cè)試中情況相反)。然而,即使使用次優(yōu)的文本編碼器,GEPSAN在多預(yù)測(cè)設(shè)置下也優(yōu)于基準(zhǔn),這表明該模型能夠在這種設(shè)置下捕捉任務(wù)的多模態(tài)特性。值得注意的是,如果直接在YouCookII上從頭訓(xùn)練模型,性能會(huì)大幅下降,這表明了在視頻領(lǐng)域數(shù)據(jù)稀缺的情況下,預(yù)訓(xùn)練階段的重要性,以及在如此小的數(shù)據(jù)集上訓(xùn)練生成模型的難度。
預(yù)測(cè)新可能
![]()
GEPSAN模型最大的亮點(diǎn)在于它能夠生成多種合理的未來(lái)步驟預(yù)測(cè)。這種能力在定性結(jié)果分析中得到了充分展示。研究團(tuán)隊(duì)提供了幾個(gè)示例,展示了GEPSAN在視頻輸入情況下的零樣本模態(tài)遷移性能,無(wú)需任何微調(diào)。
例如,在一個(gè)烹飪視頻序列中,模型觀察到前幾個(gè)步驟后,能夠生成多個(gè)合理的下一步預(yù)測(cè)。這些預(yù)測(cè)不僅在語(yǔ)義上多樣化,而且都是在當(dāng)前烹飪情境下合理的選擇。比如,在一個(gè)制作辣椒的視頻中,當(dāng)觀察到"取2個(gè)辣椒和1個(gè)青椒,取出種子并切成兩半"和"在烤箱中以400度烤30分鐘"等步驟后,GEPSAN能夠預(yù)測(cè)多個(gè)可能的下一步,如"在辣椒烤的時(shí)候,準(zhǔn)備莎莎醬"或"辣椒應(yīng)該變軟,皮應(yīng)該變焦"。
這種多樣化預(yù)測(cè)的能力對(duì)于實(shí)際應(yīng)用非常有價(jià)值。想象一個(gè)烹飪AI助手,它不僅能夠識(shí)別用戶當(dāng)前正在執(zhí)行的步驟,還能預(yù)測(cè)多個(gè)可能的下一步。這樣,無(wú)論用戶選擇哪條路徑繼續(xù)烹飪,助手都能提供相關(guān)的支持和建議。
研究團(tuán)隊(duì)還分析了不同訓(xùn)練目標(biāo)組件對(duì)模型性能的貢獻(xiàn)。結(jié)果表明,輔助損失在訓(xùn)練條件變分自編碼器(CVAE)方面起到了關(guān)鍵作用。這個(gè)損失函數(shù)促使CVAE重構(gòu)下一步的嵌入表示,簡(jiǎn)化了句子解碼過(guò)程。預(yù)測(cè)損失也在提升性能方面發(fā)揮了重要作用,特別是在捕捉下一步分布的多樣性方面。
KL散度是另一個(gè)關(guān)鍵組件,如果移除它,模型會(huì)出現(xiàn)發(fā)散現(xiàn)象,無(wú)法有效訓(xùn)練。雖然重構(gòu)損失在最終訓(xùn)練結(jié)果中的貢獻(xiàn)看似不大,但研究團(tuán)隊(duì)注意到,它在訓(xùn)練早期階段起到了穩(wěn)定作用,有助于更快更平穩(wěn)的收斂。
預(yù)訓(xùn)練階段的重要性也得到了明確驗(yàn)證。如果直接在規(guī)模有限的YouCookII數(shù)據(jù)集上從頭訓(xùn)練模型,性能會(huì)大幅下降。這表明在視頻領(lǐng)域數(shù)據(jù)稀缺的情況下,利用大型文本數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練是至關(guān)重要的。這種"先文本后視頻"的訓(xùn)練策略使GEPSAN能夠有效克服視頻注釋數(shù)據(jù)不足的問(wèn)題。
GEPSAN模型在多預(yù)測(cè)設(shè)置下的卓越表現(xiàn)證明了捕捉任務(wù)中固有不確定性的重要性。傳統(tǒng)的單預(yù)測(cè)模型往往會(huì)產(chǎn)生"平均化"的預(yù)測(cè),這些預(yù)測(cè)可能在技術(shù)上是合理的,但缺乏特定性和實(shí)用性。相比之下,GEPSAN通過(guò)生成多個(gè)具體且多樣化的預(yù)測(cè),更好地反映了現(xiàn)實(shí)世界中烹飪步驟的多樣性。
未來(lái)研究方向可能包括進(jìn)一步提升預(yù)測(cè)的多樣性和質(zhì)量,擴(kuò)展到更復(fù)雜的程序性任務(wù),以及開(kāi)發(fā)更適合評(píng)估多樣化預(yù)測(cè)的數(shù)據(jù)集和指標(biāo)。目前的評(píng)估方法主要基于與單一地面真實(shí)值的比較,這在本質(zhì)上限制了對(duì)多樣化預(yù)測(cè)質(zhì)量的全面評(píng)估。創(chuàng)建包含多個(gè)合理地面真實(shí)值的數(shù)據(jù)集將有助于更準(zhǔn)確地評(píng)估這類模型。
GEPSAN的成功為未來(lái)的步驟預(yù)測(cè)研究開(kāi)辟了新的方向。它表明,在開(kāi)放世界的下一步預(yù)測(cè)中,自動(dòng)考慮多種可能的未來(lái)實(shí)現(xiàn)是一個(gè)有前途的方向。這種方法不僅提高了預(yù)測(cè)的質(zhì)量和實(shí)用性,還更好地符合了現(xiàn)實(shí)世界中任務(wù)的多樣性和不確定性特性。
參考資料
Abdelslam, M. A., Rangrej, S. B., Hadji, I., Dvornik, N., Derpanis, K. G., &; Fazly, A. (2022). GEPSAN: Generative Procedure Step Anticipation in Cooking Videos. International Conference on Computer Vision (ICCV).
Sener, F., &; Yao, A. (2019). Zero-shot anticipation for instructional activities. In Proceedings of the IEEE/CVF International Conference on Computer Vision.
Liu, Y., Albanie, S., Nagrani, A., &; Zisserman, A. (2019). Use what you have: Video retrieval using representations from collaborative experts. In British Machine Vision Conference.
Zhou, L., Xu, C., &; Corso, J. J. (2018). Towards automatic learning of procedures from web instructional videos. In Thirty-Second AAAI Conference on Artificial Intelligence.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.