![]()
「還會地域黑,冊那」
在一文中,我首次建設性地提出:
「MinMax應該研發胖貓Agent,早日完成胖貓視頻工作流閉環,讓胖貓博主實現麥當勞自由。」
沒想到一個月后,一個東北小伙@jiaming,就率先開發出了全球首個胖貓視頻Agent——CrePal。
CrePal主打賣點是一站式搞定AI視頻制作。
它有一個主Agent來做任務調度,下邊有腳本策劃、圖片生成、視頻生成、視頻剪輯這四個子Agent。子Agent里邊集成了主要的圖片、音頻和視頻生成模型,包括Midjourney、GPT-Image、Google Imagen、Suno、海螺、可靈、即夢、Pixverse、Veo 3。
(文章最后,@jiaming挨個銳評了這些模型的優劣)
我打開CrePal網站的的第一反應是,這不就是我設想中的胖貓Agent?
這是我拿CrePal生成的胖貓視頻。
配樂整挺文藝,動畫比胖貓博主有創意,整出一種三毛流浪記的感覺了。
蘇北青年胖貓好不容易攢錢來上海旅游,外灘熙熙攘攘,胖貓饑腸轆轆。胖貓沒去過星巴克,更買不起意大利手工冰淇淋,好不容易看到一家熟悉的蜜雪冰城,依靠外灘欄桿,眺望陸家嘴繁華景色,喝一口大杯全糖少冰只要9塊錢的三拼霸霸奶茶,還沒來得及發出一聲滿足的嘆息。
東方明珠塔直接紅溫、蓄力,一圈圈蓄能光環接連升起,一道帶著正統巨富長chill之力的紅寶石激光精準射爆胖貓手中的奶茶杯,可憐的胖貓啊,直接被沖擊波打到飛起,一直飛到大氣層仰望銀河系
上述是我腦補的,實際上我只給CrePal輸入了一段話,同時附上了MiniMax官方制作的胖貓視頻 https://v.douyin.com/aFi7mOJgJHw/ 。
![]()
雖然我對這條胖貓視頻很滿意,但是有一說一。CrePal剛發布十幾天,工程能力還不太穩定。這條視頻沒有一次性成功,是開發者手動發給我的(@jiaming
jiaming對胖貓這個創意很滿意,他自己又生成了幾條胖貓視頻。其中一條,胖貓甚至會自己說「冊那」。
冊那,CrePal怎么會說上海話的?居然是飽受地域黑的東北老鄉造出了全球首個自己學會地域黑的視頻Agent
這一周里,我拿CrePal進行了11次任務,其中9次任務都一次性成功生成了視頻。
兩次失敗的任務,一個是胖貓喝奶茶這個,另一個是我輸入了一條實拍視頻,想要調整一下人物膚色。但CrePal只支持生成內容,并不考慮修改實拍視頻。
jiaming解釋CrePal的定位是,讓普通用戶也能輕松創作出高質量的 AI 視頻。他的目標用戶非常明確,就是想做AI視頻的自媒體。比如說胖貓博主、拿Veo 3做ASMR視頻的博主。
你簡要描述自己的想法,CrePal會據此寫腳本,然后根據腳本畫分鏡圖,再用分鏡圖生成視頻片段,同時生成配音配樂,最后將素材剪輯成片。
用戶不需要再切換幾個模型平臺,學習若干prompt寫法。Agent就可以解決流程調度問題。
這確實滿足了我想做胖貓博主的夢想。我拿CrePal做了7條胖貓視頻。
最近AI視頻屆最火的梗,無過于秦始皇騎北極熊。我守正出奇,大力創新,直接讓秦始皇騎胖貓。
這個「畫離弦」BGM是我自己上傳給CrePal的 MP3文件。
CrePal的配音、配樂能力比較初級,可以根據你輸入視頻的音色合成配音,但這個定制配音只能朗讀,不能唱歌。 CrePal只能拿Suno生成配樂,或者使用你自己上傳的配樂。
比如,我想要讓胖貓使用上傳的音樂旋律 唱歌, 歌詞是「胖貓騎著秦始皇,秦始皇也要騎胖貓」。但這做不到,CrePal只能重新生成一段BGM,然后讓胖貓用陰陽怪氣的童聲朗讀歌詞。
我還碰到了一次人物不一致。生成東北雨姐騎胖貓的視頻,我上傳了雨姐照片要求參考形象,但CrePal生成的雨姐長得完全不像,而且兩個視頻片段的雨姐形象不一致。
為了解決人物一致性問題,CrePal用了先統一生成人物形象,再將人物形象作為首幀圖來生成視頻片段的辦法。但依然偶爾會出錯。
![]()
雖然有一些小問題,但CrePal已經完成了我的胖貓博主夢想。
CrePal生成的胖貓視頻,創意和畫面豐富程度都遠超專業胖貓博主。全球首個胖貓視頻Agent,CrePal當之無愧
一些小問題也很好解決。比如CrePal無法跟著旋律唱歌詞。MiniMax的海螺AI就能干這個事啊,胖貓博主都是拿海螺AI生成的「秦始皇騎北極熊」歌曲。
我鄭重建議MiniMax,盡快與CrePal合作,用海螺AI的語音生成能力聯手CrePal的視頻制作調度能力,共同賦能全球首個胖貓視頻Agent。
當然,CrePal也能做正經視頻。
我指定它調用Veo 3,生成胖貓切漢堡的ASMR視頻,一次性生成的質量還可以。雖然切漢堡后的畫面不符合物理規律,但這是模型的問題,只能多生成幾次抽卡來解決。
這一周測試下來,我拿CrePal生成了10條視頻。
我的第一感覺是視頻生成太貴了。CrePal注冊送500積分,我充了19美元的月費會員,有2000積分,jiaming又送了我3000積分。10條短視頻下來,基本用完了。
CrePal生成一條視頻的成本大概是2-3美元,我問jiaming會員定價19美元能不能掙錢。
東北老鄉很坦誠,說上線不到一個月,還算不出來能不能掙錢。(反觀上線十幾天就敢算ARR的)
最后,我讓jiaming挨個銳評了主要的圖片、視頻生成模型,給大伙貢獻一點創業試出來的know how。
Midjourney:在寫實細節的把控力上非常好,特別適合做寫實類人像或夢核類的圖片,而且人臉保持性也做得比較好,比如想做個劉亦菲的圖,它就能把臉比較還原地保持下來。
GPT-Image:目前最好的可以基于多圖參考來做圖的模型,所以它可以很好地把人物形象和場景融合到一起,并且保持好兩者的一致性。
Google Imagen:性價比高,做一些場景圖的效果還不錯。
Veo 3:很強,強于其他所有模型。在預算充足的情況下,建議所有人都直接用 Veo 3 搞,但它也確實比較貴,谷歌官方定價8秒鐘就要6美金。
海螺:特點很明顯,做運動類的鏡頭比較符合物理規律。比如做人物跑步、打架的素材,它的穩定性比較強。(咸魚補充,海螺是胖貓視頻開創者)
可靈:中規中矩,沒有特別強的專長,什么都挺好,穩定性好,瑕疵率也比較低。價格不算貴,也能用得起。如果希望穩定出貨,不想來回調,那就選可靈,基本能一次成。
即夢:最大的亮點就是便宜和快。除了便宜,它對風格化內容的理解和保持也做得比較好,能讓水墨風的圖動態地動起來。但它的問題也比較明顯,就是容易出物理性的 bug,比如跑著步就飛天上去了。
Pixverse:可靈 2.1 平替。
(本文配圖由CrePal生成,Gemini 2.5 Pro輔助寫作。)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.