這是蒼何的第 468 篇原創!
大家好,我是熱愛編程的蒼何。
去年底的時候,我寫過 2 篇 AI 漫劇的文章,感興趣的還挺多的。
![]()
也認識了非常多做 AI 漫劇的朋友,我們武漢 AI 圈也舉辦了 AI 漫劇沙龍,來了超級多的感興趣的圈友。
![]()
聽了很多的干貨分享,當時腦海中只想快速上手來做漫劇。
但我看了很多的平臺目前還只能在電腦 web 上操作,手機隨時創作我還沒找到什么好的 APP。
當時就有一股沖動,要不自己來嘗試搞一個?當我和老婆說這個想法的時候,她說我一定瘋了。
為了證明我不是瘋子,我還是咬牙決定嘗試,畢竟不留遺憾才是我的人生主旋律。
耗時 8 天,今天終于可以拿出來和大家分享了,一個可以在手機端創建漫劇的 app,我給它起名叫做漫導,沒錯就是這么通俗易懂;制作漫劇的導演。
![]()
它能根據靈感一句話創建劇本、角色、場景,然后自動生成分鏡圖片和分鏡視頻,最后根據分鏡視頻來合成一個完整的漫劇視頻。
我錄了個視頻給大家做個展示:
8 天時間出來一個 AI 漫劇 APP 的 MVP 版本(這其中還不包括元旦放假 3 天),我自己已經相當滿意了,人物一致性已經完成的很高了
最后說一下聲音為啥不是中文,抱歉還沒來得及約束。忍不住想分享了。
而且你可能想象不到的是,整個 APP 的開發,我用的是最近很火的智譜的 GLM 4.7 模型。
![]()
你看我的 token 消耗量,這里面包含了兩部分,一部分是開發 app 使用的量,一部分是使用 app 規劃劇本使用的量。說實話沒想到這么多。
再看看賬單。
![]()
沒錯 20RMB。哦對了,我還在他們搞活動的時候薅了一杯奶茶。有點大薅特薅的感覺;
![]()
我已經把這個 AI 漫劇 APP 開源了,后面也希望有更多的開發者參與到我們的共建中來。
開源地址(求 star):https://github.com/freestylefly/director_ai
![]()
這一篇文章呢,我主要是想和你分享一下我的開發歷程,也順帶來拷打 GLM 4.7 進行 AI Coding 的能力邊界。
我總結了一下大概的流程是這樣子的:

其中,我比較關心的是人物一致性解決方案:
![]()
在對應場景的配置默認是給了 7 個,角色是給了 2 個,然后這些我都設置成可配置的了。
![]()
下面分享下我的開發歷程,可能會顯得文章會有些長,建議點贊收藏,轉發給需要的朋友
工具選擇
這次的任務有點重,工具選擇很重要,終端的話就選最近全網又在噴火的 Claude Code,模型用智譜 GLM 4.7。
幾方面考慮,一個是能力,一個是價格。
能力側,先來看一張時間取自于 2025 年 12 月 22日的模型榜單圖,可以看到和 Claude Opus 4.5 打的有來有回。
![]()
再看看最關心的價格,這是 Claude 的:
![]()
這個是 GLM Coding 的套餐,不想說啥了,沒有對比就沒有傷害啊。
![]()
雖然我看了非常多網上的測評,但一開始對 GLM 4.7 做漫劇 APP 這件事,本身是抱有懷疑態度的,后面證明,他真的行,而且超出了我的預期。
開發歷程
首先直接編寫提示詞告知要做什么,這個很重要。
提示詞:現在幫我編寫一個安卓軟件,用途是制作AI 漫劇,和用戶對話的方式來了解用戶想制作什么樣子的漫劇,對話大模型使用的是 glm 4.7,相關的接口文檔都保存在這個目錄下面
director_ai/docs/圖像生成API接口文檔.md
director_ai/docs/視頻處理全集.md
這里的接口文檔是我去網站上下載來了的。![]()
Claude Code 像打了雞血一樣,吭哧吭哧的干貨。
![]()
這里最好給 GLM 4.7 規劃下架構,防止跑偏:
提示詞:
核心技術棧推薦
為了最快速度出原型(MVP)且適配安卓:
開發工具 (IDE/Agent): Claude Code (基于 CLI 的全能編程助手)。
前端框架: Flutter (Dart)。
理由: Claude 對 Flutter 代碼生成的準確度極高,且 Flutter 開發安卓應用速度快、UI 效果好,能夠輕松處理異步網絡請求(API 調用)。
核心大腦: GLM-4.7 (通過 API 調用)。
理由: 負責理解用戶意圖,拆解步驟,輸出 JSON 格式的指令。多模態接口: tu-zi.com (你提供的 Gemini 繪圖 + Veo 視頻接口)。
架構設計這里我采用 ReAct 模式 (Reasoning + Acting):
架構設計:ReAct 模式 (Reasoning + Acting)
為了凸顯 GLM-4.7 的規劃能力,不能把代碼寫死(硬編碼)。我們需要實現一個簡單的 ReAct (Reason-Act) 循環。
流程邏輯:
用戶輸入: "幫我做一個熊貓吃竹子的視頻,要可愛的風格。"
GLM-4.7 (規劃層): 思考并輸出:"我需要先生成文案,然后生成圖片,最后生成視頻。" -> 輸出第一個工具調用指令。
App (執行層): 解析指令,調用繪圖 API。
App (反饋層): 將圖片 URL 喂回給 GLM-4.7。
GLM-4.7 (規劃層): "收到圖片,現在調用視頻生成接口。"App (執行層): 調用 Veo 視頻接口。
小白不用管,就是一蹲亂七八糟的基礎搭建,我一路yes 就行。本身我也不懂 App 開發,此時我選擇相信 GLM 4.7;
接下來解釋 Coding 時刻,大概用了十分鐘,一個由零到一的 APP 雛形誕生了,這是使用的 token 量。
![]()
電腦調試啟動那一刻我驚呆了。真的出來了,看看界面,美學也還很不錯。
![]()
聊天框,正常的 ai 聊天,居然還支持了相機圖片上傳牛掰,UI 界面簡約,正和我心意,還細心的加了了彩色邊框,真的是完全可用啊。
還貼心的加上了對話記錄:
![]()
666 想的真周到
接著試試生成視頻的功能怎么樣?
最近喜歡吃草莓蛋糕,那就生成一個“做草莓蛋糕的視頻”:
prompt: 生成一個小姐姐做草莓蛋糕的視頻 可以看到漫導 APP 先會創建劇本:
![]()
很快就生成了劇本:
![]()
接著是生成角色圖,能生成人物三視圖,我們都知道漫劇最難的就是人物一致性,確定主角的三視圖,貫穿整個劇本主角。
![]()
太細節了還有情感鉤子:
![]()
要是用這個寫個霸道總裁愛上我的故事也不錯吧,哈哈哈哈。
接下來看看具體的場景:
![]()
展開一個場景看看它是怎么規劃的:
![]()
好的現在確認劇本,回到頁面看到直接有任務在執行:
![]()
看了流程后不得不感嘆,真兒把老己當成導演了;
先生成不同的場景,每個根據有前面主角的三視圖和提示詞生成的分鏡圖,再由分鏡圖和視頻提示詞生成分鏡視頻。有點導演味道了。
看看具體的場景分鏡是怎么規劃的:
![]()
確實可以,視頻提示詞部分,規劃了主角的言語和鏡頭方式。
![]()
不用擔心失敗,還會重試,這個大概就是有些視頻 api 會觸發公共安全,會失敗任務,此時 GLM 4.7 會根據提示弱化提示詞,我看了一下日志大概是這樣.
suspension> [ ] I/flutter ( 3052): ? [22:55:29] [場景重試] 場景 1 重試失敗: Exception: 視頻生成失敗: {code: generation_failed, message: check status failed:
{"name":"c39408d4117fcedb3a89153dc5006a7904","error":{"code":3,"message":"PUBLIC_ERROR_AUDIO_FILTERED"}}}
場景1重試失敗的根本原因是PUBLIC_ERROR_AUDIO_FILTERED(音頻被過濾)——平臺審核判定你場景1提示詞中的語音/音效描述違規,直接攔截了音頻生成,進而導致整個視頻生成流程終止(和畫面描述無關,只卡音頻環節)。
最終確定場景1最終合規版提示詞(徹底規避音頻過濾):
Anime style, manga art, 2D animation, cel shaded.
Soft wide shot with gentle slow pan to the right, gradually revealing a tidy kitchen counter and fresh ingredients. A 17-year-old Japanese girl (anime style, Asian features) arranges eggs and flour softly on the counter, turns to the camera with a gentle warm smile, and says "今天要做個草莓蛋糕" in a soft warm tone (female voice, quiet whisper, low volume, calm mild speech).
Warm soft gentle lighting, peaceful and cozy kitchen atmosphere, no loud sounds, only soft gentle voice.然后基本上出錯后,再讓 Claude Code 配合 GLM 4.7,不斷調整,最終出來了,我們想要的效果。
如果非要較真,漫導 APP 和實際上的 AI 漫劇還有點距離,但可以想象通過多次的迭代和優化,一定可以更好。
要知道,這個 APP 實際耗時還沒到 5 天啊,這放在以前,就這 MVP 版本,沒個把星期開發不出來。
同時也驗證了一個觀點,現在 AI Coding,真的并非 Claude 不可,不給用還死貴,但凡有像 GLM 4.7 這樣高性價比的模型取代,誰還用 Claude 啊?
這個 APP,我已經開源到 GitHub 了,你可以加上自己的 API,按照教程來玩一玩。
當然了如果你是開發者或者 AI Coder,歡迎來 PR,把他做好。
好啦,謝謝你看我的文章,如果喜歡可以點贊轉發給需要的朋友,我們下一期再見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.