網易首頁 > 網易號 > 正文申請入駐

通用大模型寫不好分鏡腳本，所以我決定自己精調一個

2026-03-28 10:09:36　來源: 人人都是產品經理社區

廣東舉報

分享至

從鏡頭語言缺失到格式混亂，作者親歷從選模型、造數據到效果優化的完整閉環，用開源模型+高質量數據突破Prompt Engineering天花板，帶你看懂如何讓AI真正學會用鏡頭講故事。

———— / BEGIN / ————

這期就來聊一個很多產品經理都聽過、但大部分人不太敢碰的話題：模型精調（Fine-tuning）。

我會從”為什么要精調”講起，聊聊我從選模型、造數據到踩坑的整個過程。這篇先把全貌拉通，后面幾期會挑其中幾個點單獨展開深聊。

通用大模型到底差在哪？

在做精調之前，我其實已經用通用大模型（比如 GPT-4、Claude、通義千問）跑了很長一段時間。

效果怎么說呢？”能用，但不好用。”

具體來說，通用大模型在寫分鏡腳本這件事上，有幾個讓我非常頭疼的問題。

第一，分鏡拆分的”鏡頭感”很弱

一個好的分鏡腳本，本質上是在用文字做”導演”的活——什么時候該給遠景交代環境，什么時候該切特寫強化情緒，什么時候需要一個中景來交代人物關系。這種鏡頭語言的節奏感，通用模型幾乎沒有。

它會把故事均勻地切成 N 段，每段的”鏡頭”基本都是中景。沒有遠近交替，沒有情緒起伏，讀起來像流水賬。

舉個例子，我輸入”一個女生下雨天在便利店遇到了初戀”，通用模型的輸出大致是這樣的：

畫面1：女生走在雨中的街道上。

畫面2：女生走進便利店。

畫面3：女生在貨架前看到一個熟悉的身影。

畫面4：兩人對視。畫面5：兩人開始交談。

每一個畫面都是平鋪直敘，沒有鏡頭設計。而一個有經驗的分鏡編劇可能會這樣處理：

分鏡1 | 遠景：雨幕中的便利店，暖黃色燈光從玻璃門透出，一個撐傘的女生身影正朝著光走來。

分鏡2 | 特寫：女生的手合上雨傘，水珠順著傘面滑落，指尖微微發紅。

分鏡3 | 過肩鏡頭：女生穿過貨架時，鏡頭越過她的肩膀，捕捉到三排貨架之外、一個男生側臉的輪廓。

分鏡4 | 雙人中景：兩人隔著一排飲料貨架對視，女生手里的關東煮冒著熱氣，虛化的背景是便利店的日光燈。

差距一目了然。前者是”把故事切成幾段”，后者是”用鏡頭講故事”。

第二，畫面描述不夠”生圖友好”

分鏡腳本的最終用途是喂給 AI 生圖工具。這意味著畫面描述必須足夠具體、足夠視覺化——你不能寫”兩個人在聊天”，你需要寫出人物的姿態、表情、穿著、光線、構圖方式。

通用模型寫出來的東西，常常太抽象、太文學化，讀起來像小說，但放到 Stable Diffusion 或者 Midjourney 里生不出想要的畫面。

第三，輸出格式不穩定

我需要模型輸出結構化的分鏡腳本——包含鏡頭編號、景別、場景描述、畫面描述、旁白文案等字段。

通用模型有時候格式對，有時候又開始自由發揮，加一些不需要的解釋性文字，或者把字段順序搞亂。這對下游的自動化處理是致命的。

這三個問題疊加在一起，讓我意識到一件事：靠 Prompt Engineering 能解決 70% 的問題，但剩下的 30% 是通用模型的能力邊界，prompt 寫得再好也過不去。

這就是我決定做精調的原因。

什么是精調？先把概念講清楚

“精調”這個詞在 AI 圈子里被用得很泛，我先給產品經理們做一個通俗但準確的解釋。

你可以把一個預訓練好的大模型想象成一個剛從綜合大學畢業的新員工。他什么都懂一點——能寫文章、能翻譯、能寫代碼、能聊天——但在任何一個專業領域都不夠精。

精調就是給這個新員工做崗前培訓。

你不需要從頭教他認字、學語法，那些通識能力他已經有了。你要做的是給他看大量的”好例子”——在我這個場景下，就是大量優秀的分鏡腳本——讓他學會：原來分鏡腳本應該這樣寫，鏡頭應該這樣切，畫面應該描述到這個粒度。

從技術上說，精調就是在一個已有的大模型基礎上，用你自己的專業數據集繼續訓練，讓模型在你的特定任務上表現得更好。

這里有幾個關鍵詞需要區分：

預訓練（Pre-training）是從零開始訓練一個模型，需要海量數據和算力，花費數百萬甚至上億美元。這不是我們要干的事。
精調（Fine-tuning）是在已有模型基礎上，用少量專業數據做進一步訓練。成本低得多，幾百到幾千條數據就可以看到效果。
Prompt Engineering 是不改模型本身，只通過設計輸入提示詞來引導模型輸出。零成本，但有天花板。

三者的關系可以這樣理解：Prompt Engineering 是”跟員工說清楚需求”，精調是”培訓員工”，預訓練是”培養一個新人”。大多數情況下你應該先試 Prompt Engineering，不夠了再考慮精調。

選擇基座模型：我是怎么做決定的

精調的第一步是選擇一個基座模型（Base Model）——也就是你要在誰的基礎上繼續訓練。

我最終選擇的是開源模型路線。原因很現實：

成本可控。閉源模型的精調（比如 OpenAI 的 Fine-tuning API）雖然用起來簡單，但按 token 計費，數據量一上去費用不低。而且每次調參都要燒錢，不適合反復實驗。開源模型你可以本地跑（如果有卡的話），或者用云端 GPU 按時計費，整體靈活得多。
可控程度高。開源模型能讓你深入到訓練的每一個環節——學習率、訓練輪數、數據配比……你能精確控制整個過程。閉源 API 精調更像一個黑箱，你把數據傳上去，它給你一個模型，中間發生了什么你不太知道。
迭代效率高。做精調不是一次就能成的，你需要反復調整數據、參數、評估效果、再調整。開源模型讓你能快速跑實驗，一天可以試好幾個版本。

在具體選哪個開源模型上，我對比了幾個主流選項：

Qwen（通義千問）系列是阿里開源的模型，中文能力強，社區活躍，文檔完善。對中文分鏡腳本這種場景來說，天然的中文理解能力是很大的加分項。
GLM（智譜）系列也是國內團隊出的，中文表現同樣不錯，工具鏈比較成熟。
LLaMA（Meta）系列是目前全球最流行的開源模型之一，生態最豐富，各種精調工具和教程都是基于它做的。但它原生是英文模型，中文能力需要額外適配。

我最終的選擇邏輯是：先看中文能力，再看生態和工具鏈。因為我的場景是生成中文分鏡腳本，模型對中文的理解能力是第一優先級。如果一個模型中文都說不好，你精調再多數據也很難讓它寫出好的中文描述。

具體選了哪個、為什么、中間怎么評估的，這個話題展開來能聊很多，我打算后面單獨寫一篇詳細講。

訓練數據：精調的成敗關鍵

做過精調的人都知道一句話：數據質量決定精調效果的 80%。

模型的基礎能力已經很強了，精調不是在教它”學會說話”，而是在教它”怎么說這種話”。你給它看的示例，直接決定了它學會的”說話方式”。

這就帶來一個很現實的問題：高質量的分鏡腳本數據從哪來？

市面上并沒有一個現成的”分鏡腳本數據集”可以直接拿來用。你搜不到的。短視頻行業雖然體量巨大，但分鏡腳本這種東西要么是內部文件不對外，要么質量參差不齊。

所以我走的是自己構造數據的路線。

大致的思路是這樣的：

第一步：建立”好腳本”的標準。在造數據之前，你得先定義清楚什么是好的分鏡腳本。我從鏡頭設計、畫面描述精度、敘事節奏、格式規范這幾個維度列了一套評價標準。這一步很多人會跳過，但其實它決定了你后續所有數據的質量上限。
第二步：用”人工 + AI”的方式批量生產。純手寫效率太低，純 AI 生成質量不夠。我的做法是先用一個強模型（比如 Claude 或 GPT-4）根據我設定的規則生成初稿，然后人工逐條檢查、修改、篩選。通過的留下，不通過的要么修改要么扔掉。
第三步：多樣性比數量重要。我發現一個反直覺的規律——500 條覆蓋不同故事類型、不同情緒、不同鏡頭風格的數據，效果遠好于 2000 條同質化的數據。模型需要的是”豐富的好例子”，不是”大量重復的例子”。
第四步：數據格式要嚴格。精調數據本質上是一組”輸入-輸出”的配對。輸入是用戶的一句話描述，輸出是完整的分鏡腳本。格式必須統一且嚴謹，任何格式不一致都會讓模型學到”錯誤的習慣”。

這套數據構造的方法論，我后面會單獨寫一篇展開講，包括具體怎么設計 prompt 讓 AI 生成高質量初稿、人工審核的 checklist 長什么樣、數據量和效果之間的關系曲線等等。

精調前 vs 精調后：效果對比

說了這么多，最實在的還是效果。

同樣的輸入：”一個退休教師收到學生們寫的一封信”，來對比一下精調前后的輸出差異。

精調前（通用模型 + Prompt Engineering）：

畫面1：一位老人坐在家中的沙發上。

畫面2：門鈴響了，老人去開門。

畫面3：門口放著一封信。

畫面4：老人打開信，開始閱讀。

畫面5：老人的眼眶濕潤了。

畫面6：老人看著窗外，陷入回憶。

精調后：

分鏡 1 | 遠景 | 客廳午后的陽光透過紗簾灑進一間樸素的客廳，墻上掛著幾張泛黃的班級合照。一位頭發花白的老人坐在木質搖椅上，膝蓋上攤著一本翻了一半的書，眼鏡滑到了鼻尖。旁白：退休第三年，日子像那本書一樣，翻到哪頁都差不多。

分鏡 2 | 中景 | 玄關老人站在門口，低頭看著腳邊的一個牛皮紙信封。信封上沒有寄件人地址，只有用黑色馬克筆寫的三個字——”周老師”。老人彎腰撿起信封，手指在封口處停頓了一下。旁白：這個稱呼，我已經很久沒有聽到了。

分鏡 3 | 特寫 | 手部一雙布滿皺紋的手緩緩展開信紙，紙上密密麻麻的字跡——有工整的鋼筆字，也有歪歪扭扭的圓珠筆字，有些段落旁邊還畫著小表情。陽光照在紙面上，映出不同顏色墨水的深淺。旁白：二十七個人的筆跡，我居然每一個都還認得出來。

分鏡 4 | 近景 | 面部老人的臉部特寫，眼鏡片后面泛著淚光，但嘴角是往上揚的。背景虛化成一片暖黃色的光斑。旁白：（無，留白）

差異體現在幾個層面：

鏡頭設計上，精調后的版本有明確的遠景→中景→特寫→近景的遞進關系，而不是六個平行的”中景”。
畫面描述上，精調后每個畫面都有足夠的視覺細節——”牛皮紙信封””黑色馬克筆””不同顏色墨水的深淺”——這些細節是生圖工具需要的”燃料”。
敘事節奏上，精調后懂得用”留白”制造情緒——最后一個分鏡旁白留空，讓畫面本身說話。這種”導演式”的思維，是通用模型學不會的。
格式上，精調后的輸出嚴格遵循”鏡頭編號 | 景別 | 場景”的結構，不會出現格式混亂的問題。

精調過程中踩過的坑

精調聽起來很美好，但實際操作中坑不少。這里先分享幾個最典型的，后續會單獨寫一篇完整的”踩坑指南”。

坑一：數據太少，模型過擬合。

一開始我只準備了不到 100 條數據就開始訓練，結果模型確實”學會了”——但學得太死了。它開始逐字復制訓練數據里的描述，換個輸入還是那幾句話的變體。

這就是過擬合：模型不是在”理解”規律，而是在”背”答案。

解決辦法很簡單也很痛苦：補數據，增加多樣性。

坑二：學習率設太高，把模型”教廢了”。

精調的學習率（Learning Rate）如果設太高，模型會在你的小數據集上”劇烈震蕩”，反而把原來會的東西也忘了。

有一次我設了一個偏高的學習率，結果模型連正常對話都不會了，只會輸出分鏡腳本格式的內容——你問它今天天氣怎么樣，它也給你一個”分鏡1 | 遠景 | 天空”。

坑三：評估標準不清晰，調了半天不知道有沒有進步。

精調不像分類任務有一個明確的準確率指標。分鏡腳本的”好”和”不好”很多時候是主觀判斷。一開始我沒有建立清晰的評估體系，每次訓練完都是憑感覺看效果，結果經常出現”好像比上次好了？又好像沒有？”的迷茫。

后來我建了一套評測集——固定 30 個輸入，每次訓練完跑一遍，從鏡頭多樣性、描述精度、格式準確率、敘事流暢度四個維度打分。有了量化標準之后，迭代效率立刻上了一個臺階。

給產品經理的幾點建議

寫到這里，我想給正在看的產品經理們幾點實際建議：

第一，不要一上來就想著精調

Prompt Engineering 能解決的問題，就不要動精調。精調的時間成本和技術門檻遠高于寫 prompt。

先把 prompt 優化到極致，確認確實過不去了，再考慮精調。

第二，精調的核心不是”訓練技術”，而是”數據質量”

很多人覺得精調很難，其實訓練本身有大量現成的工具和教程，門檻沒那么高。

真正難的是構造出高質量的訓練數據。如果你的數據質量不行，用再好的訓練框架也白搭。

第三，精調不是一錘子買賣

不要期望一次精調就得到完美的模型。它是一個”數據→訓練→評估→改數據→再訓練”的循環過程。建立清晰的評估標準、保持快速迭代的能力，比追求一步到位重要得多。

第四，開源模型的門檻在降低

兩年前做精調可能確實需要比較強的技術背景，但現在有大量的工具（像 LLaMA-Factory、Swift 等）把流程簡化了很多。

產品經理未必需要自己動手，但至少應該理解這個過程，這樣和技術團隊溝通時才能做出合理的判斷。

本文來自作者：zNONOz

想要第一時間了解行業動態、面試技巧、商業知識等等等？加入產品經理進化營，跟優秀的產品人一起交流成長！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.