網易首頁 > 網易號 > 正文申請入駐

Claude把3周課程拆成47天，本地模型卻塞進了12個工具

2026-04-06 18:26:27　來源: 像素與芯片

北京舉報

分享至

7264字。這是Claude（云端大語言模型）和本地LLM（本地大語言模型）各自輸出的UX研究自學課程字數差。作者用同一套提示詞測試兩者，本想驗證"云端的性能溢價是否值得"，結果拿到的兩份大綱，根本不像同一個命題的作業。

云端的Claude輸出了一份7264字的日計劃，把3周課程拆成了47天；本地的gpt-oss20b（200億參數開源模型）只給了3400字，卻在第一周就塞進了12個具體工具。

作者@techchiziwis的測試場景很真實：UX設計初學者，每天只有2小時，需要一份能落地的自學路線圖。沒有實驗室環境，沒有精心調優的系統提示詞——"那就是我日常用的樣子"。

這種"臟測試"反而更接近普通用戶的決策場景：當你打開Claude網頁版，或啟動本地模型時，不會先花半小時寫系統提示。

兩份大綱的結構性差異

Claude的47天計劃從Day 1到Day 47逐日排布，每天固定格式：主題、任務、免費資源。第1周講基礎概念，第2周切入用戶訪談和可用性測試，第3周追加卡片分類和A/B測試，第4周進入實戰項目。

本地模型的輸出短了一半，但結構更"激進"：第1天就甩出3個工具（Miro、Notion、Figma），第3天直接上"5人用戶訪談實戰"。

作者的原話是：「Claude像一位過度準備的大學教授，本地模型則像那個催你"先干起來"的mentor。」

這種差異在資源推薦上更明顯。Claude的資源列表以文章和視頻為主，比如Nielsen Norman Group的經典博客、YouTube上的Google UX課程片段。本地模型則頻繁指向具體工具：第1周出現Maze、Lookback、Otter.ai、Dovetail等12個產品，每個都附帶"用免費版做X"的操作提示。

作者統計了資源類型占比：Claude的輸出中，理論類資源占67%，工具類23%，社區/模板類10%；本地模型正好倒過來，工具類58%，理論類31%，其余是GitHub倉庫和Notion模板。

第2周的"方法深度"對比

提示詞要求第2周覆蓋"用戶訪談"和"可用性測試"，每個方法需包含：是什么、何時用、如何練習。

Claude給用戶訪談分配了6天（Day 8-13），拆解成：撰寫篩選問卷→招募5名參與者→設計訪談提綱→模擬訪談錄音→逐字稿分析→提煉洞察報告。每一天都有具體的交付物和檢查清單。

本地模型把同樣內容壓縮到3天，但第2天的任務直接是"用Otter.ai錄一段15分鐘模擬訪談，導出逐字稿后用ChatGPT做主題編碼"。

可用性測試的差距更大。Claude花了5天講測試設計、任務撰寫、SUS量表、5人法則的統計學原理。本地模型第5天的任務："在Maze上傳Figma原型，跑5個遠程測試，截圖保存熱力圖"。

作者在這里做了手動驗證：按照本地模型的指引，確實能在免費額度內完成全流程；Claude的路徑則需要額外注冊3個平臺、閱讀約2萬字的理論基礎。

他的評價很直接：「如果我第2周才剛開始學UX研究，Claude的方案會讓我覺得自己還沒準備好；本地模型的方案讓我當晚就能發招募帖。」

隱藏成本：誰真正省時間

測試的一個意外發現是"反直覺的時間賬"。

Claude的47天計劃看起來系統，但作者按自己的學習節奏模擬后發現：每天1小時的任務，實際執行中約有40%時間花在"理解任務要求"上。比如Day 12的"進行主題分析"附帶了一份12步操作指南，光是讀懂就需要25分鐘。

本地模型的任務描述平均短60%，但"模糊地帶"更多。第3周某天的任務是"用Dovetail整理訪談筆記"，沒有說明具體功能模塊。作者作為初學者，實際花了47分鐘在Dovetail官網摸索"項目"和"標簽"的區別。

他算了筆總賬：完成Claude的4周計劃，預估純學習時間94小時，外加18小時"理解課程結構"；本地模型計劃總時長62小時，但隱含"工具探索時間"約22小時。兩者差距沒有表面看起來那么大。

更隱蔽的成本在"決策疲勞"。Claude每天給3-5個資源選項，經常附注"選擇最適合你當前階段的"；本地模型通常只給一個工具，但會寫明"免費版限制：每月3個項目"。

作者的原話：「Claude讓我覺得自己在選課，本地模型讓我覺得自己在打工——但打工至少有KPI。」

本地模型的"越界"行為

提示詞明確限制了4周時長、每天1小時任務量，但本地模型在第3周出現了明顯的"超速"。

第15天的任務同時包含"完成5人可用性測試"和"撰寫研究報告"，按行業常規，后者單獨就需要4-6小時。作者嘗試執行時發現，本地模型預設了"用ChatGPT輔助生成報告框架"的捷徑——但提示詞里根本沒提ChatGPT。

類似"幻覺"出現在多處：某天的資源鏈接指向一個已下架的Figma插件；某工具的描述混淆了"免費版"和"教育版"的權限差異。

Claude的幻覺更隱蔽：它推薦的一篇NN/g文章實際發布于2019年，作者點擊后發現核心方法已在2022年更新；某個"免費"用戶招募平臺，實際從2023年起取消了免費層。

兩者的錯誤類型不同。本地模型傾向于"過度承諾可行性"——把復雜任務壓縮到不合理的時間框內；Claude傾向于"信息時效性滯后"——依賴訓練數據中的舊資源，且不會主動標注版本。

作者手動核查了所有資源鏈接：Claude的47個資源中，9個已失效或內容重大變更；本地模型的31個資源中，5個存在權限描述錯誤，2個鏈接404。

一個被忽略的設計變量

回顧整個測試，作者意識到自己的使用習慣本身就是變量。

他的本地模型配置了特定的系統提示詞（雖然測試時沒改），包括"優先推薦可立即執行的行動"和"默認用戶時間緊張"。這解釋了為什么輸出充滿工具導向的任務——不是模型"更實用"，是被調教成這個樣子。

Claude的網頁版沒有同等程度的個性化。作者平時用它做深度研究，所以輸出風格偏向"全面鋪墊"。

這個發現讓測試結論變得復雜。他原本想回答"云端的性能溢價是否值得"，實際發現的是"同一提示詞在不同'人格'配置下的表現差異"。

為了驗證，他做了對照實驗：給Claude追加一句系統提示"你是一位務實的UX mentor，用戶每天只有1小時，需要今晚就能開始的任務"，重新運行相同提示詞。

新輸出的字數降到4100字，工具推薦比例上升到41%，第1周就出現了Miro模板鏈接。但結構仍然比本地模型"保守"——用戶訪談還是分了5天，每天任務描述平均比本地模型長2.3倍。

作者的判斷：Claude的"冗長"有產品層面的設計意圖，不是單純的模型能力問題。Anthropic的安全對齊策略傾向于"過度解釋"，而本地模型的開源生態允許更激進的輸出風格。

實際采用率：作者最后選了誰

測試結束后的真實選擇，比對比結果更有意思。

作者沒有直接采用任何一份大綱，而是做了"雜交"：用Claude的4周框架作為骨架，替換本地模型的工具推薦，手動修正了時效性錯誤的資源。

這個混合方案執行到第2周時，他又做了調整：發現Claude的"日計劃"節奏太碎，改成本地模型的"周目標+自選日安排"；但保留了Claude的檢查清單格式，因為"完成打勾"的反饋對自律學習很重要。

最終采用的方案，預估總時長78小時，介于兩者之間。作者記錄的實際執行數據：前兩周完成率87%，第3周降至62%，第4周因工作壓力暫停。

他在測試筆記里寫：「沒有一份AI生成的課程能直接套用。但它們節省了我從零設計框架的時間——大概12到15小時，這是真實價值。」

關于"云vs本地"的原始問題，他的結論很克制：對于結構化知識輸出，Claude的冗余比本地模型的壓縮更安全；但對于工具鏈明確的實操任務，本地模型的"立即開工"導向更高效。

最意外的發現是成本感知。作者習慣把本地模型想成"免費"，但測試期間統計了實際開銷：200億參數模型在M2 MacBook Pro上的推理，4次完整輸出約消耗1.2度電，按當地電價折合0.18美元；Claude Pro訂閱費20美元/月，但測試只用了約3%的配額。

「本地不是免費，是成本隱形化。」他在筆記里補充，「而云端的訂閱制讓我有'不用就虧'的心理，這反而影響了工具選擇的習慣。」

測試結束兩周后，作者檢查了自己的實際使用模式：70%的查詢仍走云端，但"需要今晚出成果"的任務優先本地。這個比例和測試前的直覺相反——他原本以為本地只用于隱私敏感場景。

最后一個被記錄的細節：本地模型在某次續寫中，自動把第3周的"卡片分類"任務鏈接到了作者之前讓它生成的Notion模板——那是兩周前的對話，模型沒有多輪記憶功能，純屬巧合。但他當時確實愣了一下，以為本地LLM進化出了上下文追蹤。

「后來才想起來，那個模板文件名里有'UX_research_week3'，模型只是做了關鍵詞匹配。」他在文末寫，「這種'偽智能'時刻，比任何基準測試都讓我記住：現在的AI工具，還遠沒到能托付判斷力的程度。」

你的學習/工作流里，有沒有某個"默認用云端"的場景，其實本地模型完全能扛？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.