![]()
7264字。這是Claude(云端大語言模型)和本地LLM(本地大語言模型)各自輸出的UX研究自學課程字數差。作者用同一套提示詞測試兩者,本想驗證"云端的性能溢價是否值得",結果拿到的兩份大綱,根本不像同一個命題的作業。
云端的Claude輸出了一份7264字的日計劃,把3周課程拆成了47天;本地的gpt-oss20b(200億參數開源模型)只給了3400字,卻在第一周就塞進了12個具體工具。
作者@techchiziwis的測試場景很真實:UX設計初學者,每天只有2小時,需要一份能落地的自學路線圖。沒有實驗室環境,沒有精心調優的系統提示詞——"那就是我日常用的樣子"。
這種"臟測試"反而更接近普通用戶的決策場景:當你打開Claude網頁版,或啟動本地模型時,不會先花半小時寫系統提示。
兩份大綱的結構性差異
Claude的47天計劃從Day 1到Day 47逐日排布,每天固定格式:主題、任務、免費資源。第1周講基礎概念,第2周切入用戶訪談和可用性測試,第3周追加卡片分類和A/B測試,第4周進入實戰項目。
本地模型的輸出短了一半,但結構更"激進":第1天就甩出3個工具(Miro、Notion、Figma),第3天直接上"5人用戶訪談實戰"。
作者的原話是:「Claude像一位過度準備的大學教授,本地模型則像那個催你"先干起來"的mentor。」
這種差異在資源推薦上更明顯。Claude的資源列表以文章和視頻為主,比如Nielsen Norman Group的經典博客、YouTube上的Google UX課程片段。本地模型則頻繁指向具體工具:第1周出現Maze、Lookback、Otter.ai、Dovetail等12個產品,每個都附帶"用免費版做X"的操作提示。
作者統計了資源類型占比:Claude的輸出中,理論類資源占67%,工具類23%,社區/模板類10%;本地模型正好倒過來,工具類58%,理論類31%,其余是GitHub倉庫和Notion模板。
第2周的"方法深度"對比
提示詞要求第2周覆蓋"用戶訪談"和"可用性測試",每個方法需包含:是什么、何時用、如何練習。
Claude給用戶訪談分配了6天(Day 8-13),拆解成:撰寫篩選問卷→招募5名參與者→設計訪談提綱→模擬訪談錄音→逐字稿分析→提煉洞察報告。每一天都有具體的交付物和檢查清單。
本地模型把同樣內容壓縮到3天,但第2天的任務直接是"用Otter.ai錄一段15分鐘模擬訪談,導出逐字稿后用ChatGPT做主題編碼"。
可用性測試的差距更大。Claude花了5天講測試設計、任務撰寫、SUS量表、5人法則的統計學原理。本地模型第5天的任務:"在Maze上傳Figma原型,跑5個遠程測試,截圖保存熱力圖"。
作者在這里做了手動驗證:按照本地模型的指引,確實能在免費額度內完成全流程;Claude的路徑則需要額外注冊3個平臺、閱讀約2萬字的理論基礎。
他的評價很直接:「如果我第2周才剛開始學UX研究,Claude的方案會讓我覺得自己還沒準備好;本地模型的方案讓我當晚就能發招募帖。」
隱藏成本:誰真正省時間
測試的一個意外發現是"反直覺的時間賬"。
Claude的47天計劃看起來系統,但作者按自己的學習節奏模擬后發現:每天1小時的任務,實際執行中約有40%時間花在"理解任務要求"上。比如Day 12的"進行主題分析"附帶了一份12步操作指南,光是讀懂就需要25分鐘。
本地模型的任務描述平均短60%,但"模糊地帶"更多。第3周某天的任務是"用Dovetail整理訪談筆記",沒有說明具體功能模塊。作者作為初學者,實際花了47分鐘在Dovetail官網摸索"項目"和"標簽"的區別。
他算了筆總賬:完成Claude的4周計劃,預估純學習時間94小時,外加18小時"理解課程結構";本地模型計劃總時長62小時,但隱含"工具探索時間"約22小時。兩者差距沒有表面看起來那么大。
更隱蔽的成本在"決策疲勞"。Claude每天給3-5個資源選項,經常附注"選擇最適合你當前階段的";本地模型通常只給一個工具,但會寫明"免費版限制:每月3個項目"。
作者的原話:「Claude讓我覺得自己在選課,本地模型讓我覺得自己在打工——但打工至少有KPI。」
本地模型的"越界"行為
提示詞明確限制了4周時長、每天1小時任務量,但本地模型在第3周出現了明顯的"超速"。
第15天的任務同時包含"完成5人可用性測試"和"撰寫研究報告",按行業常規,后者單獨就需要4-6小時。作者嘗試執行時發現,本地模型預設了"用ChatGPT輔助生成報告框架"的捷徑——但提示詞里根本沒提ChatGPT。
類似"幻覺"出現在多處:某天的資源鏈接指向一個已下架的Figma插件;某工具的描述混淆了"免費版"和"教育版"的權限差異。
Claude的幻覺更隱蔽:它推薦的一篇NN/g文章實際發布于2019年,作者點擊后發現核心方法已在2022年更新;某個"免費"用戶招募平臺,實際從2023年起取消了免費層。
兩者的錯誤類型不同。本地模型傾向于"過度承諾可行性"——把復雜任務壓縮到不合理的時間框內;Claude傾向于"信息時效性滯后"——依賴訓練數據中的舊資源,且不會主動標注版本。
作者手動核查了所有資源鏈接:Claude的47個資源中,9個已失效或內容重大變更;本地模型的31個資源中,5個存在權限描述錯誤,2個鏈接404。
一個被忽略的設計變量
回顧整個測試,作者意識到自己的使用習慣本身就是變量。
他的本地模型配置了特定的系統提示詞(雖然測試時沒改),包括"優先推薦可立即執行的行動"和"默認用戶時間緊張"。這解釋了為什么輸出充滿工具導向的任務——不是模型"更實用",是被調教成這個樣子。
Claude的網頁版沒有同等程度的個性化。作者平時用它做深度研究,所以輸出風格偏向"全面鋪墊"。
這個發現讓測試結論變得復雜。他原本想回答"云端的性能溢價是否值得",實際發現的是"同一提示詞在不同'人格'配置下的表現差異"。
為了驗證,他做了對照實驗:給Claude追加一句系統提示"你是一位務實的UX mentor,用戶每天只有1小時,需要今晚就能開始的任務",重新運行相同提示詞。
新輸出的字數降到4100字,工具推薦比例上升到41%,第1周就出現了Miro模板鏈接。但結構仍然比本地模型"保守"——用戶訪談還是分了5天,每天任務描述平均比本地模型長2.3倍。
作者的判斷:Claude的"冗長"有產品層面的設計意圖,不是單純的模型能力問題。Anthropic的安全對齊策略傾向于"過度解釋",而本地模型的開源生態允許更激進的輸出風格。
實際采用率:作者最后選了誰
測試結束后的真實選擇,比對比結果更有意思。
作者沒有直接采用任何一份大綱,而是做了"雜交":用Claude的4周框架作為骨架,替換本地模型的工具推薦,手動修正了時效性錯誤的資源。
這個混合方案執行到第2周時,他又做了調整:發現Claude的"日計劃"節奏太碎,改成本地模型的"周目標+自選日安排";但保留了Claude的檢查清單格式,因為"完成打勾"的反饋對自律學習很重要。
最終采用的方案,預估總時長78小時,介于兩者之間。作者記錄的實際執行數據:前兩周完成率87%,第3周降至62%,第4周因工作壓力暫停。
他在測試筆記里寫:「沒有一份AI生成的課程能直接套用。但它們節省了我從零設計框架的時間——大概12到15小時,這是真實價值。」
關于"云vs本地"的原始問題,他的結論很克制:對于結構化知識輸出,Claude的冗余比本地模型的壓縮更安全;但對于工具鏈明確的實操任務,本地模型的"立即開工"導向更高效。
最意外的發現是成本感知。作者習慣把本地模型想成"免費",但測試期間統計了實際開銷:200億參數模型在M2 MacBook Pro上的推理,4次完整輸出約消耗1.2度電,按當地電價折合0.18美元;Claude Pro訂閱費20美元/月,但測試只用了約3%的配額。
「本地不是免費,是成本隱形化。」他在筆記里補充,「而云端的訂閱制讓我有'不用就虧'的心理,這反而影響了工具選擇的習慣。」
測試結束兩周后,作者檢查了自己的實際使用模式:70%的查詢仍走云端,但"需要今晚出成果"的任務優先本地。這個比例和測試前的直覺相反——他原本以為本地只用于隱私敏感場景。
最后一個被記錄的細節:本地模型在某次續寫中,自動把第3周的"卡片分類"任務鏈接到了作者之前讓它生成的Notion模板——那是兩周前的對話,模型沒有多輪記憶功能,純屬巧合。但他當時確實愣了一下,以為本地LLM進化出了上下文追蹤。
「后來才想起來,那個模板文件名里有'UX_research_week3',模型只是做了關鍵詞匹配。」他在文末寫,「這種'偽智能'時刻,比任何基準測試都讓我記住:現在的AI工具,還遠沒到能托付判斷力的程度。」
你的學習/工作流里,有沒有某個"默認用云端"的場景,其實本地模型完全能扛?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.