![]()
![]()
沒等到Deepseek R2,DeepSeek悄悄更新了V 3.1。
![]()
官方群放出的消息就提了一點,上下文長度拓展至128K。128K也是GPT-4o這一代模型的處理Token的長度。因此一開始,鯨哥以為從V3升級到V 3.1,以為是不大的升級,鯨哥體驗下來還有驚喜。
01
代碼能力與前端審美提升
從開源社區Huggingface上傳的模型版本看,模型尺寸達685B,支持 BF16、F8_E4M3、F32 等張量類型,平衡模型的計算精度和效率。
最驚喜的是代碼能力提升明顯,前端審美也有大幅度提升。我們先看V3.1在代碼測試中的變現。
請設計并開發一款結合日歷和待辦事項(To-Do)的產品,其核心功能應包括:
任務分類與顏色標記: 用戶能夠創建不同類別的任務,并為每個類別分配獨特的顏色。當任務被歸類后,其在日歷視圖上應以相應的顏色進行標記,以便快速識別。 短期任務管理: * 完成標記: 對于計劃在特定日期完成的任務,用戶應能將其標記為“已完成”。已完成的任務應在界面上以視覺方式(例如,劃掉、變灰或顯示完成圖標)清晰區分。 * 逾期處理: 如果任務未在計劃日期完成,系統應提供明確的視覺提示(例如,顏色變化、閃爍或標記為逾期),并允許用戶選擇將其延期至第二天或后續日期。 長期任務可視化: 對于跨越多天的長期任務,系統應在日歷視圖上以連續的線條或色塊進行標記,清晰展示其持續時間,并支持用戶查看和編輯任務的起止日期。說實話,整個產品的設計其實已經達到了一定的水準,準確理解Prompt,并且也沒有什么交互Bug。相比Claude 3.7也并不遜色。
![]()
Claude 3.7生成的日歷代辦事項
當然相比Claude 4.0和4.1的前端還有審美差距。
PS:鯨哥正在利用Claude 4.0做日歷+To do的結合體,后續會發布出來,大家可以期待。
天氣卡片案例測試
第二個案例能看出來更明顯。這個案例是大家經常做測試的天氣卡片Case。
創建一個包含 CSS 和 JavaScript 的單個 HTML 文件,以生成一個動畫天氣卡片。卡片應通過不同的動畫直觀地表示以下天氣條件:風:(例如,移動的云朵、搖曳的樹木或風線)雨:(例如,落下的雨滴、形成的水坑)晴:(例如,閃耀的光線、明亮的背景)雪:(例如,落下的雪花、積雪)并排顯示所有天氣卡片。卡片應具有深色背景。在此單個文件中提供所有 HTML、CSS 和 JavaScript 代碼。JavaScript 應包含一種在不同天氣條件之間切換的方法(例如,一個函數或一組按鈕),以演示每種天氣的動畫。![]()
注:DeepSeek 新版 V3 模型的生成結果,右側為 R1 的生成結果
這是新版V3.1生成的效果,是不是已經很美觀了,而且還有降雨和太陽等動圖效果,這就不只是拿得出手,還有些超出期待了。
![]()
我們看GPT-5的演示效果,其實也還行,但是雪花和大風的演示圖形有點Bug,以及沒有很多天氣信息展示。
![]()
流程圖與復雜案例測試
接著我們測試一個考驗DPSK邏輯和構圖的案例,要求V3.1創建一個流程圖,展示用戶、Agent、LLM和MCP Server之間的交互。
V3.1使用Mermaid流程圖來表示這一過程,大體過程展示出來了,但是仿佛又缺乏些細節。
![]()
不過好事就是有些流程圖、邏輯圖以后可以教給DeepSeek做了,沒有思維腦圖產品做的細節,但勝在基礎作品直出和有美觀度渲染。
![]()
繼續來做一個更復雜的Case,這是馬斯克點贊的Grok 4案例:“3D線框網絡與能量脈沖動畫”。
![]()
DeepSeek V3.1使用了CSS 3D變換來模擬3D效果,純JavaScript處理交互邏輯,不需要任何外部庫。
但不得不說,V3.1在做這種更復雜的案例時,略微有些力不從心。沒有做出立體狀,效果也不太酷炫。
![]()
感覺還是上下文太短,現在很多大模型都已經經200K,V3.1現在處理復雜任務還有距離。
GPT-5生成分效果還可以,用能量球形式展現,脈沖效果也有一定體現。
![]()
02
邏輯推理能力進步
雖然是非推理模型,但V3.1的邏輯推理也有一定的進步,這道題的回答中可以看到進步:
單選題 某辦公室甲、乙、丙、丁四人對本辦公室當選先進工作者的職工進行如下預測:甲:乙和丙要么都當選,要么都落選。乙:最多只有2人當選。丙:我不可能當選。丁:你們中肯定有人的預測是錯的。結果發現四個人中只有一個人說對了,問以下哪項判斷是正確的?() A 甲當選了 B 乙當選了 C 丙未當選 D 丁未當選![]()
豆包這題思考過程對,但是給的答案選項錯了。
![]()
DeepSeek V 3.1的幻覺率依然很高,讓以吳曉波風格寫大疆,引用了幾本不存在的書作為內容源。
![]()
DeepSeek V3.1這波更新不是很大,勝在有進步和又降價。
盡管目前關于DeepSeek R2的傳聞很多,其發布日期比傳言中的日子,已經滯后很多,但DeepSeek每次更新還是有穩定的進步,R2仍然值得期待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.