DeepSeek剛剛在自己的公眾號發(fā)了篇文章去闡述昨晚新發(fā)布的R1-0528版本的一些特性DeepSeek-R1 更新,思考更深,推理更強
最主要的幾個信息如下:
1、這次訓(xùn)練用的基座模型不是V3-0324模型,也不是V4或任何新模型,而是和R1用的完全相同的12月底的V3模型,但是跑分卻大幅度提升,這說明DeepSeek在后訓(xùn)練上還有很多了不得的新認(rèn)知,想象一下如果給DeepSeek一個類似Grok3的大尺寸基座模型會怎么樣?所以未來還完全可期
2、按現(xiàn)在的節(jié)奏,我們真正該期待的下一個模型是V4,而不是R2,畢竟這個基座模型已經(jīng)過去接近半年,該到更新時刻了;
3、模型的推理能力大幅提升,這主要得益于模型進(jìn)行了更長token的深度思考,這倒是沒什么顛覆認(rèn)知的東西;
4、模型的幻覺下降50%,寫作能力大幅度改善,用DeepSeek開始自媒體內(nèi)容創(chuàng)作,或者出海電商、SEO內(nèi)容撰寫等方面有更多機(jī)會了;
5、工具調(diào)用能力大幅度提升,但是比Claude4有差距,那說明現(xiàn)在最好的結(jié)合IDE的編程模型還會是Claude4;
6、官方的網(wǎng)站、app和api最長上下文token是64k(我估計是為了成本考慮,但確實太短了,沒法用來復(fù)雜項目編程),開源模型第三方部署后支持的上下文長度是128k,屬于正常但不那么夠用的長度,希望下個階段能改善。
感謝DeepSeek的這一波端午大禮,期待他們的下一次發(fā)布。
![]()
![]()
![]()
![]()


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.