5月28日晚,第一財(cái)經(jīng)記者獲悉,DeepSeek小助手在官方交流群中通知,DeepSeek R1模型已完成小版本試升級(jí),緊接著就在29日凌晨,官方在開(kāi)源平臺(tái)HuggingFace上發(fā)布了DeepSeek-R1-0528。
目前官方還未更新模型卡以及公告介紹,但不少開(kāi)發(fā)者已經(jīng)第一時(shí)間進(jìn)行了測(cè)試,發(fā)現(xiàn)這個(gè)“小版本升級(jí)”并不小,海外開(kāi)發(fā)者感慨“一如既往的DeepSeek低調(diào)風(fēng)格”。
眾多測(cè)試發(fā)現(xiàn),DeepSeek-R1-0528目前提升最為明顯的是代碼能力,在代碼測(cè)試平臺(tái)Live CodeBench中,其性能幾乎媲美OpenAI重量級(jí)的o3-high模型。
有開(kāi)發(fā)者表示,這是“開(kāi)源的巨大勝利”。
不過(guò),或許受限于測(cè)試的速率限制,目前開(kāi)發(fā)者群體中公認(rèn)編程能力最強(qiáng)的Claude-4系列模型并不在測(cè)試榜單中。
AI博主同時(shí)也是KCORES開(kāi)源硬件項(xiàng)目聯(lián)合創(chuàng)始人@karminski-牙醫(yī)進(jìn)行了個(gè)人的測(cè)試,基于最新的DeepSeek-R1模型和Claude-4-Sonnet進(jìn)行測(cè)試,測(cè)試內(nèi)容是用一個(gè)橙色小球撞擊物體,從效果顯示,平面的橙色漫反射、 撞擊效果方面是R1模型更好。
但有開(kāi)發(fā)者對(duì)第一財(cái)經(jīng)表示,這類(lèi)能力看個(gè)例是不準(zhǔn)的,或許要等評(píng)測(cè)榜單和一個(gè)月后的口碑見(jiàn)分曉。
除了代碼能力,有開(kāi)發(fā)者總結(jié)了DeepSeek這次更新其他亮點(diǎn),包括改進(jìn)了寫(xiě)作任務(wù),更自然、格式更好。也有用戶(hù)反映,用最新模型寫(xiě)作正常很多,沒(méi)有強(qiáng)烈的“量子力學(xué)元素”了。
@karminski-牙醫(yī)同時(shí)對(duì)最新模型進(jìn)行了文本召回測(cè)試,發(fā)現(xiàn)在上下文32K以?xún)?nèi)比之前的R1模型要好不少,但是在60K的上下文中效果下降了不少。這意味著在32K以?xún)?nèi)針對(duì)給定的材料使用新R1模型提問(wèn),回答的準(zhǔn)確度會(huì)更好。
在RI這次“小版本試升級(jí)”后,有海外網(wǎng)友表示,如果這是R1,那么R2會(huì)有多好?DeepSeek官方針對(duì)此前的V3模型和R1模型都做了一次迭代,但仍未放出大家期待的R2模型的消息。
此前3月,DeepSeek也是在hugging face默默上新DeepSeek-V3-0324迭代版本模型,DeepSeek介紹,新版V3模型借鑒R1模型訓(xùn)練過(guò)程中所使用的強(qiáng)化學(xué)習(xí)技術(shù),大幅提高了在推理類(lèi)任務(wù)上的表現(xiàn)水平,此外在前端開(kāi)發(fā)、中文寫(xiě)作等方面進(jìn)行了能力優(yōu)化。
有業(yè)內(nèi)人士猜測(cè),是否模型架構(gòu)不更新,只是增加或調(diào)整了訓(xùn)練數(shù)據(jù),DeepSeek就不將更新定義為大版本升級(jí),而業(yè)內(nèi)其他模型給出明顯的版本號(hào)迭代則是一種品牌營(yíng)銷(xiāo)需求。目前DeepSeek并未對(duì)此進(jìn)行任何解釋。
除了上述模型能力,開(kāi)發(fā)者也希望未來(lái)DeepSeek R2若進(jìn)行升級(jí)能大幅提升上下文長(zhǎng)度,以及增加多模態(tài)的能力,畢竟這兩個(gè)方面的能力對(duì)于生產(chǎn)使用很重要。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。