<rt id="ogeyi"><tr id="ogeyi"></tr></rt>
    1. <label id="ogeyi"></label>
      <label id="ogeyi"></label>

      幣圈網(wǎng)

      谷歌新模型2.5 Pro霸榜AI競技場,開發(fā)者評價兩極分化

      北京時間6月6日,谷歌推出升級預(yù)覽版大模型Gemini 2.5 Pro(0605),并表示這會在幾周后成為正式的穩(wěn)定版本,適用于企業(yè)級應(yīng)用。

      Gemini 2.5 Pro是谷歌旗艦?zāi)P拖盗校谇叭齻€月公布了幾個預(yù)覽版,此前也一直在大模型競技場LMArena排名第一,這一次更新的版本各方面的分數(shù)都超過了此前的版本,繼續(xù)排在榜一。

      不過,第一財經(jīng)也詢問了一些開發(fā)者,他們認為,不能完全相信榜單,要看實際體驗和絕大多數(shù)開發(fā)者的選擇,此前Gemini的模型表現(xiàn)各有優(yōu)劣,開發(fā)者評價兩極分化,目前剛出來大家或許要用一用才能有更客觀的評價。

      根據(jù)谷歌官方博客,最新2.5 Pro 在多項AI性能基準測試中取得了更高的分數(shù),在 LMArena上Elo分數(shù)(衡量模型相對技能水平的評分)提升了24分,目前以1470分的成績保持領(lǐng)先。

      具體領(lǐng)域上,谷歌稱,最新模型在代碼方面繼續(xù)表現(xiàn)出色,在 Aider Polyglot 等高難度編程基準測試中保持領(lǐng)先。此外,它在 GPQA(研究生級別的問答測試)中的成績超過了OpenAI的o3、Claude 4以及DeepSeek-R1的最新版。在“人類的最后考試(HLE) ” 中成績達到21.6%,比OpenAI的o3多出 1.3個百分點。

      在谷歌模型發(fā)布后,業(yè)界知名的測評方大模型競技場 (lmarena.ai)發(fā)布了一份新的榜單,顯示2.5 Pro新版在總分和所有子榜單位列第一,包括文本、視覺、數(shù)學(xué)、創(chuàng)意等。

      不過,“高分低能”的產(chǎn)品此前也有過,不乏開發(fā)者對這個榜單存疑。例如,從編程體驗上來說,Anthropic的Claude系列模型是公認較為好用的基座模型,此次在榜單的成績并不突出。有海外網(wǎng)友表示,2.5 Pro新版的表現(xiàn)確實很好,但是不如Claude 4 Opus。

      有行業(yè)人士認為,這一問題或許是榜單評測問題,只是讓AI完成基礎(chǔ)的任務(wù),但對Agent的能力評測有限,但從實際應(yīng)用過程中,Claude模型在Agent方面做了專門優(yōu)化,可以在大規(guī)模、系統(tǒng)化、長時間的編程任務(wù)中表現(xiàn)出色,和行業(yè)拉開距離。而谷歌在Agent方向還沒怎么發(fā)力。

      一位開發(fā)者用C 編程語言較多,他對記者表示,Claude比Gemini強太多,“任何Claude和o3無法解決的問題,Gemini從沒有一個能解決;但反之,Gemini 寫不對的,往往Claude能寫對。”

      上述開發(fā)者認為,Gemini擅長的是長上下文和多模態(tài),而Claude前端更優(yōu),目前看可能還是這一格局。

      不過,另一位用Python和typescript編程語言的開發(fā)者體驗并不相同,最近一個月,他無論在工作場景還是Cursor場景都全面轉(zhuǎn)為了Gemini 2.5 pro,發(fā)現(xiàn)代碼寫得比Claude 3.7好,生成的網(wǎng)頁更漂亮,寫出來的文案也更好。

      目前看起來,在不同的生產(chǎn)場景和個性化工作中,各個模型的體驗和口碑并不相同。

      大模型競爭進入下半場,模型基礎(chǔ)能力差距逐漸縮小,模型之間的較量正在從單純的跑分轉(zhuǎn)向更復(fù)雜的維度,模型的真正價值,越來越取決于在特定場景下的表現(xiàn)能否贏得開發(fā)者的投票。

      不過,除開能力,使用成本也是開發(fā)者較為看重的一個因素,目前來看,Gemini比OpenAI的 o3、Claude 4 Opus和Grok 3都要更有性價比,但仍然是國內(nèi)DeepSeek的R1最便宜。

      Gemini 2.5 pro的輸入價格1.25美元,輸出為10 美元/百萬Tokens。而o3在輸入和輸出價格方面則高至10美元和40美元每百萬Tokens ,Claude 4 Opus價格更高。針對此次更新,谷歌表示新模型引入了“思考預(yù)算”功能,能讓開發(fā)者更好地控制成本和延遲。

      榜單分數(shù)是起點,真正的較量,在無數(shù)開發(fā)者和企業(yè)的工作和落地中展開。誰能更好地解決核心問題,誰就能贏得競爭的主動權(quán)。

      幫企客致力于為您提供最新最全的財經(jīng)資訊,想了解更多行業(yè)動態(tài),歡迎關(guān)注本站。

      鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。

      主站蜘蛛池模板: 久久久综合九色合综国产| 韩国亚洲伊人久久综合影院| 国产精品国产色综合色| 天天综合色天天综合| 久久久久噜噜噜亚洲熟女综合| 亚洲国产aⅴ综合网| 亚洲成色在线综合网站| 国产成人精品综合网站| av一本久道久久综合久久鬼色| 国产在线五月综合婷婷| 狠狠色狠狠色综合系列| 综合网日日天干夜夜久久| 亚洲精品第一国产综合亚AV| 久久久综合九色合综国产精品| 丁香五月综合缴情综合| 亚洲av日韩综合一区在线观看| 国产色产综合色产在线观看视频 | 色欲综合久久躁天天躁| 日韩人妻无码一区二区三区综合部 | 国产成人亚综合91精品首页| 色婷婷久久综合中文久久蜜桃av| 九色综合九色综合色鬼| 色综合91久久精品中文字幕| 色综合久久综合网观看| 色久综合网精品一区二区| 亚洲香蕉网久久综合影视| 国产一级a爱做综合| 亚洲国产成人久久综合一区77| 色综合久久久久久久久久| 亚洲精品欧美综合四区| 一本一本久久a久久综合精品蜜桃| 九九久久99综合一区二区| 婷婷综合另类小说色区| 精品亚洲综合在线第一区| 一本色道久久88加勒比—综合 | 国产综合激情在线亚洲第一页| 狠狠色丁香久久婷婷综合图片| 国产综合成人亚洲区| 国产成人综合色在线观看网站| 伊伊人成亚洲综合人网7777| 久久综合狠狠综合久久|