
體育資訊01月25日稱 據(jù)科技媒體 Tom's Hardware 今天報道,當(dāng)今時代我們有無數(shù)種跑分測試和評測方法來衡量 AI 的聰明程度與能力,但最近一種相對小眾的測試方法也在 AI 圈內(nèi)引發(fā)關(guān)注。
目前,谷歌、OpenAI 和 Anthropic 等 AI 巨頭正在讓自家模型游玩經(jīng)典的《精靈寶可夢》系列游戲,以此來評估 AI 性能表現(xiàn)。
Anthropic 公司 AI 部門負(fù)責(zé)人 David Hershey 對此表示:“《精靈寶可夢》之所以能吸引機器學(xué)習(xí)社區(qū)關(guān)注,是因為它不像《Pong》等簡單游戲那樣受限。這種游戲?qū)﹄娔X程序來說非常具有挑戰(zhàn)性”。
Hershey 從去年開始在 Twitch 平臺進(jìn)行直播,每天的日常就是用公司自產(chǎn)模型 Claude 玩《精靈寶可夢》。這名負(fù)責(zé)人平時的工作就是幫助客戶部署 AI,因此他開直播本質(zhì)上也是在測試模型。
這名負(fù)責(zé)人給自家 AI 直播游戲的做法也啟發(fā)了不少自由開發(fā)者,他們也陸續(xù)搞了“Gemini 玩《寶可夢》”“GPT 玩《寶可夢》”等類似的直播節(jié)目。
后來,這些直播甚至被谷歌和 OpenAI 注意到,開發(fā)團(tuán)隊有時還會客串直播間親自調(diào)整模型參數(shù),在官方力量注入下,Gemini 和 GPT 已經(jīng)成功通關(guān)了 Gam Boy 時代的《寶可夢藍(lán)》,目前已在挑戰(zhàn)續(xù)作;而 Claude 至今還沒打通任何一個版本。
至于為何要用《寶可夢》評估 AI 性能?Hershey 對此解釋道:“因為它給我們提供了直觀的方法觀察模型表現(xiàn),還能用量化指標(biāo)評估性能”。
通常來講,玩家在《寶可夢》系列游戲中需要升級、訓(xùn)練已有 / 剛抓的寶可夢,還要打敗道館館主來捕捉新的寶可夢。這種游戲流程并非線性,而是充滿著判斷和取舍。
而且,玩家還要經(jīng)常在游戲中做出選擇:是先冒險挑戰(zhàn)強大的訓(xùn)練家以獲取珍稀寶可夢,還是穩(wěn)扎穩(wěn)打造出一支實力均衡的隊伍。
顯然,人類非常擅長做此類決策,這也是游戲的樂趣所在,但對于 AI 來說,這是一場關(guān)乎邏輯推理、風(fēng)險評估以及長期規(guī)劃能力的綜合考驗。
因此研究人員會深入剖析 AI 在游戲里的決策方式,深入理解模型的能力邊界。
Hershey 還會將 AI 玩《寶可夢》的結(jié)果分享給客戶以改進(jìn)控制框架(IT之家注:harness),幫助他們提升算力使用效率,讓模型更高效運轉(zhuǎn)。
nba直播電視臺節(jié)目單
深夜十一點,城市的燈火漸次熄滅,而屬于另一個世界的喧囂才剛剛開始??蛷d的電視屏幕亮著幽藍(lán)的光,茶幾上攤開著...
2026-01-26
籃球世界杯美國日本直播
勝負(fù)之外:籃球世界杯直播里的另一種光芒籃球世界杯美國對日本的直播信號,將東京體育館的聲浪傳遍全球。記分...
2026-01-26
2020詹姆斯vs字母哥
當(dāng)王權(quán)遭遇風(fēng)暴:2020年的史詩預(yù)演2020年的NBA,空氣中彌漫著一種特殊的張力。勒布朗·詹姆斯,這位統(tǒng)治聯(lián)盟多年...
2026-01-25
如果說LCK里未來比現(xiàn)在更令人期待的選手是Peyz,那LPL的是
體育資訊1月25日稱 kkOma在賽后采訪里表示,Peyz是一個未來比現(xiàn)在更令人期待的...
2026-01-25
BLG分享選手動態(tài):認(rèn)真復(fù)盤,好好寫作業(yè)
體育資訊1月25日稱 BLG分享選手動態(tài):認(rèn)真復(fù)盤,好好寫作業(yè)。...
2026-01-25