所謂Agent,即多模態(tài)智能體。如今的多模態(tài)處理已經(jīng)支持文本、圖像、視頻、音頻、3D數(shù)據(jù)的無(wú)縫解析,例如分析運(yùn)動(dòng)視頻動(dòng)作缺陷或生成手寫食譜的雙語(yǔ)電子書等。2025年AI的發(fā)展的確異常迅猛,以至于讓很多人心里感到不安和焦慮。
![]()
據(jù)說(shuō),目前最強(qiáng)大的多模態(tài)模型是谷歌Gemini 3,其在LMArena榜單得分1501Elo,推理測(cè)試正確率接近92%,并支持DeepThink模式解決ARC-AGI-2等復(fù)雜問(wèn)題。有人說(shuō)這是撬開了AGI的大門。
![]()
在谷歌最新的Gemini 3和Nano Banana Pro發(fā)布前,黃仁勛和奧特曼都一直雄心勃勃,自信非常。他們之前的日子過(guò)得可謂風(fēng)生水起。谷歌,這家曾被認(rèn)為在AI時(shí)代稍顯落后、有點(diǎn)沉睡的巨頭企業(yè),如今也似乎正在全面覺(jué)醒。
![]()
Gemini 3是谷歌于2025年11月18日推出的新一代大型語(yǔ)言模型,是基于稀疏混合專家架構(gòu)并擁有超萬(wàn)億參數(shù),完全基于TPU訓(xùn)練的大模型。該模型配備100萬(wàn)token上下文窗口,支持處理文本、圖像、視頻、音頻和代碼等多模態(tài)數(shù)據(jù),發(fā)布當(dāng)日就已經(jīng)整合了谷歌搜索AI模式、Gemini應(yīng)用、API接口及Vertex AI等產(chǎn)品線內(nèi)容。與此同步發(fā)布的Google Antigravity開發(fā)平臺(tái)支持自然語(yǔ)言生成完整代碼,實(shí)現(xiàn)動(dòng)態(tài)界面定制與多智能體協(xié)作執(zhí)行復(fù)雜任務(wù),在AI領(lǐng)域顯然已經(jīng)做到了遙遙領(lǐng)先。
![]()
其實(shí)早在此前OpenAI發(fā)布推理模型O3時(shí),就已經(jīng)讓很多人陷入了存在主義危機(jī),在O3發(fā)布之初,經(jīng)濟(jì)學(xué)家泰勒.科文(Tyler Cowen)當(dāng)時(shí)也參加了產(chǎn)品內(nèi)測(cè),據(jù)他當(dāng)時(shí)的判斷是其實(shí)O3就是AGI(超級(jí)人工智能)。
![]()
頂尖生物學(xué)家德里亞.烏魯特馬茲(Derya Unutmaz)在X上發(fā)文說(shuō),他認(rèn)為O3的智能水平已經(jīng)達(dá)到了或者接近天才水平。后來(lái)當(dāng)o1-Pro剛發(fā)布時(shí),人們更慌了……現(xiàn)在是不是看到谷歌的Gemini 3,你更慌了呢?
![]()
OpenAI的首席執(zhí)行官山姆.奧特曼曾經(jīng)在一次訪談中說(shuō),“當(dāng)AGI真正來(lái)臨的那一天,一開始什么都不會(huì)發(fā)生,它不會(huì)立馬改變世界……但是幾年之后,世界會(huì)因此而巨變……”筆者想這句話的意思就是,現(xiàn)在我們很多人還不知道該如何用好AI,沒(méi)有讓AI發(fā)揮出它最大的潛力。以至于現(xiàn)在如何用好AI它仍是一項(xiàng)非常稀缺的能力。
![]()
現(xiàn)在的很多Agent都是非常聰明的模型,它們會(huì)原生態(tài)地調(diào)用各種工具,很多時(shí)候我們不應(yīng)讓它回答一個(gè)問(wèn)題,而是要給它一個(gè)任務(wù)讓它去完成。比如你給它們一張照片,它們就可以找出這張照片你是在哪拍的,它們也可以幫你在網(wǎng)上找到你多年不聯(lián)系的朋友的賬號(hào)。但是它們?cè)诼斆鞯耐瑫r(shí)也會(huì)產(chǎn)生幻覺(jué)的。例如,它們?cè)诰幊虝r(shí)可能也會(huì)犯錯(cuò)誤,它們?cè)诨卮饐?wèn)題時(shí)可能會(huì)胡說(shuō)八道,對(duì)一句名言的出處可能會(huì)張冠李戴。
![]()
說(shuō)2025年是Agent元年其實(shí)也不是過(guò)譽(yù),因?yàn)樵?025年的年初和年尾都有這么重磅的AI產(chǎn)品,是不是已經(jīng)亮瞎了很多人的眼睛?!
![]()
但是目前的Agent它們可能還是處于這樣一個(gè)階段:它們真的很擅長(zhǎng)用很多“高觀點(diǎn)”去分析事物的本質(zhì)。什么是“高觀點(diǎn)”呢?所謂高觀點(diǎn)就是“StochasticParrot”,它是指某些大語(yǔ)言模型其實(shí)就像一只“會(huì)說(shuō)話的鸚鵡”,它只能依靠大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)預(yù)測(cè),說(shuō)白了其實(shí)就是它也只是模仿人類語(yǔ)言的表面結(jié)構(gòu),而非真正理解人類語(yǔ)言的真正語(yǔ)義。
![]()
比如你給AI一道數(shù)學(xué)題,它也會(huì)幫你解答,但是你從它的解題步驟中就可以很明顯感覺(jué)到它有機(jī)械套用的痕跡,要是一個(gè)人類老師給孩子們講題,那首先就是教會(huì)孩子要抓住解決這個(gè)數(shù)學(xué)問(wèn)題的關(guān)鍵要點(diǎn)和解決數(shù)學(xué)問(wèn)題時(shí)需要首先理解其要表達(dá)的數(shù)學(xué)意義,因此人和AI還是有很大區(qū)別的。
![]()
再比如你問(wèn)AI“王陽(yáng)明心學(xué)到底說(shuō)的是什么?”AI可能會(huì)告訴你,“陽(yáng)明心學(xué)就是讓你發(fā)現(xiàn)良知,然后立刻去做!”所以,AI用“高觀點(diǎn)”處理問(wèn)題不是人類強(qiáng)加給它的標(biāo)簽,而是這的確是AI無(wú)意識(shí)下的一種本能展示。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.