所謂Agent,即多模態智能體。如今的多模態處理已經支持文本、圖像、視頻、音頻、3D數據的無縫解析,例如分析運動視頻動作缺陷或生成手寫食譜的雙語電子書等。2025年AI的發展的確異常迅猛,以至于讓很多人心里感到不安和焦慮。
![]()
據說,目前最強大的多模態模型是谷歌Gemini 3,其在LMArena榜單得分1501Elo,推理測試正確率接近92%,并支持DeepThink模式解決ARC-AGI-2等復雜問題。有人說這是撬開了AGI的大門。
![]()
在谷歌最新的Gemini 3和Nano Banana Pro發布前,黃仁勛和奧特曼都一直雄心勃勃,自信非常。他們之前的日子過得可謂風生水起。谷歌,這家曾被認為在AI時代稍顯落后、有點沉睡的巨頭企業,如今也似乎正在全面覺醒。
![]()
Gemini 3是谷歌于2025年11月18日推出的新一代大型語言模型,是基于稀疏混合專家架構并擁有超萬億參數,完全基于TPU訓練的大模型。該模型配備100萬token上下文窗口,支持處理文本、圖像、視頻、音頻和代碼等多模態數據,發布當日就已經整合了谷歌搜索AI模式、Gemini應用、API接口及Vertex AI等產品線內容。與此同步發布的Google Antigravity開發平臺支持自然語言生成完整代碼,實現動態界面定制與多智能體協作執行復雜任務,在AI領域顯然已經做到了遙遙領先。
![]()
其實早在此前OpenAI發布推理模型O3時,就已經讓很多人陷入了存在主義危機,在O3發布之初,經濟學家泰勒.科文(Tyler Cowen)當時也參加了產品內測,據他當時的判斷是其實O3就是AGI(超級人工智能)。
![]()
頂尖生物學家德里亞.烏魯特馬茲(Derya Unutmaz)在X上發文說,他認為O3的智能水平已經達到了或者接近天才水平。后來當o1-Pro剛發布時,人們更慌了……現在是不是看到谷歌的Gemini 3,你更慌了呢?
![]()
OpenAI的首席執行官山姆.奧特曼曾經在一次訪談中說,“當AGI真正來臨的那一天,一開始什么都不會發生,它不會立馬改變世界……但是幾年之后,世界會因此而巨變……”筆者想這句話的意思就是,現在我們很多人還不知道該如何用好AI,沒有讓AI發揮出它最大的潛力。以至于現在如何用好AI它仍是一項非常稀缺的能力。
![]()
現在的很多Agent都是非常聰明的模型,它們會原生態地調用各種工具,很多時候我們不應讓它回答一個問題,而是要給它一個任務讓它去完成。比如你給它們一張照片,它們就可以找出這張照片你是在哪拍的,它們也可以幫你在網上找到你多年不聯系的朋友的賬號。但是它們在聰明的同時也會產生幻覺的。例如,它們在編程時可能也會犯錯誤,它們在回答問題時可能會胡說八道,對一句名言的出處可能會張冠李戴。
![]()
說2025年是Agent元年其實也不是過譽,因為在2025年的年初和年尾都有這么重磅的AI產品,是不是已經亮瞎了很多人的眼睛?!
![]()
但是目前的Agent它們可能還是處于這樣一個階段:它們真的很擅長用很多“高觀點”去分析事物的本質。什么是“高觀點”呢?所謂高觀點就是“StochasticParrot”,它是指某些大語言模型其實就像一只“會說話的鸚鵡”,它只能依靠大數據進行統計預測,說白了其實就是它也只是模仿人類語言的表面結構,而非真正理解人類語言的真正語義。
![]()
比如你給AI一道數學題,它也會幫你解答,但是你從它的解題步驟中就可以很明顯感覺到它有機械套用的痕跡,要是一個人類老師給孩子們講題,那首先就是教會孩子要抓住解決這個數學問題的關鍵要點和解決數學問題時需要首先理解其要表達的數學意義,因此人和AI還是有很大區別的。
![]()
再比如你問AI“王陽明心學到底說的是什么?”AI可能會告訴你,“陽明心學就是讓你發現良知,然后立刻去做!”所以,AI用“高觀點”處理問題不是人類強加給它的標簽,而是這的確是AI無意識下的一種本能展示。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.