![]()
作者:高藤
原創(chuàng):深眸財(cái)經(jīng)(chutou0325)
28日晚,許多人都在關(guān)注的第 66 屆國際數(shù)學(xué)奧林匹克競賽(IMO)公布了比賽結(jié)果。
中國隊(duì)不出所料地奪得頭籌,斬獲6 枚金牌。其中更是有兩位同學(xué)獲得滿分,以231分的團(tuán)隊(duì)總成績碾壓全場。
對于這一已經(jīng)預(yù)料到的結(jié)果,網(wǎng)上反應(yīng)比較平淡,引發(fā)熱議的反倒是另一個(gè)賽道的OpenAI。
01 OpenAI“搶跑”背后的幻像
在用于評估AI大模型在數(shù)學(xué)競賽表現(xiàn)的MathArena.ai平臺(tái)上,對當(dāng)前最頂尖的AI公開大模型進(jìn)行了測試
![]()
OpenAI的o3與o4-mini、谷歌的Gemini 2.5、馬斯克家的Grok-4以及國產(chǎn)DeepSeek-R1等頂流AI模型全部出戰(zhàn)。
遺憾的是,AI大模型在這屆IMO上全軍覆沒。
在這場比拼中,得分最高的是谷歌Gemini 2.5拿到13分,也就是31%的分?jǐn)?shù),連銅牌都夠不上。
就在大家紛紛認(rèn)為這就是目前AI的上限時(shí)。
OpenAI團(tuán)隊(duì)帶著最新開發(fā)的通用推理模型,拋出了一顆重磅炸彈:
在與人類完全相同的考試條件下作答,最終解出5道題,共獲得35分,達(dá)到IMO金牌分?jǐn)?shù)線,成功拿到了金牌
![]()
但事實(shí)真的是這樣嗎?
首先引發(fā)大家爭吵的就是消息發(fā)布的時(shí)間。
按照IMO的規(guī)定,所有成績都應(yīng)該在IMO閉幕的一周后再發(fā)布。
結(jié)果當(dāng)?shù)貢r(shí)間19日下午5點(diǎn)43分,閉幕式一結(jié)束,5點(diǎn)50分OpenAI的官方就發(fā)布了“AI剛好壓過金牌線”的消息。
七分鐘之差,既讓OpenAI鉆了規(guī)定的空子,還先其他參賽選手一步,在網(wǎng)絡(luò)上掀起了軒然大波。
這一行為讓不少網(wǎng)友為其他真實(shí)競爭對手打抱不平,畢竟搶跑的行為,本身就是對競爭對手的不尊重。
其次就是,金牌是誰認(rèn)證的?
雖然官方一直說的都是“OpenAI壓上了金牌及格線”,但不少媒體為了省事,直接寫成“AI奪得金牌”。
此外,OpenAI并未接收到任何參加IMO的邀請,更不用說究竟是誰給AI評出的35分好成績。
這就相當(dāng)于自己在家里做了一套高考真題,對照答案評分后,得出了一個(gè)我是高考狀元,能上清華的結(jié)果。
國外有OpenAI以“奪冠”炒作,國內(nèi)也有AI寫高考作文吸睛。
![]()
今年高考語文考試一結(jié)束,各大AI公司迫不及待地讓自己的AI助手開始考試。
豆包、騰訊元寶、天工……一共16款產(chǎn)品,都在網(wǎng)上發(fā)布了自己寫的作文。
面對AI寫出來的作文,不少人站出來說“我覺得AI比我強(qiáng)”。
每每在這種測評的關(guān)鍵時(shí)刻,AI都會(huì)以出色表現(xiàn)“出圈”。
但到了生活中,AI假大空的想法、胡亂編造的數(shù)據(jù)、古今中外虛實(shí)大亂燉的文章模板,甚至連AI造假的事也層出不窮。
![]()
就算這樣,AI的使用率仍在不斷增長。
從學(xué)生用AI代寫論文,到上班白領(lǐng)依賴AI生成報(bào)告,再到媒體行業(yè)機(jī)器人撰稿占比突破40%,人類正經(jīng)歷一場前所未有的“思考能力危機(jī)”。
02 思維惰性引發(fā)認(rèn)知陷阱
AI寫高考作文、壓線奪冠,每一次“出圈”都像是精心策劃。
拋開網(wǎng)絡(luò)上營銷號對AI的呼聲,值得讓我們思考的并不是AI會(huì)不會(huì)代替人類,而是我們總是習(xí)慣把思考的機(jī)會(huì)全部甩給AI,自己坐享其成。
以Cision發(fā)布的《2025全球媒體調(diào)查報(bào)告》為例,通過對19個(gè)國家3,126名記者的調(diào)研發(fā)現(xiàn),53%的記者已在工作中使用生成式AI工具。
在其他使用AI進(jìn)行輔助的領(lǐng)域中,教育行業(yè)首當(dāng)其沖:
國內(nèi)的某高校調(diào)查顯示,使用AI輔助學(xué)習(xí)的學(xué)生中,僅28%能獨(dú)立完成復(fù)雜邏輯推導(dǎo),較五年前下降45%。
神經(jīng)可塑性研究表明,長期依賴AI會(huì)導(dǎo)致大腦神經(jīng)網(wǎng)絡(luò)重構(gòu),前額葉的決策區(qū)域活躍度下降20%,視覺皮層的信息處理區(qū)域卻變得異常活躍。
換句話說,使用AI大量處理認(rèn)知工作,會(huì)讓工作者參與創(chuàng)新所需的深層分析的過程大幅減少,思維出現(xiàn)"斷片"現(xiàn)象,產(chǎn)生認(rèn)知依賴癥。
還會(huì)縮小人腦思考和機(jī)器思考之間的差距,弱化原創(chuàng)觀點(diǎn)和創(chuàng)造性方法所帶來的價(jià)值。
除此之外,過度相信AI的建議,可能會(huì)失去辨別能力,導(dǎo)致錯(cuò)誤信息風(fēng)險(xiǎn)增加。
AI之所以能夠高效產(chǎn)出內(nèi)容,就是因?yàn)樗苯影徇\(yùn)或者套用海量數(shù)據(jù)庫中的表面規(guī)律,但卻不會(huì)主動(dòng)核實(shí)事實(shí)。
2023 年,紐約市協(xié)助政府服務(wù)的AI 聊天機(jī)器人,建議企業(yè)主扣除員工消費(fèi)來獲利,但真實(shí)的法律卻明確規(guī)定了老板不能扣取員工的小費(fèi)。
再比如,政策明確規(guī)定企業(yè)必須接受現(xiàn)金,不得歧視沒有銀行賬戶的客戶。但是AI 卻說“餐廳可以不提供現(xiàn)金付款選擇”。
在面對具有信息變量的情況下,尤其是在涉及多變量分析時(shí),AI就可能生成看似專業(yè)但邏輯不自洽的內(nèi)容。
如果不仔細(xì)甄別,這種“幻覺”現(xiàn)象不僅會(huì)誤導(dǎo)用戶,增加錯(cuò)誤信息的風(fēng)險(xiǎn),還可能引發(fā)信任危機(jī)。
所以說,AI使用率的不斷提高已成必然,但我們該做的不僅是改進(jìn)算法,讓人工智能更好的服務(wù)人類,而是如何才能在享受便利和堅(jiān)守認(rèn)知之間找到平衡。
03 以AI治理AI
首先,利用AI自身的算法能力,來監(jiān)管、優(yōu)化和安全應(yīng)用AI技術(shù)。
![]()
我們常見的AI主要分為,基于模板的自動(dòng)化生成,和基于深度學(xué)習(xí)技術(shù)的自動(dòng)化生成,這兩種類型。
而訓(xùn)練AI的原材料就是數(shù)據(jù)。
以O(shè)pen AI的第一個(gè)大模型GPT1為例,它有1.17億個(gè)參數(shù),到了GPT2,有15億個(gè),而GPT3則增長到了1750億個(gè),GPT4的參數(shù)更是達(dá)到令人震驚的1.8萬億個(gè)。
巨大的參數(shù)數(shù)量決定了AI模型如何對輸入數(shù)據(jù)做出反應(yīng),從而決定模型的行為。
將AI的行為舉止具象化,可以增進(jìn)用戶對AI技術(shù)的理解,識(shí)別其潛在的偏差,有助于平衡用戶對AI的信任度和依賴度。
其次,還可以利用AI技術(shù)研究用戶的心理機(jī)制,成果可以作為改進(jìn)AI模式的參考,避免引發(fā)引發(fā)過度依賴。
AI技術(shù)通過自然語言處理和情感計(jì)算,能夠?qū)崟r(shí)分析用戶的語言、語音和行為模式,識(shí)別潛在的心理健康風(fēng)險(xiǎn)。
例如養(yǎng)老院使用機(jī)器人,通過聲波震顫識(shí)別老人的孤獨(dú)指數(shù),輔助早期篩查抑郁傾向。
在過度依賴AI的防控上,同樣可以運(yùn)用它的算法,通過分析用戶的使用頻次、情感表現(xiàn)、面部表情等,來提供特定的“AI戒斷”方法,降低用戶的依賴程度。
結(jié)語:AI的發(fā)展已成必然,頻頻“出圈”的背后不再只是算法的精進(jìn),還有認(rèn)知主導(dǎo)權(quán)的易主。如何在技術(shù)狂歡與認(rèn)知危機(jī)交織的時(shí)代始終保持警惕,避免淪為算法的附庸,才是人類駕馭科技的關(guān)鍵。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.