![]()
抓住風口
本期要點:如何讓AI值得依賴?靠更大的模型嗎?
你好,我是王煜全,這里是王煜全要聞評論。
2025年終,AI行業出現了一個分裂狀況,究竟是要追求“靠譜”,還是要顯得“聰明”?
前段時間,在谷歌壓力之下,OpenAI不僅亮起了所謂紅色警報,還提前上線了GPT-5.2模型。
![]()
可是,第三方評測結果顯示,GPT-5.2并沒有飛躍性的進步,甚至有的報告稱GPT-5.2仍落后于Gemini 3 Pro。
更是有不少用戶吐槽,GPT-5.2的回答變得冰冷生硬,甚至邏輯推理能力還有倒退的跡象。種種主觀感受匯成一個結論,那就是GPT-5.2好像“降智”了。
被寄予厚望的GPT-5.2 怎么反而沒那么聰明了?GPT-5.2滑鐵盧的背后,其實反映出整個AI大模型產業撞到了一個隱形的天花板。
![]()
2025年12月9日,谷歌DeepMind低調推出了FACTS基準測試套件 (FACTS Benchmark Suite),用科學的評估數據給所有大模型潑了一盆冷水:在基于長文檔進行問答時,沒有任何模型的事實準確率突破70%。
這意味著,即使你用著最昂貴的模型,還是有超過30%的概率接收到錯誤的、或者憑空捏造的信息。
在我們看來,當整個行業在瘋狂堆疊算力與參數后仍無法突破瓶頸時,就意味著發展方式要從追求更大更強的模型,轉向通過系統工程和商業模式的創新來突破準確率瓶頸,讓AI真正變成值得依賴的伙伴。
煉金術
首先,我們認為,在靠譜面前,AI顯得“沒那么聰明”也無傷大雅。
現在的GPT-5.2,確實是問什么就回答什么,不再像以前那樣樂于延展和調侃,給人一種刻板木訥的印象。初步使用谷歌Gemini模型的人,反而會覺得谷歌的模型充滿靈氣,似乎總能領悟到用戶的弦外之音。
但這只是在大語言模型(LLM)架構進入平臺期后,OpenAI和谷歌選擇了不同的優化方向,而產生了不同的表現。
對于大部分人而言,不僅是GPT-5.2沒有什么飛躍,GPT-5相比于OpenAI O3等之前的模型也并沒有什么顯著變化。同樣,在日常使用中,又有多少人能清晰區分Gemini 3和Gemini 2.5的差異呢?
![]()
但長期用戶一定能感到一個普遍的問題,所有大模型都時常會一本正經的胡說八道。
其實,DeepMind去年12月發布的《FACTS Grounding》基準測試報告就已經指出,沒有一個大模型的事實準確率能超過70%。也就是說,一年過去了,幻覺問題沒有得到顯著改善。
歸根結底,這是LLM本身的局限使然,從底層原理上講,LLM就是下一個Token的預測器。它通過海量文本學會了在特定上下文的后面接哪個詞的概率最高,從而“猜”出看似合理的回答,但并不真正理解事實與其中的邏輯。
這就像古代的煉金術士,能憑經驗煉出閃亮的產物,卻無法保證每次產物的質量。而現代社會需要的,是基于嚴謹的化學原理,在嚴格的環境下,能重復生產出的可靠產品。
因此,不管給AI喂多少數據、增加多少參數,它都可能被無關信息干擾,幻覺概率難以根本性地下降。哪怕GPT-6、GPT-7出來了,出錯的問題還是會存在。
靠譜更重要
這時,AI公司就必須做出選擇,究竟是要讓AI成為玩具、還是工具。
新用戶可能覺得,充滿想象力、不斷制造驚喜的AI會更好玩。
當年GPT-4o就是妙語連珠、侃侃而談,OpenAI的o1模型也會耍小聰明,盡力滿足用戶的各種要求。
但金融、法律、醫療等領域的專業用戶一定更看重AI的可信賴程度。
舉個最簡單的例子,當生病的用戶拿著一堆檢驗報告來問AI時,他們一定不希望AI在那天馬行空的推理、或充滿發散思維的抖機靈,而是要AI給他們最嚴謹、最可靠的答案。
對于企業而言,70%的可靠性更是難以托付重任。對內發錯一筆工資,對外簽錯一個合同,都是實實在在的損失。
所以,OpenAI把模型優化方向定位為更加嚴謹、減少幻覺,從而打開模型的商業化前景,也就不難理解了。但單純模型優化并不能解決幻覺問題,看來OpenAI還是沒能理解自己的真正優勢是AI顧問,幻覺問題是建立信任的最大障礙。
此前我們就曾指出,既然OpenAI已經擁有了數億用戶,就應該更進一步培養用戶的“AI依賴”—— 任何拿不準的問題都習慣于問一下AI,讓ChatGPT成為用戶的AI顧問。
一旦用戶建立起這種依賴,就很難被其他產品搶走。
閃電戰
那么,更關鍵的問題來了,既然更大的模型不再等于更可靠,又該怎么辦呢?
我們的答案也很明確:從“造坦克”轉到“打閃電戰”。
之前,領先的AI公司都聚焦于提升單體模型的能力,這就是典型的“造坦克”思維,看誰的鋼板厚、火力猛。
可是,當坦克的性能提升遇到瓶頸,戰爭的勝負就取決于誰能打出閃電戰。
正如二戰初期,德軍的坦克并非最強,但憑借無線電協同與空軍的配合,就能快速突破防線,從而40多天擊敗法國。
![]()
未來AI領域的玩家也應該著力讓多個模型和外部工具互相配合,構建出能產出可靠結果的系統。只有這樣,人們才敢真正把重要工作交給它。
比如,隨機出現的幻覺和錯誤雖然令人頭疼,但OpenAI可以通過分級服務來解決。
對于關鍵任務,如關乎生死、財務等高風險問題,OpenAI完全在生成初步答案后,自動調用額外的驗證Agent從多個角度對答案重新檢查和補充幾遍,再給出終審后的回答。這個過程確實會多耗費一些算力和時間,但可以大幅降低錯誤概率。
當然,屆時OpenAI也就可以理直氣壯地對“無幻覺服務”收費,比如200美元甚至2000美元一個月,或者一天幾十美元。畢竟提供“可靠性”本身就是一種高價值的服務。
而在平時,用戶只需每月支付20美元,就能滿足日常所需。
這無疑會極大地提升用戶AI依賴的程度,別忘了,對于把ChatGPT當成專家顧問的用戶,每一次幻覺都是對OpenAI的可信度的傷害。
要打出閃電戰,除了要轉變思想,從單純賣大模型技術變成賣可信賴的泛領域的專家顧問服務,速度也至關重要。
目前,OpenAI為了應對谷歌的競爭,已經決定在未來幾周內收縮應用層面的投入,以求在核心技術層面實現突破。
可是,我們很懷疑這個決定的正確性。
在不脫離現有LLM架構的前提下,OpenAI真的能在幾周內實現革命性突破嗎?而且,如果多數用戶要的是可信賴的AI顧問,模型性能提升真的能解決幻覺問題、進而解決信任問題嗎?
同時,在這幾周,如果OpenAI的競爭對手,比如一向標榜自己更真實、更可靠的Anthropic,率先推出無幻覺的專業服務,提前占據了市場心智,那么OpenAI辛苦積攢的高價值用戶也就可能快速流失。要想再把這些用戶搶回來,無疑又要付出高昂代價。
以上就是今天的內容,毫無疑問,未來是AI時代,而盡早開啟孩子AI時代的進化之旅是掌握時代機遇的關鍵。也在此向各位家長推薦前哨AI冬令營。我們認為,最好的學習不是學理論,而是親手實踐。我們將通過一周的集訓,讓孩子能親自上手完成一個真實的AI項目,從理解AI到駕馭AI,快快點擊鏈接了解詳情吧。
更多科技產業的新趨勢和底層規律,歡迎加入科技特訓營學習,和我一起,先人一步,領先一路!
王煜全要聞評論,我們明天見。
↓長按圖片掃碼報名,先人一步,領先一路
最后, 鑒于公眾 號推送機制的改變,你未來刷 到要聞評論的機會可能沒那么多了,建議你加入粉絲群,第一時間 得到我的獨家前沿分析,而且我們還會每天在粉絲群里發布獨家資料,快快掃碼加入吧!
此外,我們還為您準備了一個思維導圖,掃描加群即可領取
“AI應用的未來分析”
↓點擊學習王煜全老師最新大師課,掌握馬斯克的賺錢底層邏輯!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.