網易首頁 > 網易號 > 正文申請入駐

受夠了AI總是胡說八道，OpenAI讓GPT變笨！但這才是對你負責

2025-12-17 06:33:23　來源: 王煜全

北京舉報

分享至

抓住風口

本期要點：如何讓AI值得依賴？靠更大的模型嗎？

你好，我是王煜全，這里是王煜全要聞評論。

2025年終，AI行業出現了一個分裂狀況，究竟是要追求“靠譜”，還是要顯得“聰明”？

前段時間，在谷歌壓力之下，OpenAI不僅亮起了所謂紅色警報，還提前上線了GPT-5.2模型。

可是，第三方評測結果顯示，GPT-5.2并沒有飛躍性的進步，甚至有的報告稱GPT-5.2仍落后于Gemini 3 Pro。

更是有不少用戶吐槽，GPT-5.2的回答變得冰冷生硬，甚至邏輯推理能力還有倒退的跡象。種種主觀感受匯成一個結論，那就是GPT-5.2好像“降智”了。

被寄予厚望的GPT-5.2 怎么反而沒那么聰明了？GPT-5.2滑鐵盧的背后，其實反映出整個AI大模型產業撞到了一個隱形的天花板。

2025年12月9日，谷歌DeepMind低調推出了FACTS基準測試套件（FACTS Benchmark Suite），用科學的評估數據給所有大模型潑了一盆冷水：在基于長文檔進行問答時，沒有任何模型的事實準確率突破70%。

這意味著，即使你用著最昂貴的模型，還是有超過30%的概率接收到錯誤的、或者憑空捏造的信息。

在我們看來，當整個行業在瘋狂堆疊算力與參數后仍無法突破瓶頸時，就意味著發展方式要從追求更大更強的模型，轉向通過系統工程和商業模式的創新來突破準確率瓶頸，讓AI真正變成值得依賴的伙伴。

煉金術

首先，我們認為，在靠譜面前，AI顯得“沒那么聰明”也無傷大雅。

現在的GPT-5.2，確實是問什么就回答什么，不再像以前那樣樂于延展和調侃，給人一種刻板木訥的印象。初步使用谷歌Gemini模型的人，反而會覺得谷歌的模型充滿靈氣，似乎總能領悟到用戶的弦外之音。

但這只是在大語言模型（LLM）架構進入平臺期后，OpenAI和谷歌選擇了不同的優化方向，而產生了不同的表現。

對于大部分人而言，不僅是GPT-5.2沒有什么飛躍，GPT-5相比于OpenAI O3等之前的模型也并沒有什么顯著變化。同樣，在日常使用中，又有多少人能清晰區分Gemini 3和Gemini 2.5的差異呢？

但長期用戶一定能感到一個普遍的問題，所有大模型都時常會一本正經的胡說八道。

其實，DeepMind去年12月發布的《FACTS Grounding》基準測試報告就已經指出，沒有一個大模型的事實準確率能超過70%。也就是說，一年過去了，幻覺問題沒有得到顯著改善。

歸根結底，這是LLM本身的局限使然，從底層原理上講，LLM就是下一個Token的預測器。它通過海量文本學會了在特定上下文的后面接哪個詞的概率最高，從而“猜”出看似合理的回答，但并不真正理解事實與其中的邏輯。

這就像古代的煉金術士，能憑經驗煉出閃亮的產物，卻無法保證每次產物的質量。而現代社會需要的，是基于嚴謹的化學原理，在嚴格的環境下，能重復生產出的可靠產品。

因此，不管給AI喂多少數據、增加多少參數，它都可能被無關信息干擾，幻覺概率難以根本性地下降。哪怕GPT-6、GPT-7出來了，出錯的問題還是會存在。

靠譜更重要

這時，AI公司就必須做出選擇，究竟是要讓AI成為玩具、還是工具。

新用戶可能覺得，充滿想象力、不斷制造驚喜的AI會更好玩。

當年GPT-4o就是妙語連珠、侃侃而談，OpenAI的o1模型也會耍小聰明，盡力滿足用戶的各種要求。

但金融、法律、醫療等領域的專業用戶一定更看重AI的可信賴程度。

舉個最簡單的例子，當生病的用戶拿著一堆檢驗報告來問AI時，他們一定不希望AI在那天馬行空的推理、或充滿發散思維的抖機靈，而是要AI給他們最嚴謹、最可靠的答案。

對于企業而言，70%的可靠性更是難以托付重任。對內發錯一筆工資，對外簽錯一個合同，都是實實在在的損失。

所以，OpenAI把模型優化方向定位為更加嚴謹、減少幻覺，從而打開模型的商業化前景，也就不難理解了。但單純模型優化并不能解決幻覺問題，看來OpenAI還是沒能理解自己的真正優勢是AI顧問，幻覺問題是建立信任的最大障礙。

此前我們就曾指出，既然OpenAI已經擁有了數億用戶，就應該更進一步培養用戶的“AI依賴”—— 任何拿不準的問題都習慣于問一下AI，讓ChatGPT成為用戶的AI顧問。

一旦用戶建立起這種依賴，就很難被其他產品搶走。

閃電戰

那么，更關鍵的問題來了，既然更大的模型不再等于更可靠，又該怎么辦呢？

我們的答案也很明確：從“造坦克”轉到“打閃電戰”。

之前，領先的AI公司都聚焦于提升單體模型的能力，這就是典型的“造坦克”思維，看誰的鋼板厚、火力猛。

可是，當坦克的性能提升遇到瓶頸，戰爭的勝負就取決于誰能打出閃電戰。

正如二戰初期，德軍的坦克并非最強，但憑借無線電協同與空軍的配合，就能快速突破防線，從而40多天擊敗法國。

未來AI領域的玩家也應該著力讓多個模型和外部工具互相配合，構建出能產出可靠結果的系統。只有這樣，人們才敢真正把重要工作交給它。

比如，隨機出現的幻覺和錯誤雖然令人頭疼，但OpenAI可以通過分級服務來解決。

對于關鍵任務，如關乎生死、財務等高風險問題，OpenAI完全在生成初步答案后，自動調用額外的驗證Agent從多個角度對答案重新檢查和補充幾遍，再給出終審后的回答。這個過程確實會多耗費一些算力和時間，但可以大幅降低錯誤概率。

當然，屆時OpenAI也就可以理直氣壯地對“無幻覺服務”收費，比如200美元甚至2000美元一個月，或者一天幾十美元。畢竟提供“可靠性”本身就是一種高價值的服務。

而在平時，用戶只需每月支付20美元，就能滿足日常所需。

這無疑會極大地提升用戶AI依賴的程度，別忘了，對于把ChatGPT當成專家顧問的用戶，每一次幻覺都是對OpenAI的可信度的傷害。

要打出閃電戰，除了要轉變思想，從單純賣大模型技術變成賣可信賴的泛領域的專家顧問服務，速度也至關重要。

目前，OpenAI為了應對谷歌的競爭，已經決定在未來幾周內收縮應用層面的投入，以求在核心技術層面實現突破。

可是，我們很懷疑這個決定的正確性。

在不脫離現有LLM架構的前提下，OpenAI真的能在幾周內實現革命性突破嗎？而且，如果多數用戶要的是可信賴的AI顧問，模型性能提升真的能解決幻覺問題、進而解決信任問題嗎？

同時，在這幾周，如果OpenAI的競爭對手，比如一向標榜自己更真實、更可靠的Anthropic，率先推出無幻覺的專業服務，提前占據了市場心智，那么OpenAI辛苦積攢的高價值用戶也就可能快速流失。要想再把這些用戶搶回來，無疑又要付出高昂代價。

以上就是今天的內容，毫無疑問，未來是AI時代，而盡早開啟孩子AI時代的進化之旅是掌握時代機遇的關鍵。也在此向各位家長推薦前哨AI冬令營。我們認為，最好的學習不是學理論，而是親手實踐。我們將通過一周的集訓，讓孩子能親自上手完成一個真實的AI項目，從理解AI到駕馭AI，快快點擊鏈接了解詳情吧。

更多科技產業的新趨勢和底層規律，歡迎加入科技特訓營學習，和我一起，先人一步，領先一路！

王煜全要聞評論，我們明天見。

↓長按圖片掃碼報名，先人一步，領先一路

最后，鑒于公眾號推送機制的改變，你未來刷到要聞評論的機會可能沒那么多了，建議你加入粉絲群，第一時間得到我的獨家前沿分析，而且我們還會每天在粉絲群里發布獨家資料，快快掃碼加入吧！

此外，我們還為您準備了一個思維導圖，掃描加群即可領取

“AI應用的未來分析”

↓點擊學習王煜全老師最新大師課，掌握馬斯克的賺錢底層邏輯！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GPT-5.3上線Codex！OpenAI回應Claude新模型只用了15分鐘

量子位 2026-02-06 10:43:56
3 跟貼 3
OpenAI頭號叛徒，竟然是自學的AI?

量子位 2025-08-22 16:06:15
1 跟貼 1

蘋果開放第三方大模型：開發工具接入AI，小白10分鐘造APP不是夢

雷科技 2026-02-07 16:46:36
2 跟貼 2

大學無用？奧特曼輟學當了CEO，但名校生撐起了整個OpenAI！

36氪 2026-01-18 10:45:08
35 跟貼 35
AI落地2.0：大模型平權，行業Know-how重回王座

鈦媒體APP 2026-02-05 10:10:14
14 跟貼 14

馬斯克：3年內機器人超越頂尖醫生

財聯社 2026-01-09 15:31:35
0 跟貼 0

馬斯克重磅發聲：三年內部署AI成本最低的地方在太空，Optimus是“無限印鈔機”

華爾街見聞官方 2026-02-07 20:43:04
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
16 跟貼 16

算力競賽分叉：馬斯克太空煉丹，中國3萬AI卡同時點亮！

新智元 2026-02-07 12:23:58
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
小米給KV Cache減負80%！MiMo團隊推出混合稀疏注意力架構

量子位 2026-02-07 18:48:49
0 跟貼 0
蘋果把傳統手藝交給AI了：微調千問模型自動完成UI設計

DeepTech深科技 2026-02-07 20:37:51
0 跟貼 0
2025年出生的機器人已經“淤”了

虎嗅APP 2026-02-07 17:00:10
6 跟貼 6
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
可靈3.0加入AI拜年戰場！人在工位搓好萊塢大片，分鏡邏輯封神

量子位 2026-02-07 18:45:04
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
ChatGPT市場份額暴跌24個點！Gemini、Grok瘋狂追漲

智東西 2026-02-06 15:30:28
5 跟貼 5
DeepMind負責人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯！

新智元 2025-12-16 16:55:25
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
下一代谷歌頭顯，XREAL x Google 定義混合現實頭顯

愛范兒 2025-12-10 05:12:08
0 跟貼 0
憋了這么多年，三星首款AI眼鏡終于確認，2026年見！

雷科技 2026-02-05 16:30:15
8 跟貼 8
機器人進汽車廠，給波士頓動力，裝上谷歌最強大腦

機器之心Pro 2026-01-06 19:02:05
0 跟貼 0
馬斯克又干逆天事，核電站級算力砸向汽車AI

EV視界 2026-02-06 20:28:46
0 跟貼 0
我記得美隊要拿一個神奇女俠的模型

C位影視解說 2026-02-04 10:39:31
3 跟貼 3
范冰冰也是好起來了，和馬斯克母親手牽手，國外影響力一直在的

大蘭愛搞笑 2026-02-06 16:43:00
1 跟貼 1
馬斯克攻克干電極技術！特斯拉電池成本降半

書慧我心 2026-02-07 03:46:31
0 跟貼 0
馬斯克造車是否偷工減料？大哥揭秘一目了然，傷害不大侮辱極強！

旅行小小攻略記錄 2026-02-06 09:18:47
0 跟貼 0
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
31 跟貼 31
陳丹琦入職Mira翁荔公司，原來是有IOI三金王賽友

量子位 2026-02-06 14:29:49
0 跟貼 0
OpenAI、Anthropic發新模型，一個替你寫代碼，一個替公司管流程

DeepTech深科技 2026-02-06 14:59:53
2 跟貼 2
馬斯克演示單輪汽車，起碼還需要10年的努力，一旦上市會改變世界

閑云談笑 2026-02-05 17:34:12
1 跟貼 1
小姑子強勢霸占嫂子房子，我哥的就是我的，奇葩邏輯讓人憤怒

熊樣動漫 2026-02-04 05:09:10
0 跟貼 0
預制菜國標公開征求意見；蘋果50周年慶典定檔4月

IT之家 2026-02-07 07:15:16
0 跟貼 0
面向Agent時代！小米MiMo推出HySparse混合稀疏注意力架構

智東西 2026-02-07 15:43:18
0 跟貼 0
段永平：投資特斯拉基本看市夢率

每日經濟新聞 2026-02-04 17:14:25
115 跟貼 115
馬斯克豪賭太空AI，SpaceX股東獨家回應

究竟視頻 2026-02-05 07:31:08
0 跟貼 0
最后的瘋狂也未能如愿

絕絕子剪影 2026-02-03 16:22:14
1 跟貼 1

王煜全

王煜全帶你一起看創新

1007文章數 762關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

健康

親子

數碼

軍事航空

手機 / 數碼

房產 / 家居

受夠了AI總是胡說八道，OpenAI讓GPT變笨！但這才是對你負責

小米千匹馬力新車亮相！問界M6雙動力齊報

日媒狠批特朗普干涉日本內政：前所未有 不可容忍

日媒狠批特朗普干涉日本內政：前所未有 不可容忍

主隊球迷唯一愛將，說自己不該在NBA打球

何超欣說和何猷君沒競爭，實力遭質疑

金價高波動時代來了

工信部公告落地 全新騰勢Z9GT煥新升級

態度原創

黑龍江鐵力：冰雪文旅多點發力 燃動冬季出圈出彩

轉頭就暈的耳石癥，能開車上班嗎？

萌娃暖心表白外婆，還不忘在貓眼和外婆告狀，太可愛了

華碩ROG駭客RTX 5090D v2顯卡30周年紀念版上市，29999元

重大轉變 特朗普簽令調整軍售排序

日媒狠批特朗普干涉日本內政：前所未有不可容忍

日媒狠批特朗普干涉日本內政：前所未有不可容忍

工信部公告落地全新騰勢Z9GT煥新升級

黑龍江鐵力：冰雪文旅多點發力燃動冬季出圈出彩

重大轉變特朗普簽令調整軍售排序