網易首頁 > 網易號 > 正文申請入駐

打敗GPT-5.2，嵌入真實工業生產，這個大模型什么來頭？

2026-03-09 15:44:13　來源: 量子位

北京舉報

分享至

最近，一批頂級通用大模型參加了三場特殊的“工業執業考試”

結果出乎意料：即便是GPT-5.2 Thinking (high) 、Gemini-3.1-Pro這類叱咤風云的選手，面對真實的工業工程語境，也并不得心應手。

能寫詩、能編程的通用AI，為什么搞不定一條生產線？

答案藏在一家低調的工業AI明星公司——思謀科技，以及他們自研、專為工業打造的大模型IndustryGPT給出的解題思路里。

要知道，在這三次考試中，IndustryGPT不僅在通用榜單霸榜，更在萬條工業基準和“執業級”工程考場上，打敗了GPT-5.2 Thinking (high)與Gemini-3.1-Pro。

這場“考試”的比分本身或許沒那么重要，但它撕開了一道口子，讓人們看清了通用大模型在真實產業場景下的能力邊界。

當模型真正走進生產線，參與工程決策，“聰明”只是基礎能力，合規、嚴謹、可靠才是核心指標。

這也意味著，大模型賦能實體經濟，正在從概念驗證走向真刀實槍的驗收期。而工業，無疑是這場大考中最硬核的考場。

問題是：中國制造業，到底需要什么樣的AI？

三場考試，看清通用模型的“工業盲區”

IndustryGPT，是思謀科技發布的全球首個專注于工業場景的多模態大模型。

為了回答“制造業需要什么樣的AI”這個問題，思謀做了一件事：把市面上幾款主流大模型拉進來，跟IndustryGPT一起考了三場試

第一場，考工業知識“廣度”

為了建立客觀可比的評測基準，思謀選取權威開源中文數據集SuperGPQA中與工業相關的題目子集，對IndustryGPT與GPT-5.2 Thinking (high) 、Gemini-3.1-Pro等國際頂尖通用大模型進行了橫向測試。

SuperGPQA是目前中文領域覆蓋面最廣、題目質量最高的綜合知識評測數據集之一，其工業相關子集涵蓋了工程技術、制造工藝、材料科學等多個專業方向。

結果顯示：IndustryGPT取得同類模型中的SOTA，在工業專業知識的廣度、問答準確率上，超越了GPT-5.2 Thinking (high) 、Gemini-3.1-Pro等頂尖通用模型。

這說明它在工業專業知識上構建了核心的競爭壁壘，解決了通用大模型“工業知識淺、專業問答錯漏多”的基礎問題。

不過嘛，開源benchmark只是第一道門檻

SuperGPQA雖然覆蓋面廣，但工業場景的專業深度和多樣性遠超標準測試集的范疇——一套通用的考題，很難考出模型在真實產線上的“手感”。更何況，業界目前本就缺少專門針對工業場景的評測數據集。

要想考出大模型在工業場景的真實水平，還得自己出題

于是有了第二場考試：考工業知識深度

思謀自建了一套系統化的工業知識基準評測數據集，包括12個工業相關子領域，涵蓋機械、光學、電氣等核心工程學科，覆蓋3C電子、建筑、礦業、紡織等典型工業領域。

這套benchmark還真不是蓋的：題目總數量超萬條，超過目前所有開源工業數據集

思謀特意設置了一批高難度的“困難問題”，用于模擬真實工業環境中的復雜決策場景。

結果IndustryGPT領先的不是一點半點：在“困難問題”子集上，GPT-5.2 Thinking (high)和Gemini-3.1-Pro統統翻車，而IndustryGPT不僅取得SOTA，還實現了超過20%的相對性能提升。

如果你以為，工業AI只要在自家考卷上贏了就算數，那就太低估工業世界的“狠”了。

AI真要在工業場景里干活，就不能只會答題，還必須具備參與真實工程決策的能力

于是，思謀繼續上強度，組織了第三場考試——考“執業資格”

他們自主構建了全球首個以執業資格難度為標尺、以工程強制規范為剛性約束、以可落地工程決策能力為核心的大模型評測基準，徹底跳出通用學術benchmark的局限。

好家伙，直接從知識理解測試，拉高到了工程決策能力測試

這套評測框架，對齊中美最高級別官方執業資格考試，參照中國全國注冊工程師執業資格考試及美國NCEES FE/PE考試框架。

數據集涵蓋電氣、機械、化工、土木等核心工程學科，問題以真實工程場景為背景，要求模型在多重約束條件下完成法規條文精準匹配、多步驟數值推導，以及跨規范沖突情形下的優先級判斷與風險控制。

注：平均正確率由電氣、機械、化工、土木等學科得分取平均計算得出

對比GPT-5.2 Thinking (high) 等頂尖通用模型，IndustryGPT在兩項測試中均取得SOTA結果。

IndustryGPT不僅在法規條文的精確引用與規范一致性方面展現出更高的穩定度，在跨規范沖突處理、工程假設合理性控制等關鍵指標上也處于領先地位。綜合來看，在實際執業場景中，其針對復雜工程方案的綜合推理評估與輔助決策能力更為出色。

一整個就是逼近真實執業工程師的水平。

這三場考試指向同一個判斷：工業場景對AI的需求，和通用場景存在結構性差異。通用模型在常識層面表現良好，但在規范遵從、邊界控制、復雜決策等工業剛需上，仍然稍遜一籌。

不只是考得好，是真能下產線

評測成績只是門檻，真正關鍵的是：模型能否嵌入生產系統，成為業務流程的一部分。

而IndustryGPT給出的答案是：通過與智能體技術的深度融合，在多個高標準場景中實現感知-決策-執行的完整閉環。

SMore ViMo就是一個典型的行業模型+Agent落地形態。它依托IndustryGPT的原生Agent能力，將客戶從項目啟動到可運行模型的落地周期，從行業平均14天壓縮至3天以內。

工業質檢環節中，可自動識別、歸類缺陷屬性，并通過閉環校驗修正精度，效率飆升200%

此外，IndustryGPT在更復雜的制造深水區，也跑通了消費電子、精密工業、汽車高鐵等細分領域。舉兩個典型例子：

一個是軌道交通的復雜工藝制造領域，制造方案是保障生產規范與質量追溯的核心依據，是承接設計與制造生產的關鍵樞紐。

傳統模式下，制造方案編制高度依賴資深工程師的經驗，不僅效率低下，且易因人為疏漏影響生產效率與質量。

而借助IndustryGPT，就能基于歷史制造方案和個性化需求，自動生成包含詳細操作步驟、關鍵控制點及工序設計的完整制造方案。

通過人機協同方式，實現全流程智能化設計，將工程師從繁瑣的文檔工作中解放出來，專注核心設計的制造實現。

效果也是立竿見影：效率提升15%以上，變更風險顯著降低。

另一個是復雜產線智能管理

在一個高度復雜的制造產線中，產品型號超2.9萬種，工藝差異大、異常類型高度碎片化。傳統模式依賴老員工的經驗判斷，異常響應慢、處置標準不統一且知識無法沉淀。

在這種情況下，問題的關鍵在于如何在海量型號與歷史案例中快速匹配對應的解決路徑，并保證處理過程符合既定SOP。

基于IndustryGPT，思謀在內網環境下構建了閉環智能流程：異常掃碼識別后自動建單，系統自動匹配SOP，調用歷史案例、生成診斷建議，全程只需5秒

結果也很突出：90%以上的常見異常由系統自主解決，核心經驗從個人變為組織資產。

這幾類場景都說明：通用模型“能說”但不敢用，行業模型“能做”且能負責

大模型“驗收標準”正在重構

三場考試以及落地案例背后，指向一個更核心的問題：工業場景對大模型的“驗收標準”正在發生根本性重構

過去幾年，大模型更多是以“智能水平”被評價：參數規模、通用榜單排名、多輪對話能力、代碼生成能力……這些指標在互聯網場景里成立，但在工業場景中，卻遠遠不夠。

工業AI還需要具備三項核心能力，這也是通用模型目前難以通過后期微調實現的：

第一，邊界控制能力

在工業環境中，越界往往意味著風險。模型不僅要給出正確的結果，還要在規范約束和安全邊界內運行。

IndustryGPT沒有簡單照搬通用大模型常用的RLHF訓練方式，而是進一步引入“規范一致性獎勵模型”“計算過程獎勵模型”

模型在訓練中不僅根據最終答案是否正確獲得反饋，更會對中間推理步驟是否符合工程標準、計算路徑是否嚴謹進行細粒度評估。

這也讓模型逐步形成對安全邊界、數值精度和規范沖突處理的穩定偏好，從而在復雜工程問題中表現出更高的可靠性與一致性。

第二，規范遵從能力

工業生產有嚴格的強制性規范，是必須執行的紅線。

在這一點上，IndustryGPT做到了“先學規范，再學表達”。它并未沿用通用互聯網語料為主的訓練范式，而是對工業知識體系進行了結構化重構

通過將工程規范、國家標準、工藝文檔、設備手冊等專業內容進行層級化整理，然后再喂給大模型——讓模型在訓練階段便形成了“規范優先”的知識表達方式，其在回答問題時天然遵循工程語境。

第三，任務執行能力

工業場景不需要紙上談兵的AI。IndustryGPT的Agent架構使其能夠調用工具、拆解任務、執行流程，將抽象理解能力轉化為可執行的工程流程。

這種“認知+執行”一體化的架構，使模型能夠在真實工業環境中完成多步驟任務，而不是停留在文本建議層面。

綜合來看，IndustryGPT的能力提升路徑，代表了工業大模型一個清晰的技術方向：從“通用智能”轉向“可執業智能”

模型不再只是理解世界，而是能夠嚴格遵循工業規則，在真實的強約束條件下，穩定、合規、高效地完成工程任務，實現從實驗室到生產線的跨越

隨著“AI+制造”的逐步深入落地和鋪開，這三項能力，正在成為工業客戶評估AI供應商的新標準。

中國制造業需要什么樣的工業AI？

關于工業AI的路線之爭，行業內的討論從未停止。目前主流的技術路線分為兩派：

一派是“通用大模型+行業微調”路線，核心邏輯是先打造強大的通用底座，再通過行業數據微調，適配工業場景的需求；

另一派則是“原生工業垂類大模型”路線，以思謀IndustryGPT為代表，核心邏輯是從底層訓練范式開始，就針對工業場景的特性進行重構，原生適配工業的規則與需求。

兩條路線的分歧點不在于技術路徑本身，而在于對“驗收標準”的不同理解。

如果驗收標準是“能回答工業問題”，那么微調路線足以交卷。

但如果驗收標準是“能嵌入產線、能按規范干活、能對結果負責”，情況就不一樣了。

因為邊界控制、規范遵從、任務執行這三項能力，與通用模型的訓練范式存在根本性沖突——通用大模型的核心是“泛化理解”，而工業大模型的核心是“精準執行”，后者無法通過后期微調獲得，必須從底層訓練范式開始重構。

2025年，我國AI核心產業規模突破了1.2萬億，但和制造業的融合還卡在“技術不接地氣、場景落不深”的階段。

今年1月，工信部等八部門印發《“人工智能+制造”專項行動實施意見》，明確提出到2027年“推出1000個高水平工業智能體”——“智能體”三個字，就是對“驗收標準”的定調：要的是能執行的AI，不是只能回答的AI。

2026年，隨著大模型進入應用階段，競爭正在從“參數競賽”轉向“落地驗收”

IndustryGPT對GPT-5.2 Thinking (high)等國際頂尖通用大模型那20%的領先幅度，真正的意義并非“誰贏了考試”，而是反映出目前主流通用模型和真實產業需求之間，依然存在系統性錯位。

這種錯位，恰恰印證了工業垂類大模型的核心價值：在AI與制造業深度融合的過程中，通用大模型是重要的技術底座，但貼合產業需求的原生垂類大模型，才是實現技術落地的核心抓手。

回到一開始的問題：中國制造業，到底需要什么樣的AI？

AI賦能實體經濟，終局不是比誰更“聰明”，而是比誰更“落地”。對中國萬千制造企業和無數復雜場景而言，AI的價值從來不是“炫技”，而是“賦能”。

思謀IndustryGPT的探索，是AI產業落地大幕的開始。整個行業的答案，還藏在更多躬身入局的實踐中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

量子位

追蹤人工智能動態

12253文章數 176412關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

本地

游戲

手機

公開課

津南好·四時總相宜
妝藝大游行2026：愿
春花齊放2026：《駿馬奔騰迎新歲》

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

打敗GPT-5.2，嵌入真實工業生產，這個大模型什么來頭？

OpenClaw更新，"養蝦"再也不會犯健忘癥了

媒體：一次越界打擊揭開美以裂痕 伊朗向美國傳遞信號

媒體：一次越界打擊揭開美以裂痕 伊朗向美國傳遞信號

36連勝終結！大魔王也是可以戰勝的

薛之謙老婆懷二胎，現身產檢心情愉快

油價破100美元年內漲80% 全球市場劇震

對標奔馳小號G級 路虎小型衛士最新消息曝光

態度原創

扎哈·哈迪德事務所未來或更名

食味印象｜一口入魂！康樂烤肉串起千年絲路香

《怪物獵人物語3：命運雙龍》評測：融為一體"/> 主站 商城 論壇 自運營 登錄 注冊 《怪物獵人物語3：命運雙龍》評測：融為一體 伊東 2026-03...

7999元起 小米17 Ultra徠卡版黑銀色開售 徠卡設計師親自操刀設計

打敗GPT-5.2，嵌入真實工業生產，這個大模型什么來頭？

OpenClaw更新，"養蝦"再也不會犯健忘癥了

媒體：一次越界打擊揭開美以裂痕伊朗向美國傳遞信號

媒體：一次越界打擊揭開美以裂痕伊朗向美國傳遞信號

36連勝終結！大魔王也是可以戰勝的

對標奔馳小號G級路虎小型衛士最新消息曝光

食味印象｜一口入魂！康樂烤肉串起千年絲路香

《怪物獵人物語3：命運雙龍》評測：融為一體"/> 主站商城論壇自運營登錄注冊《怪物獵人物語3：命運雙龍》評測：融為一體伊東 2026-03...

7999元起小米17 Ultra徠卡版黑銀色開售徠卡設計師親自操刀設計