網易首頁 > 網易號 > 正文申請入駐

UniPat AI 造了批數據，讓 Qwen 的 3B 激活小模型，單項超過 GPT-5.4

2026-03-09 15:47:39　來源: 賽博禪心

北京舉報

分享至

UniPat AI 開源了他們的一個科研 agent 模型 UniScientist，后訓練自 Qwen3，30B參數，3B激活

在 FrontierScience-Research 榜單上拿了 28.3 分，多跑幾次聚合后 33.3，略微還超過了 GPT-5.4（33.0分）

https://github.com/UniPat-AI/UniScientist

但....別急著下結論，雖然是老朋友，我也不能硬吹，得說一下：FrontierScience-Research 測的是一項很具體的能力

比如：給你一個開放式科學問題，自己檢索文獻，提出假設，做推導，做仿真，迭代驗證，最后交一份完整的研究報告。就是科研這一件事，不是通用智能

用小模型打平 GPT-5.4，靠的也不是模型本身多聰明，而是他們造了一批數據
這批數據怎么造的，比模型本身有意思

數據這件事

好模型 = 好數據 + 好架構 + 足夠算力
這點來說，地球人都知道

但每次 Technical Report 一出來，架構寫幾十頁，數據那一塊輕描淡寫，甚至不提

也好理解，畢竟架構可以復現，但一批做好的領域數據，說出去就沒了

UniScientist 做了 4700 多條科研題目，覆蓋物理、數學、生物、化學、計算機等 50 多個學科。每道題配 20 條以上的評分標準，他們叫 rubric，每條只驗證一個知識點

科研題目的答案是開放的，沒有標準答案。但可以把一個開放問題拆成 20 個檢查項，逐條過，質量就能量化，專家平均花 1 到 2 小時標一條

學科分布兩條彎路

造這批數據之前，走過兩條路

第一條，讓模型直接生成
速度快，成本低。找了一批頂級高校的碩博來看，反饋是「不太像人話，有點假」。措辭，問題的提法，懂行的人一眼看得出來

第二條，純人工標注
質量有保證，但一條標下來要好幾天

還有一個更難的問題：科研題目很多是跨學科的
比如找一個化學博士，標一道生物化學交叉方向的題，他懂化學那半，生物那半大概了解。生成題目的人和驗證題目的人方向不同，理解會出現矛盾

但在這個方向上，模型沒有「不對口」的問題
于是在當前這個階段，就有了 Human in the Loop 的做法，把數據生產拆成流程線。有些步驟模型做，有些步驟專家把關，哪個環節該誰來，一邊做一邊摸

雖然現在還不能把人拿出去，但我也相信在幾年以后，人就可以不在這個 loop 里了

一個圖靈測試

對于搞科研，Unipat AI 團隊做過一個實驗
拿三組題，找了一個美國高校的博士來盲評。然后問：哪組最像真實研究者寫的？

三組分別是：

? FrontierScience 的 benchmark 原題
? 純人工標注的題
? 人機協作生成的題

對 benchmark 原題，評價是：
中規中矩，看完能立刻想到解法方向

對純人工標注那組：
看起來一知半解，有些地方模糊，不像完全對口的人寫的

對人機協作那組：
這道題的完成度，夠一個新晉教授拿項目申請書用了

專業越深，找到完全對口的人來標就越難。人工標注反而可能是更大的瓶頸
在足夠專的領域，「純人工」未必比「人機協作」更真實

再回到分數上
UniScientist 用的基座模型是 Qwen3-30B-A3B

同一個模型，同樣的架構，同樣的算力，不做任何訓練，直接跑 FrontierScience-Research，3 分
用 2000 條他們造的科研數據訓完，大概 15 分
擴到 4700 條，28.3 分

模型沒換，漲的這 25 分是數據喂出來的
邊際效應在哪，再加 10 倍數據會怎樣，目前不知道

整條數據生產的流程大概是這樣的

左邊是專家給出的科學論斷和證據來源，中間是模型做知識擴展，把多個論斷整合成一道完整的研究問題，專家驗證

右邊是從問題里拆出 rubric，再經過一輪演化和專家驗證，最后形成一條完整的訓練數據：研究背景，研究問題，評分標準

UniScientist 推理流程題目長什么樣

Blog 里放了幾道樣題，隨便看兩道

化學方向
給一個線性四烯的熱解反應，已知產物比是 3:1。要求枚舉所有對稱性不同的環化路徑，用 FMO 理論追蹤立體化學，建立統計模型和動力學模型分別預測產物比，設計實驗區分兩個模型，做 DFT 驗證，還要做靈敏度分析。配了 30 條 rubric給一個線性四烯的熱解反應，已知產物比是 3:1。要求枚舉所有對稱性不同的環化路徑，用 FMO 理論追蹤立體化學，建立統計模型和動力學模型分別預測產物比，設計實驗區分兩個模型，做 DFT 驗證，還要做靈敏度分析。配了 30 條 rubric

生態學方向
一個植物加三種傳粉昆蟲加三種害蟲的 ODE 群落模型，給定參數，要求判斷是否存在穩定共存平衡點，算出傳粉者的最低維持閾值，分析對抗壓力下植物崩潰的臨界條件。配了 24 條 rubric

每一道題都要求完整走一遍科研流程：
查文獻，建模型，算一遍，驗證，寫報告...

Blog 里還放了一個完整的推理過程。

一道關于鎳酞菁 meso 位氮原子修飾的題，模型跑了 22 輪工具調用，搜了 Google Scholar，讀了 Nature Communications 的全文，被 ScienceDirect 擋了好幾次，換了別的源繼續找，最后交了一份 17000 字的報告，10 條 rubric 全拿滿

鎳酞菁 meso 位氮原子修飾

完整案例在這：
https://unipat.ai/blog/UniScientist

其他

模型是啥，其實不怎么重要，但還是講一講：基座是 Qwen3-30B-A3B-Thinking，MoE 架構，30B 總參數，每次推理激活 3B。128k 上下文，訓練用了約 1200 小時 H200 算力

推理時有四個工具可以調：網絡搜索，Google Scholar，網頁抓取，代碼執行。每次任務最多跑 100 輪，支持多次 rollout 再聚合

說一下這個榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出來的，專門測科學研究能力。AI 行業有個規律，一個榜出來，各家集中優化，一年左右刷到天花板。這個榜目前各家分差還明顯，還沒到扎堆的階段

具體成績：

? FrontierScience-Research： 28.3 （聚合后 33.3 ），GPT-5.4 是 33.0，GPT-5.4 Pro 更高
? FrontierScience-Olympiad：聚合后 71.0 ，和 Claude Opus 4.5 持平
? DeepResearch Bench： 46.0 ，OpenAI Deep Research 是 47.0
? DeepResearch Bench II： 48.0 ，OpenAI Deep Research 是 45.4
? ResearchRubrics： 59.9 ，OpenAI Deep Research 是 59.7

不帶工具裸跑，成績也比基座有明顯提升。不全是靠工具調用漲的分

模型權重和推理代碼都開源，Apache 2.0

benchmark 詳細對比以及..

之前和他們團隊聊天的時候，我問到
在這個過程中，有沒有發現什么奇怪或者不一樣的事情？

也確實有：用科研數據訓出來的模型，在通用報告生成任務上也漲了

DeepResearch Bench，ResearchRubrics，這些和科研沒直接關系的榜，分數都跟著上來

不過也合理，做研究這件事，要求主動找證據，提假設，驗證，迭代，最后寫結論，和 DeepResearch 挺像的，一旦建立起來，往外溢，大概是自然的

UniPat AI，去年 12 月成立的研究實驗室。之前發過多模態評測基準 BabyVision，已被多個近期發布的模型納入評測體系

項目地址：
https://github.com/UniPat-AI/UniScientist

模型權重：
https://huggingface.co/UnipatAI/UniScientist-30B-A3B

Blog：
https://unipat.ai/blog/UniScientist

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.