UniPat AI 開源了他們的一個科研 agent 模型 UniScientist,后訓練自 Qwen3,30B參數,3B激活
在 FrontierScience-Research 榜單上拿了 28.3 分,多跑幾次聚合后 33.3,略微還超過了 GPT-5.4(33.0分)
![]()
https://github.com/UniPat-AI/UniScientist
但....別急著下結論,雖然是老朋友,我也不能硬吹,得說一下:FrontierScience-Research 測的是一項很具體的能力
比如:給你一個開放式科學問題,自己檢索文獻,提出假設,做推導,做仿真,迭代驗證,最后交一份完整的研究報告。就是科研這一件事,不是通用智能
用小模型打平 GPT-5.4,靠的也不是模型本身多聰明,而是他們造了一批數據
這批數據怎么造的,比模型本身有意思
數據這件事
好模型 = 好數據 + 好架構 + 足夠算力
這點來說,地球人都知道
但每次 Technical Report 一出來,架構寫幾十頁,數據那一塊輕描淡寫,甚至不提
也好理解,畢竟架構可以復現,但一批做好的領域數據,說出去就沒了
UniScientist 做了 4700 多條科研題目,覆蓋物理、數學、生物、化學、計算機等 50 多個學科。每道題配 20 條以上的評分標準,他們叫 rubric,每條只驗證一個知識點
科研題目的答案是開放的,沒有標準答案。但可以把一個開放問題拆成 20 個檢查項,逐條過,質量就能量化,專家平均花 1 到 2 小時標一條
![]()
學科分布 兩條彎路
造這批數據之前,走過兩條路
第一條,讓模型直接生成
速度快,成本低。找了一批頂級高校的碩博來看,反饋是「不太像人話,有點假」。措辭,問題的提法,懂行的人一眼看得出來
第二條,純人工標注
質量有保證,但一條標下來要好幾天
還有一個更難的問題:科研題目很多是跨學科的
比如找一個化學博士,標一道生物化學交叉方向的題,他懂化學那半,生物那半大概了解。生成題目的人和驗證題目的人方向不同,理解會出現矛盾
但在這個方向上,模型沒有「不對口」的問題
于是在當前這個階段,就有了 Human in the Loop 的做法,把數據生產拆成流程線。有些步驟模型做,有些步驟專家把關,哪個環節該誰來,一邊做一邊摸
雖然現在還不能把人拿出去,但我也相信在幾年以后,人就可以不在這個 loop 里了
一個圖靈測試
對于搞科研,Unipat AI 團隊做過一個實驗
拿三組題,找了一個美國高校的博士來盲評。然后問:哪組最像真實研究者寫的?
三組分別是:
? FrontierScience 的 benchmark 原題
? 純人工標注的題
? 人機協作生成的題
對 benchmark 原題,評價是:
中規中矩,看完能立刻想到解法方向
對純人工標注那組:
看起來一知半解,有些地方模糊,不像完全對口的人寫的
對人機協作那組:
這道題的完成度,夠一個新晉教授拿項目申請書用了
專業越深,找到完全對口的人來標就越難。人工標注反而可能是更大的瓶頸
在足夠專的領域,「純人工」未必比「人機協作」更真實
再回到分數上
UniScientist 用的基座模型是 Qwen3-30B-A3B
同一個模型,同樣的架構,同樣的算力,不做任何訓練,直接跑 FrontierScience-Research,3 分
用 2000 條他們造的科研數據訓完,大概 15 分
擴到 4700 條,28.3 分
模型沒換,漲的這 25 分是數據喂出來的
邊際效應在哪,再加 10 倍數據會怎樣,目前不知道
整條數據生產的流程大概是這樣的
左邊是專家給出的科學論斷和證據來源,中間是模型做知識擴展,把多個論斷整合成一道完整的研究問題,專家驗證
右邊是從問題里拆出 rubric,再經過一輪演化和專家驗證,最后形成一條完整的訓練數據:研究背景,研究問題,評分標準
![]()
UniScientist 推理流程 題目長什么樣
Blog 里放了幾道樣題,隨便看兩道
化學方向
給一個線性四烯的熱解反應,已知產物比是 3:1。要求枚舉所有對稱性不同的環化路徑,用 FMO 理論追蹤立體化學,建立統計模型和動力學模型分別預測產物比,設計實驗區分兩個模型,做 DFT 驗證,還要做靈敏度分析。配了 30 條 rubric給一個線性四烯的熱解反應,已知產物比是 3:1。要求枚舉所有對稱性不同的環化路徑,用 FMO 理論追蹤立體化學,建立統計模型和動力學模型分別預測產物比,設計實驗區分兩個模型,做 DFT 驗證,還要做靈敏度分析。配了 30 條 rubric
![]()
生態學方向
一個植物加三種傳粉昆蟲加三種害蟲的 ODE 群落模型,給定參數,要求判斷是否存在穩定共存平衡點,算出傳粉者的最低維持閾值,分析對抗壓力下植物崩潰的臨界條件。配了 24 條 rubric
![]()
每一道題都要求完整走一遍科研流程:查文獻,建模型,算一遍,驗證,寫報告...
Blog 里還放了一個完整的推理過程。
一道關于鎳酞菁 meso 位氮原子修飾的題,模型跑了 22 輪工具調用,搜了 Google Scholar,讀了 Nature Communications 的全文,被 ScienceDirect 擋了好幾次,換了別的源繼續找,最后交了一份 17000 字的報告,10 條 rubric 全拿滿
![]()
![]()
![]()
鎳酞菁 meso 位氮原子修飾
完整案例在這:https://unipat.ai/blog/UniScientist
其他
模型是啥,其實不怎么重要,但還是講一講:基座是 Qwen3-30B-A3B-Thinking,MoE 架構,30B 總參數,每次推理激活 3B。128k 上下文,訓練用了約 1200 小時 H200 算力
推理時有四個工具可以調:網絡搜索,Google Scholar,網頁抓取,代碼執行。每次任務最多跑 100 輪,支持多次 rollout 再聚合
說一下這個榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出來的,專門測科學研究能力。AI 行業有個規律,一個榜出來,各家集中優化,一年左右刷到天花板。這個榜目前各家分差還明顯,還沒到扎堆的階段
具體成績:
? FrontierScience-Research: 28.3 (聚合后 33.3 ),GPT-5.4 是 33.0,GPT-5.4 Pro 更高
? FrontierScience-Olympiad:聚合后 71.0 ,和 Claude Opus 4.5 持平
? DeepResearch Bench: 46.0 ,OpenAI Deep Research 是 47.0
? DeepResearch Bench II: 48.0 ,OpenAI Deep Research 是 45.4
? ResearchRubrics: 59.9 ,OpenAI Deep Research 是 59.7
不帶工具裸跑,成績也比基座有明顯提升。不全是靠工具調用漲的分
模型權重和推理代碼都開源,Apache 2.0
![]()
benchmark 詳細對比 以及..
之前和他們團隊聊天的時候,我問到
在這個過程中,有沒有發現什么奇怪或者不一樣的事情?
也確實有:用科研數據訓出來的模型,在通用報告生成任務上也漲了
DeepResearch Bench,ResearchRubrics,這些和科研沒直接關系的榜,分數都跟著上來
不過也合理,做研究這件事,要求主動找證據,提假設,驗證,迭代,最后寫結論,和 DeepResearch 挺像的,一旦建立起來,往外溢,大概是自然的
UniPat AI,去年 12 月成立的研究實驗室。之前發過多模態評測基準 BabyVision,已被多個近期發布的模型納入評測體系
項目地址:https://github.com/UniPat-AI/UniScientist
模型權重:https://huggingface.co/UnipatAI/UniScientist-30B-A3B
Blog:https://unipat.ai/blog/UniScientist
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.