<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      UniPat AI 造了批數據,讓 Qwen 的 3B 激活小模型,單項超過 GPT-5.4

      0
      分享至

      UniPat AI 開源了他們的一個科研 agent 模型 UniScientist,后訓練自 Qwen3,30B參數,3B激活

      在 FrontierScience-Research 榜單上拿了 28.3 分,多跑幾次聚合后 33.3,略微還超過了 GPT-5.4(33.0分)


      https://github.com/UniPat-AI/UniScientist

      但....別急著下結論,雖然是老朋友,我也不能硬吹,得說一下:FrontierScience-Research 測的是一項很具體的能力

      比如:給你一個開放式科學問題,自己檢索文獻,提出假設,做推導,做仿真,迭代驗證,最后交一份完整的研究報告。就是科研這一件事,不是通用智能

      用小模型打平 GPT-5.4,靠的也不是模型本身多聰明,而是他們造了一批數據
      這批數據怎么造的,比模型本身有意思

      數據這件事

      好模型 = 好數據 + 好架構 + 足夠算力
      這點來說,地球人都知道

      但每次 Technical Report 一出來,架構寫幾十頁,數據那一塊輕描淡寫,甚至不提

      也好理解,畢竟架構可以復現,但一批做好的領域數據,說出去就沒了

      UniScientist 做了 4700 多條科研題目,覆蓋物理、數學、生物、化學、計算機等 50 多個學科。每道題配 20 條以上的評分標準,他們叫 rubric,每條只驗證一個知識點

      科研題目的答案是開放的,沒有標準答案。但可以把一個開放問題拆成 20 個檢查項,逐條過,質量就能量化,專家平均花 1 到 2 小時標一條


      學科分布 兩條彎路

      造這批數據之前,走過兩條路

      第一條,讓模型直接生成
      速度快,成本低。找了一批頂級高校的碩博來看,反饋是「不太像人話,有點假」。措辭,問題的提法,懂行的人一眼看得出來

      第二條,純人工標注
      質量有保證,但一條標下來要好幾天

      還有一個更難的問題:科研題目很多是跨學科的
      比如找一個化學博士,標一道生物化學交叉方向的題,他懂化學那半,生物那半大概了解。生成題目的人和驗證題目的人方向不同,理解會出現矛盾

      但在這個方向上,模型沒有「不對口」的問題
      于是在當前這個階段,就有了 Human in the Loop 的做法,把數據生產拆成流程線。有些步驟模型做,有些步驟專家把關,哪個環節該誰來,一邊做一邊摸

      雖然現在還不能把人拿出去,但我也相信在幾年以后,人就可以不在這個 loop 里了

      一個圖靈測試

      對于搞科研,Unipat AI 團隊做過一個實驗
      拿三組題,找了一個美國高校的博士來盲評。然后問:哪組最像真實研究者寫的?

      三組分別是:

      • ? FrontierScience 的 benchmark 原題

      • ? 純人工標注的題

      • ? 人機協作生成的題

      對 benchmark 原題,評價是:
      中規中矩,看完能立刻想到解法方向

      對純人工標注那組:
      看起來一知半解,有些地方模糊,不像完全對口的人寫的

      對人機協作那組:
      這道題的完成度,夠一個新晉教授拿項目申請書用了

      專業越深,找到完全對口的人來標就越難。人工標注反而可能是更大的瓶頸
      在足夠專的領域,「純人工」未必比「人機協作」更真實

      再回到分數上
      UniScientist 用的基座模型是 Qwen3-30B-A3B

      同一個模型,同樣的架構,同樣的算力,不做任何訓練,直接跑 FrontierScience-Research,3 分
      用 2000 條他們造的科研數據訓完,大概 15 分
      擴到 4700 條,28.3 分

      模型沒換,漲的這 25 分是數據喂出來的
      邊際效應在哪,再加 10 倍數據會怎樣,目前不知道

      整條數據生產的流程大概是這樣的

      左邊是專家給出的科學論斷和證據來源,中間是模型做知識擴展,把多個論斷整合成一道完整的研究問題,專家驗證

      右邊是從問題里拆出 rubric,再經過一輪演化和專家驗證,最后形成一條完整的訓練數據:研究背景,研究問題,評分標準


      UniScientist 推理流程 題目長什么樣

      Blog 里放了幾道樣題,隨便看兩道

      化學方向
      給一個線性四烯的熱解反應,已知產物比是 3:1。要求枚舉所有對稱性不同的環化路徑,用 FMO 理論追蹤立體化學,建立統計模型和動力學模型分別預測產物比,設計實驗區分兩個模型,做 DFT 驗證,還要做靈敏度分析。配了 30 條 rubric給一個線性四烯的熱解反應,已知產物比是 3:1。要求枚舉所有對稱性不同的環化路徑,用 FMO 理論追蹤立體化學,建立統計模型和動力學模型分別預測產物比,設計實驗區分兩個模型,做 DFT 驗證,還要做靈敏度分析。配了 30 條 rubric


      生態學方向
      一個植物加三種傳粉昆蟲加三種害蟲的 ODE 群落模型,給定參數,要求判斷是否存在穩定共存平衡點,算出傳粉者的最低維持閾值,分析對抗壓力下植物崩潰的臨界條件。配了 24 條 rubric


      每一道題都要求完整走一遍科研流程:
      查文獻建模型算一遍驗證寫報告...

      Blog 里還放了一個完整的推理過程。

      一道關于鎳酞菁 meso 位氮原子修飾的題,模型跑了 22 輪工具調用,搜了 Google Scholar,讀了 Nature Communications 的全文,被 ScienceDirect 擋了好幾次,換了別的源繼續找,最后交了一份 17000 字的報告,10 條 rubric 全拿滿




      鎳酞菁 meso 位氮原子修飾

      完整案例在這:
      https://unipat.ai/blog/UniScientist

      其他

      模型是啥,其實不怎么重要,但還是講一講:基座是 Qwen3-30B-A3B-Thinking,MoE 架構,30B 總參數,每次推理激活 3B。128k 上下文,訓練用了約 1200 小時 H200 算力

      推理時有四個工具可以調:網絡搜索,Google Scholar,網頁抓取,代碼執行。每次任務最多跑 100 輪,支持多次 rollout 再聚合

      說一下這個榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出來的,專門測科學研究能力。AI 行業有個規律,一個榜出來,各家集中優化,一年左右刷到天花板。這個榜目前各家分差還明顯,還沒到扎堆的階段

      具體成績:

      • ? FrontierScience-Research: 28.3 (聚合后 33.3 ),GPT-5.4 是 33.0,GPT-5.4 Pro 更高

      • ? FrontierScience-Olympiad:聚合后 71.0 ,和 Claude Opus 4.5 持平

      • ? DeepResearch Bench: 46.0 ,OpenAI Deep Research 是 47.0

      • ? DeepResearch Bench II: 48.0 ,OpenAI Deep Research 是 45.4

      • ? ResearchRubrics: 59.9 ,OpenAI Deep Research 是 59.7

      不帶工具裸跑,成績也比基座有明顯提升。不全是靠工具調用漲的分

      模型權重和推理代碼都開源,Apache 2.0


      benchmark 詳細對比 以及..

      之前和他們團隊聊天的時候,我問到
      在這個過程中,有沒有發現什么奇怪或者不一樣的事情?

      也確實有:用科研數據訓出來的模型,在通用報告生成任務上也漲了

      DeepResearch Bench,ResearchRubrics,這些和科研沒直接關系的榜,分數都跟著上來

      不過也合理,做研究這件事,要求主動找證據,提假設,驗證,迭代,最后寫結論,和 DeepResearch 挺像的,一旦建立起來,往外溢,大概是自然的

      UniPat AI,去年 12 月成立的研究實驗室。之前發過多模態評測基準 BabyVision,已被多個近期發布的模型納入評測體系

      項目地址:
      https://github.com/UniPat-AI/UniScientist

      模型權重:
      https://huggingface.co/UnipatAI/UniScientist-30B-A3B

      Blog:
      https://unipat.ai/blog/UniScientist

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      內塔尼亞胡跪求美軍永久駐軍,以色列80年破戒…

      內塔尼亞胡跪求美軍永久駐軍,以色列80年破戒…

      福建平子
      2026-04-03 17:07:41
      攤上事了!張蘭被起訴落淚,無心管馬筱梅作妖,上億名畫遭扣押

      攤上事了!張蘭被起訴落淚,無心管馬筱梅作妖,上億名畫遭扣押

      橙星文娛
      2026-04-03 17:10:29
      美國有這樣的研究員,我們就放心了!

      美國有這樣的研究員,我們就放心了!

      清沐執筆
      2026-04-03 16:49:55
      一場108-113讓火箭很無奈!首輪對陣基本出爐,都拿湖人當軟柿子

      一場108-113讓火箭很無奈!首輪對陣基本出爐,都拿湖人當軟柿子

      毒舌NBA
      2026-04-03 10:15:45
      丈夫每個月給小叔子4800生活費,我因此和丈夫離婚,我前腳剛離

      丈夫每個月給小叔子4800生活費,我因此和丈夫離婚,我前腳剛離

      小秋情感說
      2026-04-03 09:20:55
      我從來沒覺得飽滿是缺點,除了……黑點

      我從來沒覺得飽滿是缺點,除了……黑點

      飛娛日記
      2026-03-27 08:44:43
      跟前夫吃完散伙飯,我單身一人前往瑞士定居,他如愿和秘書舉辦婚禮,卻因為賓客閑聊的一句話,前夫聽后當場瘋了

      跟前夫吃完散伙飯,我單身一人前往瑞士定居,他如愿和秘書舉辦婚禮,卻因為賓客閑聊的一句話,前夫聽后當場瘋了

      奶茶麥子
      2026-04-03 15:11:10
      中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

      中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

      嘆知
      2026-03-29 18:13:46
      小米宣布調價!盧偉冰、魏思琪:望大家理解

      小米宣布調價!盧偉冰、魏思琪:望大家理解

      極目新聞
      2026-04-03 15:27:09
      數千美軍深入伊朗腹地,搶了濃縮鈾之后,光天化日修建機場運走?

      數千美軍深入伊朗腹地,搶了濃縮鈾之后,光天化日修建機場運走?

      通鑒史智
      2026-04-03 10:08:22
      張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

      張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

      八斗小先生
      2026-03-27 16:18:15
      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      帶你感受人間冷暖
      2026-02-07 03:58:56
      孩子咳嗽半年跑9家醫院,最后確診罕見病,媽媽:是我大意了

      孩子咳嗽半年跑9家醫院,最后確診罕見病,媽媽:是我大意了

      一口娛樂
      2026-04-02 14:13:34
      蘋果宣布新品降價!已經購買的用戶可以申請退款

      蘋果宣布新品降價!已經購買的用戶可以申請退款

      XCiOS俱樂部
      2026-04-02 09:26:32
      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

      老吳教育課堂
      2026-03-30 11:58:41
      WSBK碾壓式奪冠 華為加持 張雪機車有多少是國產的?

      WSBK碾壓式奪冠 華為加持 張雪機車有多少是國產的?

      CNMO科技
      2026-04-01 09:34:10
      江浙滬的包容感火了!網友:唯一規矩就是小孩不能坐出菜口?

      江浙滬的包容感火了!網友:唯一規矩就是小孩不能坐出菜口?

      今日搞笑分享
      2026-04-02 18:53:49
      亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

      亡母再婚水落石出,國社一錘定音,輿論反撲孫女士,小姨索要回報

      潮鹿逐夢
      2026-04-01 09:33:54
      4.3日早評|永遠關閉!全球巨震!A股周五爆了!

      4.3日早評|永遠關閉!全球巨震!A股周五爆了!

      龍行天下虎
      2026-04-03 09:05:38
      風險驟升!聯合國拉響警報:阿拉伯或將迎來"史無前例大衰退"

      風險驟升!聯合國拉響警報:阿拉伯或將迎來"史無前例大衰退"

      可樂愛微笑
      2026-04-03 16:23:02
      2026-04-03 17:52:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數 50關注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      優思益:公司整體處于崩潰邊緣 已起訴浙江索象公司

      頭條要聞

      優思益:公司整體處于崩潰邊緣 已起訴浙江索象公司

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      藝術
      教育
      游戲
      房產
      手機

      藝術要聞

      吳昌碩『扇畫』老辣古拙

      教育要聞

      靜待花開 與子同行——馬莉家教好故事

      動視暴雪暗藏大招?虐殺原形與疾馳殘影注冊域名被扒

      房產要聞

      理科生的浪漫,都藏在細節里!中交·藍色港灣這場交付太硬核!

      手機要聞

      延續上一代!iPhone 18 Pro黑色款將繼續缺席 深紅配色登場

      無障礙瀏覽 進入關懷版