<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      聚焦·人工智能 | 如何判定人工智能的科研能力

      0
      分享至


      人工智能技術飛速發展并持續向科研領域滲透,如何判斷AI是否真正具備開展科學研究的能力已成為學界關注的核心議題。當前,各類新型基準測試接連問世,試圖從不同維度衡量模型在科學任務中的表現。近日,研究者塞莉娜·趙(Celina Zhao)在《科學》雜志刊發《如何判定人工智能的科研能力?》(How will we know if AI is smart enough to do science?)一文,分析了目前不同評估體系對AI科研能力的考察維度,并提出應構建多元化、互補型評估體系,推動AI向更高階的科研能力邁進。

      原文 :《如何判定人工智能的科研能力》

      編譯 |張譯丹 楊勇

      圖片 |網絡

      長期以來,人工智能領域的研究者一直希望研發出能助力科學研究實現突破的智能工具,這類工具可自主提出創新性研究問題、設計實驗方案,甚至獨立完成實驗操作。最近,大語言模型接連取得多項研究發現,不少人工智能開發者認為,這讓行業離上述愿景又近了一步。但問題在于,該如何檢驗一款AI模型是否真正具備開展科學研究的核心能力?為解答這一問題,研究人員將目光投向基準測試,通過標準化問題與任務評估AI能力、實現模型橫向對比,而這也成為當前衡量AI科研能力的核心手段。

      多元測試工具各有側重

      過去一年,數十款面向科學研究的新型基準測試應運而生,試圖回答這一問題,不過科學界至今尚未就最優評估方法達成共識。

      其中最受關注的,是今年1月發表于《自然》期刊的“人類最后考試”(HLE)。該測試選取2500道源自“人類知識前沿”的問題,以此檢驗大語言模型的能力。該測試由非營利組織人工智能安全中心研發,其研究工程師朗·范(Long Phan)表示:“我們希望打造一套多元數據集,其中的問題只有長期深耕某一領域的專家才能解答。”“人類最后考試”自首次發布后,便成為檢驗大語言模型的重要試金石,該測試的得分也成為AI企業彰顯自身產品能力的重要依據。測試推出之初,行業頭部企業OpenAI的人工智能模型雖拔得頭籌,但其正確率僅有8.3%;近日,谷歌宣布其最新科學推理模型Gemini 3 Deep Think在該測試中取得48.4%正確率的高分,創下該測試的歷史紀錄。


      不過,有部分科學家質疑,認為其中的諸多問題考察的只是晦澀難懂甚至細枝末節的知識,而非開展有價值科學研究的能力。與“人類最后考試”同期發表的《自然》期刊社論,也認同這一擔憂:“我們認為,更多科學家應當思考,想要研發出能真正衡量專家級思維能力的AI基準測試,究竟需要具備哪些條件?”

      OpenAI研究團隊表示,其新推出的基準測試正朝著這一方向穩步推進。2025年12月發布的前沿科學基準測試(Frontier Science)包含約700道化學、生物、物理領域的問題,旨在檢驗模型的“專家級科學推理能力”。其中部分題目與數學、科學奧林匹克競賽題型異曲同工,這類題目以簡短場景為背景,答案明確。正如OpenAI研究科學家邁爾斯·王(Miles Wang)所言,這類題目是“衡量純推理能力的優質參考指標”,比如判斷一系列化學反應能生成的產物。另一類題目則圍繞復雜的開放性研究問題展開,這類問題正是科研工作者在博士階段及后續工作中需要攻克的難題,例如推導改變某一分子結構會從哪些方面影響其性質。

      邁爾斯·王表示,該基準測試的核心優勢在于可驗證性,這也是公平合理的測試最關鍵的特征之一。奧林匹克競賽類題目評分標準清晰,而針對開放性研究問題,大語言模型若能梳理出完整的中間推理步驟,便可按步計分。截至目前,OpenAI自研的GPT-5.2模型在前沿科學基準測試中表現最佳,不僅答對77%的奧賽類題目,還在研究挑戰類題目中取得25%的正確率。

      有研究人員認為,兩類題目間懸殊的得分差距本身就很能說明問題。他們主張,基準測試的研發應聚焦于直接評估AI開展真實世界研究的能力,這正是段辰儒及其研究團隊與前沿科學基準測試同期發布的科學發現評估(SDE)基準測試的核心理念。科學發現評估并未設置難度頗高卻互不關聯的問題,而是為AI布置了1125項任務,對應43個研究場景,這些場景均來自8個正在開展且相關數據尚未發表的真實科研項目。例如,該測試要求大語言模型設計具體方案,將目標分子拆解為結構更簡單且可商業化采購的原料。該評估的評分依據不僅包括答案的準確性,還包括模型整合整個項目的能力,即能否在多步驟研究中提出假設、驗證假設并優化假設。段辰儒表示:“我們可以保證,每一道測試題都圍繞解決真實科學研究中的問題展開,即便是微小的問題也不例外。”

      AI科研能力尚存明顯瓶頸

      科學發現評估(SDE)的測試結果顯示,大語言模型正確回答單個問題的能力,并非總能轉化為其在完整科研項目中的優異表現,反之亦然。“把握研究的整體方向,往往比掌握某類分子的精準屬性更為重要。”段辰儒說。該測試還發現,來自OpenAI、Anthropic、xAI、深度求索等企業的頂尖模型,往往會在同一類高難度問題上陷入瓶頸。這一現象表明,這些模型或許面臨著相同的能力天花板,究其原因,大概率是它們的訓練數據均來自相似的科學數據池。

      但即便如此,科學發現評估的方法也僅能覆蓋科學研究流程的部分環節。另一款新型基準測試LABBench2則聚焦生物領域,由科學智能初創企業Future House研發,其核心目標是檢驗面向科研的人工智能,是否具備將一個研究項目從最初構想推進至論文成稿的全流程能力。該測試于近日推出,通過近1900項任務評估“代理式AI模型”在文獻檢索、數據獲取、基因序列構建等工作中的表現,這類模型是能自主執行操作、完成多步驟任務的智能系統。


      迄今為止,該測試的結果好壞參半。諸多領先的大語言模型在檢索專利全文、實驗室試驗相關論文方面表現良好,但在應對LABBench2中更復雜的任務時卻常常力不從心,例如交叉引用多個數據庫,或是在內容繁雜的論文中定位并解讀特定的圖表與數據。Future House 旗下商業公司Edison Scientific的喬恩·洛朗(Jon Laurent)表示,這一現象說明,想要打造真正的AI科學家,其發展進程在一定程度上取決于模型信息檢索與信息導航能力的優化。

      以基準測試引領未來發展

      研究人員表示,值得關注的是,基準測試的價值并非僅在于記錄當下各模型的優劣排名。更為嚴苛的基準測試還能為大語言模型及其他AI工具設定全新發展目標,進而推動行業創新。Future House旗下喬恩·洛朗表示,基準測試的核心目的之一是做好前瞻性布局,衡量模型潛在能力并推動其持續發展,而OpenAI邁爾斯·王也對此深表認同,他以ImageNet大規模視覺識別挑戰賽為例,指出該賽事的冠軍模型AlexNet極大地推動了卷積神經網絡發展,成為現代AI的技術基石,印證了優質基準測試對科技突破的重要引領作用。

      事實上,在科研領域,或許并不存在衡量AI是否“擅長開展科學研究”的單一標準。佐治亞理工學院研究認知神經科學與人工智能交叉領域的安娜·伊萬諾娃(Anna Ivanova)表示:“這正是當前各類基準測試呈現多樣化的根本原因。一個智能系統的繪圖可視化能力,與其掌握的分析化學領域事實性知識截然不同,盡管科研工作者需要同時具備這兩種能力。”

      鑒于科學研究所需的技能范圍廣泛,AI領域專家認為,科研界最理想的方式是構建一套多元化的測試體系,每項測試都旨在針對性地推動科學研究流程中不同環節的能力提升。正如業內所言:“我們正邁向一個需要多元化評估體系的新時代。”

      無論采用何種評估方法,被納入衡量范疇的指標,往往會成為技術改進的方向。正如行業共識:“唯有可衡量,方能求進步。”

      文章為社會科學報“思想工坊”融媒體原創出品,原載于社會科學報第1997期第7版,未經允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。

      本期責編:程鑫云


      《社會科學報》2026年征訂

      點擊下方圖片網上訂報↓↓↓



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      又轟下27+12+16!抱歉威少:你要從歷史第一變成歷史第二了

      又轟下27+12+16!抱歉威少:你要從歷史第一變成歷史第二了

      籃球大視野
      2026-04-28 15:05:01
      Claude自己上“閑魚”:砍價成交186單,實驗結果反直覺

      Claude自己上“閑魚”:砍價成交186單,實驗結果反直覺

      智東西
      2026-04-27 18:08:21
      Manus肖弘比張一鳴錯了哪里

      Manus肖弘比張一鳴錯了哪里

      酷公司
      2026-04-28 18:24:24
      農夫山泉回應瓶蓋疑似設計缺陷:符合國家標準

      農夫山泉回應瓶蓋疑似設計缺陷:符合國家標準

      新浪財經
      2026-04-28 16:37:19
      許家印惡貫滿盈 若只是經濟問題國家不會動他 踩3條紅線 或判無期

      許家印惡貫滿盈 若只是經濟問題國家不會動他 踩3條紅線 或判無期

      念洲
      2026-04-28 17:20:35
      4月28日俄烏最新:俄羅斯軍神與烏克蘭小將軍的共識

      4月28日俄烏最新:俄羅斯軍神與烏克蘭小將軍的共識

      西樓飲月
      2026-04-28 20:05:26
      上海地鐵搶座互毆反轉!原視頻曝光,難怪女子不肯讓座

      上海地鐵搶座互毆反轉!原視頻曝光,難怪女子不肯讓座

      行者聊官
      2026-04-28 08:42:52
      買面包糕點時,懂行的人很少買這5種,店員:我們自己都很少吃

      買面包糕點時,懂行的人很少買這5種,店員:我們自己都很少吃

      阿龍美食記
      2026-04-17 14:04:17
      墨菲:趙心童沒有讓對手感到害怕的氣質 他是個討人喜歡的孩子

      墨菲:趙心童沒有讓對手感到害怕的氣質 他是個討人喜歡的孩子

      羅克
      2026-04-28 22:51:12
      中科大少年班監控事件!同學爆出更多細節,沒弒母已經很不錯了!

      中科大少年班監控事件!同學爆出更多細節,沒弒母已經很不錯了!

      知曉科普
      2026-04-29 07:00:24
      世錦賽8強上半區全是世界冠軍,下半區一個沒有,趙心童有望衛冕

      世錦賽8強上半區全是世界冠軍,下半區一個沒有,趙心童有望衛冕

      老高說體育
      2026-04-28 10:53:10
      連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      街上的行人很刺眼
      2026-04-25 10:55:49
      溥儀這氣質哪像傀儡?拋開立場,那時的溥儀骨子里依然是傲慢的!

      溥儀這氣質哪像傀儡?拋開立場,那時的溥儀骨子里依然是傲慢的!

      史之銘
      2026-04-28 22:35:50
      爭議!墨菲失誤后,女球迷對趙心童喊漢語“XX他”,裁判:謝謝你

      爭議!墨菲失誤后,女球迷對趙心童喊漢語“XX他”,裁判:謝謝你

      風過鄉
      2026-04-28 21:37:56
      悲催!丈夫降薪被迫離婚,女子分40萬后,得知前夫失業慶幸跑得早

      悲催!丈夫降薪被迫離婚,女子分40萬后,得知前夫失業慶幸跑得早

      火山詩話
      2026-04-28 11:02:31
      贏球反而多花錢?卡里克戰績太好,紅魔被迫多掏400萬獎金

      贏球反而多花錢?卡里克戰績太好,紅魔被迫多掏400萬獎金

      夜白侃球
      2026-04-29 08:59:30
      哭死,你到底明不明白現在錢有多難掙,網友:360行,行行干破防

      哭死,你到底明不明白現在錢有多難掙,網友:360行,行行干破防

      夜深愛雜談
      2026-04-29 07:32:40
      太心疼!馬筱梅哭到停更帶娃逃回臺灣:憑啥讓剛出生的孩子遭這罪

      太心疼!馬筱梅哭到停更帶娃逃回臺灣:憑啥讓剛出生的孩子遭這罪

      行者聊官
      2026-04-28 09:42:56
      中央政治局會議定調樓市,釋放新信號

      中央政治局會議定調樓市,釋放新信號

      21世紀經濟報道
      2026-04-28 18:41:29
      李湘瘦脫相了,這腰身哪像當媽的,直接跟王詩齡站成了姐妹花。

      李湘瘦脫相了,這腰身哪像當媽的,直接跟王詩齡站成了姐妹花。

      科學發掘
      2026-04-28 08:59:52
      2026-04-29 10:24:49
      社會科學報 incentive-icons
      社會科學報
      社會科學院主辦社會科學報
      4130文章數 23453關注度
      往期回顧 全部

      科技要聞

      夭折的造富神話,逼著中國AI回去賺"慢錢"

      頭條要聞

      牛彈琴:白宮官宣兩個國王 全世界看得目瞪口呆

      頭條要聞

      牛彈琴:白宮官宣兩個國王 全世界看得目瞪口呆

      體育要聞

      魔術黑八活塞,一步之遙?!

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      多地藥店違規串換商品套刷醫保揭秘

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      健康
      藝術
      親子
      本地
      公開課

      干細胞治療燒燙傷三大優勢!

      藝術要聞

      趙樸初:比風水厲害100倍的宇宙定律

      親子要聞

      育兒壓力讓你感到疲憊嗎?看看美國外科醫生的建議

      本地新聞

      用青花瓷的方式,打開西溪濕地

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 内射老阿姨1区2区3区4区| 久青草视频免费视频福利片 | 少妇又紧又色又爽又刺激视频 | 上司人妻互换hd无码| av资源站| 免费国产又色又爽又黄的网站| 乱子伦国产精品| av免费网站在线免费观看| 秋霞无码久久久精品| 无码人妻精品一区二区在线视频| 精品无码国产av一区二区三区| 青青久草| 免费一区二区无码东京热| 尹人97| 天堂一区| 国产精品无码免费播放| 亚洲精品日本久久久中文字幕| 中文字幕三四区男人| 午夜免费啪视频在线无码| 无码人妻丰满熟妇区96| 麻豆A∨在线| 黑人巨大精品欧美一区二区| 525f| 无码人妻一区二区三区免费n鬼沢| 亚洲精品电影院| 亚洲精品一区二区三区在线观看| 国产亚洲视频免费播放| 最新版天堂资源中文官网| 色婷婷久久久swag精品| 综合欧美视频一区二区三区| 人妻内射一区二区在线视频| 黑人无码AV| 亚洲国产日韩精品一区二区三区| 超碰人人摸| 精品国产91久久久久久亚瑟| 少妇人妻av| 一区二区三区网址| 内射视频福利在线观看| 校花人妻老师双飞| 日本国产精品第一页久久 | 2014av天堂无码一区|