<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Science:大語言模型如何重塑科學產(chǎn)出

      0
      分享至


      導語

      盡管生成式人工智能(Gen AI)在各學科中快速被接受的興奮(和擔憂)日益增長,但實證證據(jù)仍然零散,對大型語言模型(LLMs)在科學領域影響的系統(tǒng)理解仍然有限。

      美國康奈爾大學的殷裔安教授及其團隊于2025年12月18日發(fā)表在Science的論文分析了三大主要預印本庫的大規(guī)模數(shù)據(jù),表明使用大型語言模型加速了手稿產(chǎn)出,減少了非英語母語者的障礙,并豐富了既有文獻的發(fā)現(xiàn)。然而,傳統(tǒng)的科學質(zhì)量信號,如語言復雜性,正逐漸成為不可靠的價值指標,正如我們正經(jīng)歷科學工作數(shù)量的上升。隨著人工智能系統(tǒng)的進步,它們將挑戰(zhàn)我們對研究質(zhì)量、學術交流以及知識勞動本質(zhì)的基本假設。科學政策制定者必須考慮如何發(fā)展我們的科學機構,以適應快速變化的科學生產(chǎn)過程。

      關鍵詞:大語言模型(LLM),科學學,學術寫作,語言公平

      任筱芃丨作者

      殷裔安、趙思怡丨審校


      論文題目:Scientific production in the era of large language models: With the production process rapidly evolving, science policy must consider how institutions could evolve 論文鏈接:https://doi.org/10.1126/science.adw3000 發(fā)表時間:2025年12月18日 論文來源:Science

      研究背景與問題

      科學生產(chǎn)的歷史性轉折

      科學研究始終與技術革新緊密相連。從顯微鏡的發(fā)明到超級計算機的出現(xiàn),技術進步不斷推動著研究前沿的拓展。近年來,大語言模型在蛋白質(zhì)結構預測、材料發(fā)現(xiàn)等領域的成功應用,展示了AI在特定科學任務中的巨大價值。但這些成功案例大多可以被歸類為碎片化的證據(jù),其對科學整體生產(chǎn)流程的宏觀影響(macro-level impact)仍待解答。

      康奈爾大學殷裔安團隊收集了三個主要預印本數(shù)據(jù)庫的數(shù)據(jù),涵蓋2018年至2024年的210多萬篇論文:arXiv(數(shù)學、物理、計算機科學等領域)、bioRxiv(生命科學)和SSRN(社會科學、法律、人文)。選擇預印本有兩個好處:其一,發(fā)布時間更接近研究完成時點,更適合做論文被采用前后的動態(tài)比較;其二,覆蓋面廣,能觀察到不同學科的共同趨勢,而不被單一領域的短期熱點帶偏。這些大型數(shù)據(jù)集為理解LLMs對科學研究的宏觀影響提供了實證基礎。

      核心研究問題

      研究聚焦于四個關鍵問題:

      1. 生產(chǎn)力效應:LLM使用是否讓研究者單位時間內(nèi)產(chǎn)出更多論文?

      2. 語言公平性:這種效率提升是否跨越了語言背景的界限?

      3. 質(zhì)量評估挑戰(zhàn):當寫作能力被技術標準化后,傳統(tǒng)評價指標是否還能有效識別研究質(zhì)量?

      4. 對已有知識的使用:LLM使用是否改變研究者對已有文獻的閱讀和引用行為?

      該研究團隊訓練了一個基于文本特征的AI檢測算法,通過比較2023年ChatGPT發(fā)布前后的摘要詞匯分布變化,識別出可能使用LLM輔助的論文。這種方法雖不完美,但在現(xiàn)有技術條件下提供了最可行的實證路徑。

      主要研究發(fā)現(xiàn)

      生產(chǎn)力躍升

      在嚴格控制了AI領域自身研究熱潮帶來的干擾后,研究團隊發(fā)現(xiàn),LLM采用者的論文產(chǎn)出增長在不同學科呈現(xiàn)出普遍性:arXiv增長36.2%,bioRxiv達52.9%,SSRN更是高達59.8%。更關鍵的是,盡管不同的 LLM 識別方法及統(tǒng)計模型值會影響估計系數(shù)的大小,敏感性分析顯示生產(chǎn)力效應在不同的模型下都保持穩(wěn)健。


      圖1:以作者首次被檢測為 LLM-assisted所在月份為 0(豎虛線),橫軸為相對月份,縱軸為采用者相對未采用者的產(chǎn)出變化(%);點為估計值,豎線代表 95% 置信區(qū)間。圖中可見采用后產(chǎn)出在多個后續(xù)月份保持在更高水平。

      LLM最早、最直接的影響往往發(fā)生在程序性的部分——摘要、引言、相關工作、措辭潤色、結構整理、語法糾錯等。這些操作都屬于高頻、耗時、卻相對可被語言模型接管的工作。但需要注意的是,這是一種采用LLM與產(chǎn)出上升的強相關,并不等同于嚴格意義的因果關系。

      更重要的發(fā)現(xiàn)是,在寫作層面,LLM 有潛力降低語言門檻,并且這種收益并不平均。例如,在SSRN中,亞洲姓名研究者+亞洲機構生產(chǎn)力增幅達到了88.9%,遠超英語國家研究者的46.2%。長期以來,非英語母語學者承受著雙重負擔——既要做出一流研究,又要用外語精準表達學術思想的微妙之處。這意味著,LLMs正在一定程度上緩解非英語母語研究者在學術寫作中的劣勢

      質(zhì)量信號失靈

      然而,研究團隊發(fā)現(xiàn)了一個更為復雜的現(xiàn)象。在LLM輔助的論文中,寫作復雜度與發(fā)表概率之間出現(xiàn)了傳統(tǒng)預期的逆轉


      圖2:橫軸為寫作復雜度,縱軸為稿件最終發(fā)表(同行評審期刊/會議)的概率;橙線為 LLM-assisted樣本,藍線為 non–LLM-assisted樣本,陰影為 95% 置信區(qū)間。非 LLM 文本里復雜度越高,發(fā)表概率越高;但在 LLM 輔助文本里,復雜度越高對應更低的發(fā)表概率。

      研究團隊基于Flesch Reading Ease來衡量論文語言學上的復雜度。這個復雜性指標綜合了平均句長與每詞音節(jié)數(shù)進行量化。分數(shù)越高,代表文本越復雜、越難讀。對于 2023 年之后發(fā)布的預印本,研究團隊考察其是否在 2024 年 6 月之前發(fā)表于同行評議的期刊或會議,并以此作為論文科學質(zhì)量的近似衡量。這一指標當然并非完美的質(zhì)量定義,但它提供了一個跨學科可比、且與學術體系獎勵機制高度相關的結果變量。

      研究團隊發(fā)現(xiàn),傳統(tǒng)的人類撰寫的論文遵循"語言越復雜精致,越容易被接收"的預期。這符合學術界的直覺,長難句反映深厚功力、精準定義或傳遞復雜性的能力。但在LLM輔助論文中,這條法則被顛覆:那些語言結構最復雜、詞匯最艱深的稿件,反而更可能被拒稿。研究團隊還用多種替代指標復現(xiàn)這一點:詞匯復雜度、形態(tài)復雜度(如分詞從句比例),以及“促銷性語言”(例如過度使用“前所未有”“顛覆性”這類營銷式表述)等,都顯示出 LLM 文本與人類寫作在統(tǒng)計特征上的顯著差異。

      這一發(fā)現(xiàn)在所有三個數(shù)據(jù)庫中都得到了驗證。為了進一步檢驗這一現(xiàn)象是否與不同期刊和會議的過審機制有關,研究團隊引入 ICLR-2024 會議數(shù)據(jù),涵蓋7243 篇投稿、約 2.8 萬份評審報告。用評審分數(shù)作為科學質(zhì)量的結果變量后,研究團隊發(fā)現(xiàn)相關性仍然成立,即在 LLM 輔助文本中語言復雜度不再是正向信號。這也許在指代當AI能夠輕松生成復雜、專業(yè)的學術語言時,語言復雜度作為研究質(zhì)量信號的價值正在消失。

      研究團隊據(jù)此提出一個更一般的機制解釋:寫作復雜度過去之所以能當作質(zhì)量信號,是因為它與作者投入的時間、語言訓練與學術社會化高度相關;而 LLM 降低了生成復雜語言的成本,于是在語句上的與學術上的投入解耦。由此帶來的次級風險是更容易出現(xiàn)“看起來很像優(yōu)秀論文”的文本,擁塞學術交流通道,增加評審負擔,并削弱傳統(tǒng)篩選機制。

      知識流動的新圖景

      生產(chǎn)力與評審只是科研流程的一部分。更隱蔽、但更長期的影響,可以從文獻與引用結構的變化觀測。研究團隊從搜索行為的社會實驗,以及采用前后的引用行為對比兩個角度觀察"AI會強化經(jīng)典文獻馬太效應"的擔憂是否為真。

      2023年2月,Bing 推出集成 GPT-4 的對話式搜索。作者利用一個大規(guī)模的行為數(shù)據(jù)集:2.46 億次 arXiv 論文瀏覽/下載記錄,并區(qū)分訪問來源(Bing、Google)。


      圖3:以 Bing Chat 發(fā)布當周為 0 周(豎虛線),點表示“Bing 引流用戶 vs Google 引流用戶”的差異估計,豎線為 95% 置信區(qū)間。上圖顯示上線后 Bing 用戶訪問書籍的比例顯著上升;下圖顯示上線后 Bing 用戶訪問到的文獻中位年齡下降(平均約新 2.1 個月)。

      在DID框架下,研究團隊比較 Bing 引流用戶在上線前后的變化,并以 Google 引流用戶作為對照。結果顯示,Bing 用戶在 GPT-4(ChatGPT-4顯然也是一個大語言模型)集成后訪問書籍的比例提高26.3%、訪問文獻的中位已發(fā)表時間下降0.18 年且并未更偏向高被引經(jīng)典而是更多接觸到已有的引用較少的工作。

      如果把搜索引擎理解為一個注意力窗口,那么這組結果意味著 LLM 可能在一定程度上降低了發(fā)現(xiàn)長文本和冷門新文獻的門檻。它不只是把用戶帶向最熱門、最匹配的結構,而可能擴展了可見的知識邊界。

      研究團隊進一步把三大預印本庫連接到 OpenAlex 與 Semantic Scholar,得到 1.016 億條引用關系,并用事件研究比較作者采用前后的引用模式變化,發(fā)現(xiàn)了與上述結果高度一致的變化:科學家在使用LLM后:

      • 更可能引用書籍(總體上 +11.9%,但在 SSRN 不顯著);

      • 所引文獻平均更“年輕”(平均已發(fā)表時間減少 0.379 年);

      • 所引文獻的引用影響更低(平均對數(shù)被引下降 2.34%)。

      把兩部分放在一起看,采用LLM 可能把注意力引向一個更多樣化的知識基礎,而不是一味強化既有正典(scientific canons)。研究團隊的解釋是LLM 既可能通過寫作輔助降低整合文獻的成本,也可能通過對話式搜索改變信息獲取路徑,從而讓研究者更容易進入新的、分散的、非經(jīng)典的文本空間。

      審稿人怎么辦

      如果復雜、工整的語言不再可靠,那審稿人到底要看什么?在信息過載的現(xiàn)實里,最容易發(fā)生的并不是大家突然變得更嚴謹,而是大家用更省力的但是新型的啟發(fā)式做判斷。例如作者出身、機構名頭、學術血統(tǒng)重新變成質(zhì)量的,或者說用地位標記來替代語言的,標記。這會讓 LLM 帶來的語言平權顯得有點像遞弱代償。舊的門檻被抬走了一部分,新的門檻卻可能在別的地方又豎起來。

      作者給出的回應是,既然語言模型讓表面信號失靈,一種可能的方案是將LLM技術拉進評審流程——引入“審稿代理”(reviewer agent),去提示方法不一致、核驗關鍵聲明、甚至輔助判斷新穎性,嘗試把注意力重新拉回研究的實質(zhì)。這種可規(guī)模化的評審輔助,究竟會讓同行評審更重實證,還是會引入新的偏差與意料之外的副作用——這本身就是 LLM 時代的一項關鍵不確定性。

      該研究的局限性

      研究團隊坦誠了AI檢測方法面臨的挑戰(zhàn)。他們使用的基于文本的AI檢測算法雖然能夠識別LLM輔助寫作的統(tǒng)計特征,但存在以下局限:

      1. 僅基于摘要:檢測僅限于論文摘要,無法擴展到全文

      2. 無法定位具體作者:無法確定團隊中哪位具體作者使用了LLM

      3. 可能漏檢:可能無法檢測到對LLM輸出進行大量修改的使用情況

      4. 技術演進過快:當新模型具備更強的推理、“深度研究”等能力后,影響可能擴大或嬗變

      5. 因果解釋需要強假設:社會交互中采用 LLM 與產(chǎn)出、引用、語言信號之間一系列一致的變化難以控制變量

      6. 選擇偏差:“首次被檢測為采用”的時間點,可能與生產(chǎn)力變化本身糾纏在一起

      這些局限性提醒我們,在快速發(fā)展的AI時代,保持科學的批判性思維和方法學嚴謹性比以往任何時候都更重要。

      論文作者:

      AI+Science 讀書會

      AI+Science 是近年興起的將人工智能和科學相結合的一種趨勢。 一方面是 AI for Science,機器學習和其他 AI 技術可以用來解決科學研究中的問題,從預測天氣和蛋白質(zhì)結構,到模擬星系碰撞、設計優(yōu)化核聚變反應堆,甚至像科學家一樣進行科學發(fā)現(xiàn),被稱為科學發(fā)現(xiàn)的“第五范式”。 另一方面是 Science for AI,科學尤其是物理學中的規(guī)律和思想啟發(fā)機器學習理論,為人工智能的發(fā)展提供全新的視角和方法。

      集智俱樂部聯(lián)合斯坦福大學計算機科學系博士后研究員吳泰霖(Jure Leskovec 教授指導)、哈佛量子計劃研究員扈鴻業(yè)、麻省理工學院物理系博士生劉子鳴(Max Tegmark 教授指導),共同發(fā)起以”為主題的讀書會,探討該領域的重要問題,共學共研相關文獻。 讀書會已完結,現(xiàn)在報名可加入社群并解鎖回放視頻權限。

      詳情請見:

      1.

      2.

      3.

      4.

      5.

      6.

      7.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海一男子持續(xù)幾十年每天至少吸3包煙,全身血管出問題,病房里竟有患者互相攀比誰抽得多,醫(yī)生:他的血管,我都不知道從哪開始修

      上海一男子持續(xù)幾十年每天至少吸3包煙,全身血管出問題,病房里竟有患者互相攀比誰抽得多,醫(yī)生:他的血管,我都不知道從哪開始修

      大象新聞
      2026-03-23 14:45:09
      黃金接連失守4500、4400、 4300、4200、4100美元

      黃金接連失守4500、4400、 4300、4200、4100美元

      每日經(jīng)濟新聞
      2026-03-23 16:37:28
      女教師賣自拍淫穢視頻獲利24萬,將自己裸體視頻與和他人的性愛視頻通過發(fā)送鏈接,出售給他人觀看

      女教師賣自拍淫穢視頻獲利24萬,將自己裸體視頻與和他人的性愛視頻通過發(fā)送鏈接,出售給他人觀看

      觀威海
      2026-03-22 07:59:02
      “香港演員幾乎全軍覆沒!無戲可拍”引發(fā)網(wǎng)友熱議

      “香港演員幾乎全軍覆沒!無戲可拍”引發(fā)網(wǎng)友熱議

      阿廢冷眼觀察所
      2026-03-17 17:42:50
      港媒:中國將加強戰(zhàn)略物資儲備防范重大風險

      港媒:中國將加強戰(zhàn)略物資儲備防范重大風險

      參考消息
      2026-03-23 16:25:18
      王曼昱最欣賞的男運動員,不是樊振東不是馬龍,而是被開除過的他

      王曼昱最欣賞的男運動員,不是樊振東不是馬龍,而是被開除過的他

      以茶帶書
      2026-03-23 13:11:52
      德國總理:如果事前得知美以對伊朗開戰(zhàn),德國會提出反對

      德國總理:如果事前得知美以對伊朗開戰(zhàn),德國會提出反對

      環(huán)球網(wǎng)資訊
      2026-03-19 08:36:10
      我今年80歲了,想用血淚教訓告訴你:永遠不要在朋友圈曬3樣東西,真的很蠢!

      我今年80歲了,想用血淚教訓告訴你:永遠不要在朋友圈曬3樣東西,真的很蠢!

      東林夕亭
      2026-03-18 09:06:08
      18歲的姚晨在肯德基工作時的一張照片,那時就難掩渾身的好氣質(zhì)

      18歲的姚晨在肯德基工作時的一張照片,那時就難掩渾身的好氣質(zhì)

      娛你同歡
      2026-03-17 16:08:28
      香港再無董建華

      香港再無董建華

      華人星光
      2025-11-25 12:01:27
      伊朗媒體稱特朗普“因懼怕伊朗反擊而撤銷48小時最后通牒”

      伊朗媒體稱特朗普“因懼怕伊朗反擊而撤銷48小時最后通牒”

      新華社
      2026-03-23 20:09:44
      3月23日人民幣對美元中間價調(diào)貶143個基點

      3月23日人民幣對美元中間價調(diào)貶143個基點

      證券時報
      2026-03-23 09:34:11
      安徽一女護士回娘家路上失蹤,15年后給哥哥托夢:我在院子里

      安徽一女護士回娘家路上失蹤,15年后給哥哥托夢:我在院子里

      清茶淺談
      2025-02-27 14:55:55
      白宮向全世界公布了高市的丑態(tài)百出,日本網(wǎng)民炸了:國恥!丟臉

      白宮向全世界公布了高市的丑態(tài)百出,日本網(wǎng)民炸了:國恥!丟臉

      離離言幾許
      2026-03-23 20:20:16
      “廉價的女留子,就是這種下場”,現(xiàn)狀被15萬人圍觀,看清了現(xiàn)實

      “廉價的女留子,就是這種下場”,現(xiàn)狀被15萬人圍觀,看清了現(xiàn)實

      妍妍教育日記
      2026-03-23 20:50:12
      特朗普選好了中美另一個戰(zhàn)場,準備對中國發(fā)動新一輪反撲

      特朗普選好了中美另一個戰(zhàn)場,準備對中國發(fā)動新一輪反撲

      飄逸的云朵
      2026-03-24 03:00:37
      小區(qū)樓上天天晚上都有女的大聲叫。。。

      小區(qū)樓上天天晚上都有女的大聲叫。。。

      微微熱評
      2025-12-24 00:26:04
      阿爾卡拉斯邁阿密爆冷出局!賽場崩潰大喊:我受夠了,我要回家!

      阿爾卡拉斯邁阿密爆冷出局!賽場崩潰大喊:我受夠了,我要回家!

      仰臥撐FTUer
      2026-03-23 12:31:08
      重慶舉報案調(diào)查升級,紀檢2天內(nèi)介入,嫌疑人身份引發(fā)網(wǎng)友熱議

      重慶舉報案調(diào)查升級,紀檢2天內(nèi)介入,嫌疑人身份引發(fā)網(wǎng)友熱議

      王曉愛體彩
      2026-03-23 19:44:48
      方媛在桃花塢跳舞!身形臃腫個子矮小,與歐陽娜娜同框被嘲姨味重

      方媛在桃花塢跳舞!身形臃腫個子矮小,與歐陽娜娜同框被嘲姨味重

      阿鳧愛吐槽
      2026-03-23 19:32:25
      2026-03-24 03:55:00
      集智俱樂部 incentive-icons
      集智俱樂部
      科普人工智能相關知識技能
      5719文章數(shù) 4664關注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      特朗普:伊朗還有最后一次機會

      頭條要聞

      特朗普:伊朗還有最后一次機會

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      鐘麗緹就女兒考拉爭議道歉:女兒還小

      財經(jīng)要聞

      市場見底了嗎?誰在拋售?機構火線解讀

      汽車要聞

      東風雪鐵龍新凡爾賽C5X上市 官方一口價11.37萬起

      態(tài)度原創(chuàng)

      健康
      數(shù)碼
      教育
      旅游
      游戲

      轉頭就暈的耳石癥,能開車上班嗎?

      數(shù)碼要聞

      再等等!蘋果新款iPad 、Apple TV及HomePod mini仍預計今年推出

      教育要聞

      高三學生對教材中 “受精作用” 表述提意見,人教社回信

      旅游要聞

      10條線路一站式解鎖賞花新體驗

      Xbox合作伙伴直播公布 3月27日早上2點舉行

      無障礙瀏覽 進入關懷版