網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

在ICLR 2026主會(huì)之前，我們和30多位入選者聊了聊最前沿的AI細(xì)節(jié)

2026-04-16 17:45:33　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

4 月 14 日下午，由智源社區(qū)、DeepTech 聯(lián)合舉辦的 ICLR 2026 預(yù)講會(huì)在北京智源大廈圓滿舉行。作為機(jī)器學(xué)習(xí)領(lǐng)域最具影響力的國(guó)際頂會(huì)之一，ICLR 錄用論文往往代表著該領(lǐng)域最前沿的研究方向和技術(shù)突破。

ICLR 2026 共收到有效投稿超 1.9 萬(wàn)篇，整體錄取率約 28%，匯聚了全球大模型、多模態(tài)、強(qiáng)化學(xué)習(xí)、時(shí)序智能等前沿方向的最新研究成果。本次線下預(yù)講會(huì)聚焦頂會(huì)核心精華，為現(xiàn)場(chǎng)科研工作者搭建了高效的學(xué)術(shù)交流與成果分享平臺(tái)。

會(huì)議伊始，清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）助理教授趙昊作為開場(chǎng)嘉賓，簡(jiǎn)要介紹了議程安排，并圍繞 ICLR 頂會(huì)論文的選題、撰寫與投稿實(shí)戰(zhàn)，分享了其在學(xué)術(shù)探索中的心得。隨后，三十余位論文作者圍繞 AI Agent、大語(yǔ)言模型、強(qiáng)化學(xué)習(xí)及多模態(tài)等熱門領(lǐng)域?qū)θ脒x成果進(jìn)行了系統(tǒng)分享。

圖 | 開場(chǎng)環(huán)節(jié)

在過(guò)去的 2025 年，我們見證了大模型在通用任務(wù)上的能力飆升，但也目睹了其在真實(shí)場(chǎng)景中的頻繁“翻車”——幻覺(jué)問(wèn)題讓醫(yī)療診斷不敢用、長(zhǎng)上下文能力不足導(dǎo)致多輪對(duì)話崩盤、工具調(diào)用效率低下拖累 Agent 實(shí)用性、細(xì)粒度識(shí)別能力缺失限制專業(yè)應(yīng)用。本次預(yù)講會(huì)展示的研究成果，恰恰聚焦于這些“最后一公里”的痛點(diǎn)。

從獎(jiǎng)勵(lì)最大化到分布匹配：強(qiáng)化學(xué)習(xí)正在變得更“聰明”

在強(qiáng)化學(xué)習(xí)與 AI Agent 能力提升方面，從與會(huì)者的演講中，我們可以看到一個(gè)清晰的趨勢(shì)：研究焦點(diǎn)正從傳統(tǒng)的獎(jiǎng)勵(lì)最大化轉(zhuǎn)向獎(jiǎng)勵(lì)分布的精準(zhǔn)匹配與數(shù)據(jù)效率的極致提升。多篇論文不約而同地關(guān)注如何通過(guò)自我博弈激發(fā)多智能體推理能力，以及如何通過(guò)基于熵的自適應(yīng)搜索優(yōu)化智能體與外部工具的多輪交互。這標(biāo)志著強(qiáng)化學(xué)習(xí)在 Agent 領(lǐng)域的應(yīng)用正在變得更深、更輕、更符合邏輯推演。

來(lái)自中國(guó)人民大學(xué)高瓴人工智能學(xué)院的博士生董冠霆介紹了其最新科研工作智能體強(qiáng)化學(xué)習(xí)算法——ARPO。他表示，傳統(tǒng)強(qiáng)化學(xué)習(xí)主要適用于文本推理任務(wù)，而真實(shí)場(chǎng)景中智能體需在推理過(guò)程中與外部工具環(huán)境交互，這需要推理與工具使用行動(dòng)高度耦合，現(xiàn)有方法難以應(yīng)對(duì)。

圖 | 董冠霆分享

他的工作 ARPO 發(fā)現(xiàn)，模型在工具調(diào)用后會(huì)出現(xiàn)“熵增”現(xiàn)象，反映其對(duì)環(huán)境反饋的不確定性。為此，ARPO 引入基于熵的自適應(yīng)樹搜索，在高熵位置自動(dòng)分支探索，并通過(guò)路徑復(fù)用降低計(jì)算成本。董冠霆解釋，樹搜索讓兩條路徑可以共享前幾輪的工具調(diào)用結(jié)果，因此成本遠(yuǎn)低于 GRPO 那種從頭解碼 N 條完整路徑的方式。實(shí)驗(yàn)表明，ARPO 在深度搜索任務(wù)，長(zhǎng)程推理任務(wù)中性能穩(wěn)定優(yōu)于 GRPO 等方法，且工具調(diào)用量?jī)H為其一半。

關(guān)于落地應(yīng)用，董冠霆表示，快手深度搜索智能體的初步框架也基于 ARPO 構(gòu)建，還有其他大廠也在嘗試落地應(yīng)用。未來(lái)，他將聚焦動(dòng)態(tài)環(huán)境下的智能體訓(xùn)練與熵平衡優(yōu)化，推動(dòng)智能體強(qiáng)化學(xué)習(xí)算法向更真實(shí)、高效的方向發(fā)展。

類似的思路也體現(xiàn)在多智能體推理領(lǐng)域。多篇論文探索通過(guò)自我博弈（Self-Play）機(jī)制，讓多個(gè) Agent 在戰(zhàn)略性交互中涌現(xiàn)出更強(qiáng)的推理能力，這與 AlphaGo 的成功路徑不謀而合。此外，基于流的強(qiáng)化學(xué)習(xí)、速度參數(shù)化的序列建模等新方法，也在嘗試從不同角度提升樣本效率和訓(xùn)練穩(wěn)定性。

從粗粒度識(shí)別到細(xì)粒度推理：多模態(tài)感知邁向“專家級(jí)”

在多模態(tài)感知方面，研究者不再滿足于讓模型識(shí)別“花”或“飛機(jī)”這類粗粒度結(jié)果，而是通過(guò)思維鏈監(jiān)督微調(diào)，讓模型像專家一樣逐步分析顏色、形狀等細(xì)粒度特征。同時(shí)，自動(dòng)駕駛、觸覺(jué)感知等物理世界交互任務(wù)也成為熱點(diǎn)，世界模型被用于放大數(shù)據(jù)縮放定律，解決長(zhǎng)尾場(chǎng)景的數(shù)據(jù)匱乏問(wèn)題。

在細(xì)粒度多模態(tài)大模型領(lǐng)域，北京大學(xué)王選計(jì)算機(jī)研究所的博士生何胡凌霄分享了團(tuán)隊(duì)的最新研究成果——Fine-R1。他表示，通用大模型難以識(shí)別細(xì)粒度類別，主要在于細(xì)粒度數(shù)據(jù)的標(biāo)注需要專家知識(shí)，成本極高，導(dǎo)致訓(xùn)練數(shù)據(jù)稀缺，模型更傾向于輸出“花”這類粗粒度結(jié)果。

為此，團(tuán)隊(duì)將思維鏈引入細(xì)粒度識(shí)別任務(wù)，構(gòu)建了“視覺(jué)分析—候選子類別—對(duì)比分析—預(yù)測(cè)結(jié)果”的結(jié)構(gòu)化推理流程，讓模型像專家一樣逐步分析顏色、形狀等特征。同時(shí)，團(tuán)隊(duì)提出了三元組增強(qiáng)策略優(yōu)化（TAPO），通過(guò)引入正負(fù)樣本對(duì)，提升模型對(duì)類內(nèi)差異的魯棒性和對(duì)類間差異的辨識(shí)性。

圖 | 何胡凌霄分享

在效率方面，團(tuán)隊(duì)每類僅用 4 張訓(xùn)練圖像，就超越了 CLIP、SigLIP 等判別式模型。何胡凌霄表示，這得益于思維鏈帶來(lái)的知識(shí)泛化能力，以及強(qiáng)化學(xué)習(xí)相比監(jiān)督微調(diào)的數(shù)據(jù)效率優(yōu)勢(shì)。他透露，目前團(tuán)隊(duì)正致力于提速和輕量化，爭(zhēng)取部署到手機(jī)等邊緣設(shè)備，實(shí)現(xiàn)實(shí)時(shí)識(shí)別。

應(yīng)用場(chǎng)景方面，何胡凌霄舉例，華為的“小藝看世界”功能可識(shí)別花、文物等的細(xì)粒度類別并進(jìn)行后續(xù)問(wèn)答。未來(lái)，團(tuán)隊(duì)將繼續(xù)優(yōu)化推理速度與模型大小，推動(dòng)技術(shù)落地。

模型能力優(yōu)化：讓 AI 更可信、更“走心”

模型能力的優(yōu)化也是一個(gè)重點(diǎn)方向：因?yàn)楝F(xiàn)階段的 AI 應(yīng)用還存在著幻覺(jué)問(wèn)題導(dǎo)致生成內(nèi)容不可信、長(zhǎng)期記憶能力薄弱影響多輪對(duì)話連貫性等問(wèn)題。

在提升模型忠實(shí)度與可信度方面，天津理工大學(xué)周雨熙團(tuán)隊(duì)博士生龍泳潮分享了其與北京大學(xué)洪申達(dá)課題組、騰訊天衍實(shí)驗(yàn)室合作的最新研究。面對(duì)醫(yī)療場(chǎng)景中模型出現(xiàn)的偏離參考文本、生成不可控內(nèi)容等幻覺(jué)問(wèn)題，團(tuán)隊(duì)提出了一種名為“Copy-Paste”（復(fù)制-粘貼）的新型生成范式，邁向 LLM“零幻覺(jué)”生成。

圖 | 龍泳潮分享

這種方法的核心邏輯極簡(jiǎn)卻高效：通過(guò)兩階段的高復(fù)制偏好訓(xùn)練，促使模型在生成答案時(shí)直接嵌入上下文關(guān)鍵片段，推動(dòng)其從“自由創(chuàng)作”向“精準(zhǔn)錨定”的模式轉(zhuǎn)變。龍泳潮解釋，這種“復(fù)制粘貼”式的策略不僅在準(zhǔn)確性上更具說(shuō)服力，更展現(xiàn)出極高的數(shù)據(jù)效率。團(tuán)隊(duì)僅用 365 對(duì)高質(zhì)量數(shù)據(jù)進(jìn)行 DPO 訓(xùn)練，其效果便超越了基于 18,000 條數(shù)據(jù)訓(xùn)練的最強(qiáng)基準(zhǔn)模型。

盡管該方法在處理含有事實(shí)錯(cuò)誤的原始上下文時(shí)，仍面臨“錯(cuò)讀錯(cuò)引”及糾錯(cuò)能力受限的挑戰(zhàn)，但團(tuán)隊(duì)引入的“雙向錨點(diǎn)”技術(shù)，為用戶提供了快速回溯驗(yàn)證的路徑。龍泳潮表示，后續(xù)研究將聚焦于 Copy-Paste 范式在文本推理和多模態(tài)上的研究，并進(jìn)一步探索該范式在醫(yī)療診療指南等高可信度場(chǎng)景中的工程化落地潛力。

而在提升對(duì)話智能體長(zhǎng)期記憶的聯(lián)想與檢索效率方面，來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)的博士生許德容展示了名為“MemGAS”的創(chuàng)新框架。針對(duì)現(xiàn)有記憶系統(tǒng)因粒度單一導(dǎo)致的信息檢索不全或噪聲過(guò)大等問(wèn)題，該研究打破了傳統(tǒng)的單粒度存儲(chǔ)模式。

圖 | 許德容分享

受人腦記憶機(jī)制啟發(fā)，MemGAS 通過(guò)構(gòu)建多粒度記憶單元并引入高斯混合模型（GMM），實(shí)現(xiàn)了新舊記憶的高效關(guān)聯(lián)與動(dòng)態(tài)篩選。許德容強(qiáng)調(diào)，MemGAS 的核心優(yōu)勢(shì)在于其“多粒度聯(lián)想”能力：能夠根據(jù)任務(wù)需求，自適應(yīng)地選擇最合適的記憶分片，從而在長(zhǎng)程對(duì)話中提供更具連貫性和個(gè)性化的響應(yīng)。

盡管在處理情緒化或非事實(shí)性的碎片化信息時(shí)，多粒度提取的意圖對(duì)齊仍具挑戰(zhàn)，且系統(tǒng)復(fù)雜性對(duì)實(shí)時(shí)性提出了更高要求，但團(tuán)隊(duì)已在后續(xù)研究中探索記憶的“遺忘與更新”機(jī)制。許德容表示，下一步工作將致力于解決記憶持續(xù)累積帶來(lái)的冗余問(wèn)題，在保證更低 Token 消耗的同時(shí)，構(gòu)建更接近人類思維的動(dòng)態(tài)記憶閉環(huán)。

此外，入選者們也在擴(kuò)散模型的用戶意圖理解、分子表征的動(dòng)態(tài)建模、以及多模態(tài)推理中的時(shí)間感知等前沿探索，都在試圖突破當(dāng)前模型的能力邊界。

機(jī)器學(xué)習(xí)與數(shù)據(jù)應(yīng)用：從動(dòng)態(tài)評(píng)測(cè)到算法理解

在機(jī)器學(xué)習(xí)與數(shù)據(jù)應(yīng)用層面，可解釋性、動(dòng)態(tài)評(píng)測(cè)基準(zhǔn)和異常檢測(cè)等方向受到關(guān)注。特別是醫(yī)療領(lǐng)域，零數(shù)據(jù)泄露、可動(dòng)態(tài)更新的臨床評(píng)測(cè)基準(zhǔn)的提出，標(biāo)志著 AI 評(píng)估正從靜態(tài)刷榜邁向動(dòng)態(tài)實(shí)戰(zhàn)考核。

來(lái)自香港中文大學(xué)（深圳）的博士生王熙棟介紹了其聯(lián)合螞蟻集團(tuán)等機(jī)構(gòu)發(fā)布的醫(yī)療多模態(tài)評(píng)測(cè)基準(zhǔn)——LiveClin。他表示，現(xiàn)有醫(yī)療大模型評(píng)估存在兩大硬傷：一是靜態(tài)題庫(kù)容易被數(shù)據(jù)污染，模型靠“背答案”刷榜；二是評(píng)測(cè)任務(wù)脫離真實(shí)臨床流程，無(wú)法考察模型在患者病情動(dòng)態(tài)變化中的推理能力。

圖 | 王熙棟分享

為此，LiveClin 構(gòu)建了零數(shù)據(jù)泄露、可動(dòng)態(tài)更新的評(píng)測(cè)體系。團(tuán)隊(duì)聯(lián)合 239 位醫(yī)生參與標(biāo)注審核，其中近 40% 為三甲醫(yī)院主任或副主任醫(yī)師，總投入超過(guò) 1,772 人工時(shí)。基準(zhǔn)每半年從最新醫(yī)學(xué)文獻(xiàn)中抓取真實(shí)病例，確保模型必須靠真本事推理。同時(shí)，每個(gè)病例覆蓋從初診到治療方案的全臨床路徑，采用多階梯式漸進(jìn)提問(wèn)，考查模型的長(zhǎng)程推理能力。

在對(duì) 26 款頂尖模型的測(cè)評(píng)中，結(jié)果令人驚訝：即便是 GPT-5、o3，完全通關(guān)率也僅約 35%，與人類主任醫(yī)師仍有顯著差距。王熙棟分析，后期崩盤的主要是開源模型，癥結(jié)在于長(zhǎng)上下文能力不足。目前團(tuán)隊(duì)正推進(jìn)按月更新的私榜機(jī)制，進(jìn)一步防止刷榜。他期待 LiveClin 能成為醫(yī)療 AI 測(cè)評(píng)的新標(biāo)準(zhǔn)，推動(dòng)行業(yè)從靜態(tài)刷榜邁向動(dòng)態(tài)臨床考核。

在數(shù)據(jù)處理與異常檢測(cè)領(lǐng)域，吉林大學(xué)的博士生葉航廷分享了在挖掘大語(yǔ)言模型處理復(fù)雜結(jié)構(gòu)化數(shù)據(jù)潛力方面的最新進(jìn)展。面對(duì)直接處理表格數(shù)據(jù)時(shí)常見的隱私泄露風(fēng)險(xiǎn)與數(shù)值計(jì)算瓶頸，他提出了一種名為“LLM-DAS”的新型框架。

圖 | 葉航廷分享

該框架實(shí)現(xiàn)了從“數(shù)據(jù)處理者”到“算法分析師”的思路轉(zhuǎn)變：利用大模型的邏輯推理優(yōu)勢(shì)深度剖析現(xiàn)有檢測(cè)器算法的弱點(diǎn)，自動(dòng)生成數(shù)據(jù)無(wú)關(guān)、可復(fù)用的代碼，用于合成專門針對(duì)該檢測(cè)器“盲區(qū)”的異常樣本以提升性能，從而有效規(guī)避了原始數(shù)據(jù)的直接暴露。

葉航廷坦言，盡管目前在邏輯對(duì)齊的量化評(píng)估及可解釋性上仍存在挑戰(zhàn)，且難以在所有數(shù)據(jù)集上實(shí)現(xiàn)完美提升，但團(tuán)隊(duì)下一步將重點(diǎn)探索大模型對(duì)算法的深度理解機(jī)制，致力提升其在金融、醫(yī)療等復(fù)雜稀疏數(shù)據(jù)場(chǎng)景下的穩(wěn)健性。

隨著預(yù)講會(huì)議程的結(jié)束，部分與會(huì)同學(xué)已整裝待發(fā)，準(zhǔn)備前往巴西參加 ICLR 2026 全球主會(huì)。如今，AI 正在從“能用”邁向“好用”，從“泛化”走向“專精”，從“刷榜”轉(zhuǎn)向“實(shí)戰(zhàn)”。這些趨勢(shì)不僅代表著學(xué)術(shù)界的探索方向，也預(yù)示著 AI 技術(shù)在真實(shí)世界中的落地路徑正在變得更加清晰。

主辦方介紹：

DeepTech 是一家專注新興科技的創(chuàng)新賦能機(jī)構(gòu)，致力于推動(dòng)科學(xué)與技術(shù)的創(chuàng)新進(jìn)程。DeepTech 同時(shí)是《麻省理工科技評(píng)論》中國(guó)區(qū)獨(dú)家運(yùn)營(yíng)方。

智源社區(qū)目前匯聚全球 20 萬(wàn)人工智能開拓者，是兼具專業(yè)性和開放性的國(guó)際學(xué)術(shù)交流和技術(shù)創(chuàng)新協(xié)作平臺(tái)。社區(qū)圍繞人工智能發(fā)展的基礎(chǔ)問(wèn)題和關(guān)鍵難題，建立緊密協(xié)作的學(xué)術(shù)共同體，加速新線索發(fā)現(xiàn)、假設(shè)提出、提案產(chǎn)生，致力于推動(dòng)人工智能及其交叉領(lǐng)域的前沿研究、創(chuàng)新與可持續(xù)發(fā)展。

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.