來源:市場資訊
(來源:中國圖象圖形學學會CSIG)
![]()
中國圖象圖形學學會博士/碩士學位論文激勵計劃旨在推動中國圖像圖形學領域的科技進步,鼓勵創新性研究,促進青年人才成長。
為宣傳科技工作者積極進取的工作精神,分享獲獎人的科研故事,本期推文我們獨家對話2025年度CSIG博士學位論文激勵計劃提名獲得者王曜明,聽他講述科研路上的堅守與成長,以榜樣之力,赴創新之約。
問題一:感謝您接受CSIG專訪,請先進行一下自我介紹:
我叫王曜明,于2024年獲得上海交通大學信息與通信工程博士學位,導師為熊紅凱教授。目前任美團主任研究員,北斗人才計劃。研究興趣集中在多模態大模型,尤其側重于開創性算法設計、模型框架搭建。迄今為止,已發表人工智能頂級期刊會議論文26篇,其中以第一作者發表CCF-A論文11篇, 通訊作者發表CCF-A論文5篇。目前研究目標是構建生成理解統一的多模態模型及可交互世界模型,并致力于相關預訓練,后訓練的算法研究和數據治理。
![]()
問題二:在科研過程中,有沒有什么好的方法可以推薦給大家?
非常感謝您的提問。在科研這條充滿挑戰但也充滿樂趣的道路上,每個人都會逐漸摸索出適合自己的方法論。結合我自身的研究經歷,我想和大家分享三個我認為比較關鍵的方法或者說習慣,希望能給大家帶來一些啟發:
第一,要培養“第一性原理”的思考習慣。
科研很容易陷入“追熱點”的誤區。今天流行一個新架構,明天流行一個新模塊,大家就很容易盲目地去加模塊、刷榜。但我認為,更重要的方法是回歸問題本質。當遇到一個瓶頸時,不要急于去試錯新的Trick,而是要問自己最核心的幾個問題:這個現象的物理或數學本質是什么?現有的基線模型到底在哪里失效了?為什么會失效?
第二,建立閉環迭代的實驗與驗證體系。
做實驗絕對不能是“碰運氣(煉丹)”,而應該像工程師開發系統一樣,建立嚴密的邏輯閉環。先有假說,再做實驗: 每次跑代碼前,一定要清楚自己要驗證的Hypothesis是什么。構建極簡的Toy Example: 在跑大規模實驗前,先用極小的數據集或極簡的參數去驗證你的核心Idea是否成立。這樣可以極大地節省時間成本。
第三,保持系統性文獻閱讀與批判性吸收。
現在的論文數量爆炸,如果漫無目的地看,很容易產生信息焦慮。我推薦的方法是:以問題為導向,進行脈絡式閱讀。
不要只看最新的頂會論文,要去挖掘這個子領域的“開山之作”和“綜述文章”,把這個問題的演進脈絡理清楚。同時,在讀論文時要帶著批判性的眼光:這篇論文的假設前提在我的場景下還成立嗎?它的方法有沒有掩蓋什么缺陷?它的評估指標是否足夠公平?
當你不再把頂會論文當成絕對權威,而是當成一個與作者平等對話、尋找其破綻的過程時,你的創新點自然就會涌現出來。
最后,我想補充一點非技術層面的建議,那就是保持良好的心態和韌性。科研中90%的時間可能是面對失敗的,保持規律的作息、找到排解壓力的途徑,擁有長期主義的堅持,這或許是比任何具體方法都更重要的科研法寶。
希望這些分享能對大家有所幫助!
![]()
問題三:請對您的論文進行簡要介紹:
隨著預訓練基礎模型規模的急劇增長,將其適配到各類下游任務的計算與存儲成本變得日益高昂,參數高效微調(PEFT)因此成為深度學習的核心研究方向。然而,現有的PEFT方法(如提示工程和瓶頸適配器)往往存在預訓練信息丟失、易受分布變化干擾以及在未見數據上泛化能力不足等缺陷。為了探究并建立一套兼具信息無損與泛化魯棒性的高效微調新準則,本文以**歸一化流(Normalizing Flow)**為基礎范式,從單模態優化、多模態融合及空間密集多模態三個維度展開了系統性研究。
在單模態優化方面,本文揭示了現有適配方法因缺乏顯式Lipschitz約束而容易導致誤差在模型中傳播的問題。為此,提出了一種可逆歸一化流跳層適配框架,通過可逆變換保證了特征分布調整時的信息無損,并利用雅可比行列式約束Lipschitz常數。該通用框架在卷積網絡和Transformer等多種主干網絡上展現出極高的泛化性,在17個視覺任務上實現了顯著的性能躍升。
在多模態融合層面,現有方法大多局限于單端微調(如僅微調文本提示),難以釋放多模態大模型的全部潛力;而直接雙端微調又極易破壞預訓練空間的模態一致性,引發嚴重的“多模態遺忘”問題。本文創新性地引入了額外視覺編碼器以構建合作梯度,從而強有力地保持了模態間的耦合關系。進一步地,通過提出控制超球能量發散的理論與策略,成功摒棄了冗余編碼器,在有效抑制遺忘、提升新類泛化能力的同時,平均縮減了36%的計算時間,實現了真正計算友好的多模態微調。
面向空間密集多模態任務(如指代圖像分割),本文指出以往研究僅關注跨模態融合,卻忽視了各模態特征分布的底層適配與全局約束。為此,本論文設計了一種新穎的交織歸一化流網絡,僅需0.4M的微調參數即可同時實現特征適配與模態深度交織。此外,創新性地引入了全局跳層微調模塊,從文本中提取全局先驗對視覺特征進行有效規范。在保持骨干網絡凍結的前提下,該方法以不足2.5%的微調參數量,不僅大幅超越了現有的PEFT SOTA模型,更達到了媲美全量微調的最佳性能。
![]()
問題四:請問您在論文籌備過程中遇到最大的挑戰是什么?是怎樣克服的呢?
在論文籌備過程中,我遇到的最大挑戰并非是代碼bug或算力限制,而是“如何完成從經驗現象到深層數學/物理本質的跨越”。
比如在我做大模型微調研究時,看到大家都說“多模態災難性遺忘”很難解決,我沒有急著去設計更復雜的網絡結構,而是退回到梯度和特征分布的最基礎層面去分析。結果發現,只要從梯度問題和超球能量這兩個理論節點入手,反而能用極簡的方法(比如加性低秩變換)解決看似復雜的問題。所以,把復雜現象拆解為最基本的理論要素,往往能找到最優雅、最通用的解法。
![]()
問題五:請問您有什么獲獎感言呢?
今天能夠站在這里領取這份榮譽,我的內心充滿了喜悅,但更多的是深深的感激。這份獎項雖然握在我的手中,但它背后凝聚的,是我導師熊紅凱教授無盡的心血與栽培。
在此,我要向熊老師表達最誠摯的謝意。感謝您在學術上給予我高瞻遠矚的指引。是您用敏銳的洞察力,幫我撥開研究初期的迷霧,讓我學會如何用“第一性原理”去思考問題,如何從紛繁復雜的數據中洞見事物的本質。您嚴謹治學的態度和對學術極致的追求,是我科研道路上最明亮的燈塔。
同時,我也要感謝您在科研低谷時給予我的包容與鼓勵。科研的道路上往往伴隨著一次次的失敗與迷茫,是您幫我重塑信心,讓我擁有了直面困難的底氣和韌性。您不僅教授了我做學問的方法,更傳授了我做人做事的道理。
“飲水思源”,這份榮譽是對我過去努力的肯定,更是對我未來前行的鞭策。我會將這份感恩化作繼續攀登科研高峰的動力,努力做出更有價值的研究成果,絕不辜負您的悉心教導與殷切期望。謝謝您!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.