![]()
在科學與工程實踐中,常會遇到計算成本高、評估耗時的函數優化問題,例如復雜機器學習模型的超參數調整或新型材料的設計。貝葉斯優化(Bayesian Optimization,BO)作為針對這類 “黑箱” 問題的優化方法,已被證明具備良好效果。然而,該方法的性能很大程度上受限于其內部代理模型的選擇,特別是當采用高斯過程(Gaussian Process,GP)作為代理模型時,核函數的設定尤為關鍵。若核函數與問題特性不匹配,優化進程可能收斂緩慢,甚至無法得到理想的結果。
為解決這一問題,來自香港中文大學(深圳)、伊利諾伊大學厄巴納 - 香檳分校(University of Illinois at Urbana Champaign)和雅典大學(University of Athens)的研究人員共同提出了一種名為Context-Aware Kernel Evolution (CAKE) 的新方法。該成果已被第 39 屆 Conference on Neural Information Processing Systems(NeurIPS 2025)接收,論文題為 “Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs”. 該工作提出一個突破性的框架,利用大語言模型(LLMs)的推理與生成能力,在優化過程中自動、動態地設計最優的高斯過程(GP)核函數。這項研究為構建更智能、高效且可解釋的貝葉斯優化系統邁出了重要一步。
![]()
- 論文標題:Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs
- 論文鏈接:https://arxiv.org/abs/2509.17998
- 代碼鏈接: https://github.com/richardcsuwandi/cake
貝葉斯優化的核心思想是:為未知目標函數構建一個概率代理模型(通常是高斯過程 GP),并通過一個 “獲取函數” 智能地選擇下一次評估點,從而在 exploit(在已知較優區域采樣)與 explore(探索高不確定性區域)之間取得平衡。
GP 的核心是核函數,它決定了模型對函數 結構的基本假設,比如平滑性、周期性或線性趨勢。傳統方法往往選用通用核函數(如 Matérn 或 SE 核)并保持不變。這種 “放之四海皆準” 的策略在關于核函數的假設與真實目標函數特征不匹配時,容易導致性能下降。
核函數語法 (Kernel Grammar)
為了構建更具表達能力的核函數,Duvenaud 等人(2013)引入了 “核函數語法”。其核心思想是核函數在加法和乘法下是封閉的:如果 k1 和 k2 是有效的核函數,那么 k1 + k2 和 k_1 × k_2 也是有效的核函數。
![]()
通過一組基礎核函數 B(例如線性 LIN、周期 PER、平方指數 SE 等),我們可以遞歸地構建一個無限的核函數空間 S:
- S → B (替換核)
- S → S + B (加法組合)
- S → S × B (乘法組合)
例如,LIN + PER 可以捕捉帶線性趨勢的周期性數據,而 SE × PER 可以捕捉局部周期性成分。然而,如何在這個無限空間中高效搜索,特別是在 BO 要求的 “小樣本” 場景下,一直是業界的難題。LLM 卓越的上下文學習(in-context learning)與小樣本推理能力,為解決這個問題提供了全新的思路。
核心方法:CAKE 與 BAKER
該論文提出了兩個相互協作的核心創新模塊,共同構建出強大的自適應貝葉斯優化框架:
1. Context-Aware Kernel Evolution (CAKE)
![]()
CAKE 將核函數的設計問題重新構想為一個 “進化過程”,并巧妙地利用大語言模型(LLM)作為生成新核函數的 “引擎”。該系統維護著一個由多個核函數組成的 “種群”。在每次優化迭代中,LLM 根據已有的觀測數據執行以下兩類 “遺傳操作”:
- 交叉(Crossover):LLM 接收兩個性能較好的 “父代” 核函數及其對應的性能評分,將其特點進行融合,生成一個新的 “子代” 核函數;
- 變異(Mutation):LLM 接收一個性能較好的核函數,并對其結構的一部分進行修改,以探索可能更優的新形式。
所有新生成的核函數都會被加入到種群中,并根據貝葉斯信息準則(BIC)評估其性能優劣。隨后,系統會篩選出表現最好的一批核函數,保留固定數量進入下一代,從而完成種群的更新。
![]()
![]()
2. BIC-Acquisition Kernel Ranking (BAKER)
研究者發現,最能擬合已有數據的核函數,不一定能提出最具價值的下一采樣點。為此,他們提出了 BIC-Acquisition Kernel Ranking (BAKER)方法,通過同時考慮兩個指標對核函數進行排序:
1.模型擬合度:核函數對現有數據的解釋能力;
2.采樣潛力:核函數所建議的下一個查詢點的潛在價值(acquisition value)。
![]()
通過加權平衡這兩項指標,BAKER 能在優化代理模型與實際推進最優解之間取得穩健的平衡。
![]()
實驗設置:基線與測試平臺
為了證明 CAKE 的有效性,研究者將其與三大類基線方法進行了比較:
- 固定核 (Fixed):使用單一的 SE 或 M5 (Matérn-5/2) 核,這是 BO 的默認設置。
- 自適應核 (Adaptive):包括隨機選擇 (Random)、按獲取函數值選擇 (Utility) 或按 BIC 選擇核的方法。
- 組合與高級方法 (Compositional):包括深度高斯過程 (DGP)、高斯過程集成 (EGP)、組合核搜索 (CKS) 和自動化貝葉斯優化 (ABO)。
測試平臺覆蓋了三個具有挑戰性的真實領域:
1.超參數優化 (HPOBench):共 60 個任務,涉及 5 種 ML 模型(LR, SVM, RF, XGB, MLP)和 12 個 OpenML 數據集。
2.控制器調優 (Controller Tuning):兩個高維動態仿真任務:機器人推送 (d=14) 和月球著陸 (d=12)。
3.光子芯片設計 (Photonic Chip Design):一個復雜的多目標 (5 個目標) 物理反向設計問題。
實驗結果與深入分析
綜合性能
- 超參數優化:在 60 個 HPO 任務上,CAKE 在所有測試的 ML 模型中均取得了最高最終準確率。尤其在優化早期(如前 25% 的預算內),CAKE 能迅速收斂到高性能區域,展現出極高的樣本效率。
![]()
- 控制器調優:在動態仿真任務中,CAKE 顯著優于所有基線。它不僅能更快地收斂至高回報控制策略,還表現出對環境變化的強魯棒性 —— 在難度較高的月球著陸任務中,CAKE 是少數能成功達到 200 分目標分數的 BO 方法之一。
![]()
- 光子芯片設計:在復雜的多目標優化中,CAKE 使用預期的超體積改進 (EHVI) 作為獲取函數,有效地在 5 個相互競爭的目標間權衡,取得了更優的帕累托前沿 (Pareto front)。與基線方法相比,其求得高質量解的速度提升近十倍,大幅節省設計時間與成本。
![]()
分析
LLM 驅動的進化:研究者通過實驗證明(圖 7),LLM 并非隨機組合核。與隨機重組或傳統遺傳算法 (GA) 相比,LLM 作為遺傳算子能更迅速地引導核函數種群朝更高適應度(Fitness)的方向進化,其適應度分布曲線能更快地向高分區域移動。
![]()
消融研究 (Ablation Study):關鍵的消融研究(表 1)證實了 CAKE 和 BAKER 兩個組件的必要性。CAKE + BAKER(完整模型)的效果遠超 CKS + BAKER(證明 LLM 優于傳統搜索)和 CAKE + BIC(證明 BAKER 的平衡策略優于單獨的 BIC)。
![]()
可解釋性:CAKE 的獨特優勢
CAKE 的另一顯著優勢在于可解釋性。由于 LLM 能用自然語言推理,它可以在生成核結構的同時給出解釋。例如,在調優 SVM 的 (C, gamma) 超參數時,CAKE 發現了一個復雜核,并給出了如下的自然語言分析:
![]()
這種人類可讀的解釋性,使得對 “黑箱” 函數的理解成為可能,是傳統方法所不具備的特性。
成本與未來展望
計算成本:研究者坦誠,使用 LLM 會增加每次迭代的 “墻上時鐘時間”(wall-clock time)(表 5)。然而,在 BO 的典型應用場景中(如藥物研發、芯片設計),函數評估的成本(數小時或數天)遠高于 LLM 的推理成本(秒級)。CAKE 通過顯著減少所需的函數評估次數(即提高樣本效率),在總體上極大地節約了優化總成本。
![]()
LLM 的選擇:實驗(表 6)表明,CAKE 的性能隨著 LLM(如 Claude, Gemini)能力的提升而提升,證明了該框架具有良好的 “未來兼容性”。
![]()
結語
CAKE 不僅是一項性能更優的貝葉斯優化算法,更標志著 AI for Science 范式下的一次根本性躍遷,它將大語言模型的角色從文本生成工具提升為參與算法級結構設計的智能協作者。通過在優化過程中動態演化高斯過程的核函數,CAKE 實現了代理模型的自適應構建,顯著提升了在數據稀缺場景下的樣本效率與泛化能力。
未來,作者計劃進一步擴展 CAKE 框架,引入更具通用性的核函數語法,并將其核心思想推廣至其他基于核方法的機器學習任務,如支持向量機(SVM)、核主成分分析(Kernel PCA)以及度量學習等。這項工作為構建更加自主、可解釋且持續進化的智能優化系統開辟了新路徑,有望成為推動自動化實驗室與加速科學發現進程的關鍵技術之一。
研究團隊
![]()
Richard Cornelius Suwandi
Richard Cornelius Suwandi于2023年在香港中文大學(深圳)獲得統計學學士學位,目前為香港中文大學(深圳)博士研究生,師從尹峰教授和張縱輝教授。他的研究方向包括貝葉斯優化、概率機器學習以及大模型。他曾獲IEEE Signal Processing Society(SPS)獎學金及深圳大運留學基金會資助。
![]()
尹峰
尹峰于上海交通大學電子信息工程專業獲得本科學位,在德國達姆施塔特工業大學電子信息工程專業分別獲得碩士和博士學位。他曾獲得國家優秀自費留學生獎學金(每年全球500名)和歐盟瑪麗居里青年學者稱號。尹峰博士的主要研究方向為統計信號處理、貝葉斯機器學習、與傳感器信息融合。他目前在人工智能學院任職長聘副教授。他已主持和參與了多個國家、省、市科技項目,其中包括主持和參與國家自然科學基金各級項目(重大專項、重點項目、面上項目、青年項目)。此外,他還獲得2022年度華為公司價值火花獎。截止目前,他已發表國際頂級期刊長文50余篇(包括IEEE Signal Processing Magazine, IEEE Transactions on Signal Processing 10余篇),旗艦會議論文60余篇(包括ICML, NeurIPS, ICLR, AAAI, UAI, ICASSP等頂級會議正刊論文),申請/授權中國專利20余項,另有授權美國專利1項。 他目前是IEEE Senior Member,IEEE機器學習與信號處理技術委員會(SPS MLSP TC)核心成員,自2019年以來擔任愛思唯爾出版社旗下的信號處理期刊(JCR-Q1)副主編,自2023年以來擔任信號處理頂級期刊IEEE Transactions on Signal Processing (JCR-Q1)副主編。
![]()
王俊濤
王俊濤于2022年在香港中文大學(深圳)獲得統計學學士學位,現為香港中文大學(深圳)博士研究生,由深圳大數據研究院聯合培養。他的研究方向包括貝葉斯機器學習、圖神經網絡以及時空數據建模。
![]()
李任杰
李任杰于2024年6月在香港中文大學(深圳)獲得計算機與信息工程博士學位,師從張昭宇教授。他目前在伊利諾伊大學厄巴納-香檳分校(University of Illinois at Urbana Champaign)擔任博士后研究助理,合作導師為L.Goddard教授。他的主要研究方向包括面向光子學/材料自主發現的人工智能、自驅動實驗室以及納米光子學。
![]()
張縱輝
張縱輝教授,國際電氣電子工程師學會會士(IEEE Fellow)、亞太人工智能學會會士(AAIA Fellow),現為香港中文大學(深圳)人工智能學院教授、副院長(教育)和廣東省大數據計算基礎理論與方法重點實驗室副主任。長年入選全球前2%頂尖科學家榜單和Research.com評選的最佳計算機科學家榜單。擔任多個國際信號處理頂級期刊的編輯工作,包括IEEE Trans. Signal Processing資深領域編委(Senior Area Editor),并擔任IEEE信號處理協會感知通信一體化工作組發起人與首屆主席、通信與網絡技術委員會委員和董事會亞太區獨立主席(國內第一人)。張縱輝教授專注于面向移動網絡優化、機器學習、無線通信的關鍵信號處理和優化方法的基礎研究,已發表IEEE國際頂級期刊/會議論文170余篇,包括6篇ESI高被引論文,總計引8800余次。“以優化及信號處理技術對無線通信的貢獻”獲得2015年IEEE通信學會亞太區杰出青年學者獎;與合作者在魯棒波束賦形優化方面的基礎性工作于2018年獲得國際信號處理領域最具影響力的IEEE信號處理協會最佳論文獎;2021年以高效分布式優化方法的開創性工作第二次獲得IEEE信號處理協會最佳論文獎。近年來主持和參與包括國家自然科學基金重點項目、面上項目、深圳市杰出青年項目以及華為、中興等企業的橫向項目10余項。其中獲得華為公司2022年技術合作成果轉化二等獎、2023年無線產品線優秀技術合作項目獎、2024年技術合作成果轉化一等獎。
![]()
Sergios Theodoridis
Sergios Theodoridis是希臘雅典國立和卡波迪斯特里安大學信息與通信系信號處理與機器學習方向的榮譽教授。他是《機器學習:從經典方法到深度網絡、Transformer與擴散模型》(Academic Press,第3版,2025年)一書的作者,也是暢銷書《模式識別》(Academic Press,第4版,2009年)以及《模式識別導論:基于MATLAB的方法》(Academic Press,2010年)的合著者。他作為合作者發表了七篇獲得最佳論文獎的論文,其中包括2014年IEEE信號處理學會雜志最佳論文獎和2009年IEEE計算智能學會《神經網絡匯刊》杰出論文獎。他曾擔任IEEE信號處理學會副主席、歐洲信號處理協會(EURASIP)主席,并曾任IEEE電路與系統學會(CAS)理事會成員。他是IET會士、愛丁堡皇家學會通訊會士、EURASIP會士以及IEEE終身會士。
參考材料
Suwandi, R.C., Yin, F., Wang, J., Li, R., Chang, T.H. and Theodoridis, S., 2025. Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs. arXiv preprint arXiv:2509.17998.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.