![]()
導語
符號回歸在現代科學研究中扮演著至關重要的角色,因為它能夠從數據中發現簡潔且可解釋的數學表達式。一個關鍵挑戰在于,如何在無限的搜索空間中尋找簡約且可泛化的數學公式,同時還要擬合訓練數據。現有的算法在處理復雜性問題時,十多年來一直面臨著精度和效率的關鍵瓶頸,這從根本上阻礙了符號回歸在跨學科領域科學探索中的應用步伐。為此,研究者們引入了并行符號枚舉(Parallel Symbolic Enumeration, PSE),以高效地從有限數據中提煉出通用的數學表達式。實驗表明,與最先進的基線算法相比,PSE在超過200個合成和實驗問題集上實現了更高的精度和更快的計算速度。PSE代表了在數據驅動的、符號化可解釋模型的發現方面,向更精確和更高效邁出了一步,并提高了符號學習的可擴展性。
關鍵詞:并行符號枚舉,符號回歸(Symbolic Regression, SR),人工智能(Artificial Intelligence, AI),圖形處理器 (Graphics Processing Unit, GPU) 并行計算
王璇丨作者
趙思怡丨審校
![]()
論文題目:Discovering physical laws with parallel symbolic enumeration 論文鏈接:https://www.nature.com/articles/s43588-025-00904-8 發表時間:2025年11月21日 論文來源:Nature Computational Science
引言:科學發現的“羅塞塔石碑”——符號回歸
幾個世紀以來,科學發現日益依賴數據驅動。符號回歸(SR)處于這一趨勢前沿,其核心目標是從觀測數據中自動提取可解釋的數學表達式,且無需預先假設函數形式,推動天文學、材料科學及物理定律發現等多個領域進步。
然而,SR面臨“組合爆炸”的根本挑戰。現有主流方法各存局限:演化計算(如GP)可擴展性不足,稀疏回歸(如SINDy)受限于預設函數庫,深度學習依賴主觀閾值,MCTS則搜索效率受限。由于SR本質上是NP難問題,傳統方法獨立評估表達式導致效率低下,提升評估效率成為關鍵。為此,發表于《自然·計算科學》的這篇文章提出了并行符號枚舉(PSE)框架,旨在通過根本性改變搜索范式來突破上述瓶頸。
核心創新:PSE如何打破瓶頸?
PSE模型的核心是一個并行符號回歸網絡(PSRN),從對候選表達式進行獨立、順序評估,轉向一個并行化、共享計算的框架。它的關鍵創新在于兩點:
共享子樹評估:在SR過程中,許多候選表達式共享相同的子樹。傳統方法會為每個表達式單獨計算這個子樹的數值,造成大量冗余。PSRN則能自動識別這些公共子樹,并僅計算一次,然后將結果共享給所有需要它的更復雜表達式,從而避免了重復計算。
GPU大規模并行計算:PSRN的架構天生適合并行化。它被設計為在GPU上運行,能夠同時對數以億計的候選表達式進行并行評估。通過利用GPU的數千個核心,PSRN可以在短短幾秒鐘內完成海量表達式的數值計算和誤差評估。
這兩項技術的協同作用,使得在表達式評估環節,效率提升了高達四個數量級。
![]()
圖1. 提出的PSE模型概述。
性能驗證:PSE有多能打?
研究團隊在超過200個問題上驗證了PSE的有效性。在標準SR基準測試中,PSE在符號恢復率與計算速度上均全面領先。在16個混沌系統的控制方程發現任務中,即便在10%噪聲干擾下,PSE仍展現出最高的恢復率與魯棒性。在實際應用層面,PSE成功從機電系統數據中發現了簡潔準確的動力學方程,并在經典的湍流摩擦(Nikuradse)數據上找到了更優的符號表達式。最為突出的是,在一個包含50個變量的高維噪聲合成問題中,PSE實現了40%的恢復率,而頂尖基線方法的恢復率為0%,這證明了其強大的可擴展性與特征選擇能力。
![]()
圖2. 通過實驗數據揭示基礎物理定律。
未來展望:通往更智能的科學發現
展望未來,PSE的發展將在多個維度持續進化:通過與uDSR等集成式SR方法融合,結合預訓練、深度SR與稀疏回歸提升性能;引入特征選擇預處理,聚焦關鍵變量以增強高維問題可擴展性;優化令牌生成策略與計算后端,提升搜索智能與硬件利用率;融入物理量綱等先驗知識,以加速收斂并節約算力。PSE通過GPU并行計算與層次化智能搜索的融合,突破了SR領域長期存在的“效率-精度”瓶頸,為從混沌系統解析到工程規律挖掘的數據驅動科學發現提供了強大新工具,其卓越性能已展現出成為跨學科科研基礎平臺的潛力,未來將持續推動科學發現的自動化與高效化。
復雜系統自動建模讀書會
“復雜世界,簡單規則。”
集智俱樂部聯合復旦大學智能復雜體系實驗室青年研究員朱群喜、浙江大學百人計劃研究員李樵風、清華大學電子工程系數據科學與智能實驗室博士后研究員丁璟韜、美國東北大學物理系Albert-László Barabási指導的博士后高婷婷、北京大學博雅博士后曹文祺、復旦大學數學科學學院應用數學方向博士研究生趙伯林、北京師范大學系統科學學院博士研究生牟牧云,共同發起。
讀書會將于9月5日起每周四晚上20:00-22:00進行,探討四個核心模塊:數據驅動的復雜系統建模、復雜網絡結構推斷、具有可解釋性的復雜系統推斷(動力學+網絡結構)、應用-超材料設計和城市系統,通過重點討論75篇經典、前沿的重要文獻,從黑盒(數據驅動)到白盒(可解釋性),逐步捕捉系統的“本質”規律,幫助大家更好的認識、理解、預測、控制、設計復雜系統,為相關領域的研究和應用提供洞見。歡迎感興趣的朋友報名參與!
詳情請見:
1.
2.
3.
4.
5.
6.
7.
8.
9.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.