![]()
為什么選擇能源部?可能會出現什么問題?或者會有什么好的方面?
為什么是能源部?為什么是現在?
因為一切的一切——都取決于科學基礎模型。
依我看,創世紀使命中最雄心勃勃、風險最高/回報也最高的目標就是建立科學基礎模型(SFM)。
這不是人工智能項目。
這是構建全新科學文明的藍圖。
在我們能夠理解美國能源部的作用、數據標準化,以及可能出現哪些正確或災難性錯誤之前,我們必須精確地定義科學基礎模型究竟是什么。
什么是科學基礎模型(SFM)?——我的定義
科學基礎模型 (SFM) 是一種大規模、多領域的 AI 模型,它基于異構科學數據集(實驗的、觀察的、仿真的、儀器的和機械的)進行訓練,并以物理定律、校準測量和結構化科學語義為基礎,從而實現統一表示、跨領域遷移、預測推理、設計生成、優化以及自然界和工程界的自主科學工作流程。
這是你能找到的最完整的定義。
1. 這是大規模的
(與 GPT/Gemini 類似,但基于科學數據宇宙進行訓練)
·數十億到數萬億個參數
·多模態編碼器
·大規模跨域表示能力
·但與語言模型不同,訓練語料庫并非文本。
它涵蓋:物理學、材料學、氣候學、化學、生物學、量子力學、聚變、制造業……
·整個科學界實現了數字化。
2. 它是多領域的
跨度:
·材料
·能源
·物理
·量子系統
·生物學與生物技術
·化學
·氣候與地球系統
·工程與制造
·高性能計算模擬領域
所有這些都映射到一個統一表示空間中。
歷史上第一次出現這樣的空間。
3. 它使用異構科學數據進行訓練
包括:
·實驗數據(X射線、中子散射、透射電鏡、原子力顯微鏡、光譜學……)
·模擬數據(偏微分方程求解器、分子動力學、量子力學、計算流體動力學、等離子體磁流體動力學、量子電路……)
·觀測數據(氣候檔案、衛星數據、傳感器日志)
·時空場(流、電磁場、軌跡、動力學)
·結構化圖數據(分子、晶格、反應網絡)
·儀器級原始信號(檢測器數據、校準曲線、誤差范圍)
這是比地球上任何文本語料庫都具有更高信號密度的數據。
4. 數據受物理學約束
與人類文本不同,科學數據是:
·受自然資源保護法管轄
·由偏微分方程組構成
·與能量景觀一致
·在群論約束下對稱
·使用物理儀器進行校準
·受可測量誤差的限制
這意味著:
SFM 學習的不是人類語言的構成要素,而是物理世界的結構。
5. 它學習統一的科學表征空間
由以下部件構成:
·張量表示
·流形嵌入
·圖/超圖結構
·支持PDE的編碼
·科學基元(您的基元紅外層)
這是以前從未存在過的真正的“科學的共同語言”。
6. 它執行的是完整的科學循環,而不僅僅是預測
SFM可以:
1.理解科學數據及其基本結構
2.預測物理行為、材料特性、反應路徑
3.從結果反推原因(逆問題)
4.生成和設計分子、材料、系統和裝置
5.優化參數、流程和實驗設置
6.自動化推理(假設生成、實驗設計)
7.(通過AI代理)驅動自主實驗室
8.跨領域遷移(一個模型→多個科學領域)
這就是為什么SFM不是“用于科學的AI”。
AI正在成為一種科學代理。
工程定義
從工程學的角度來看,SFM 是:
一個統一的、可擴展的 AI 運行時,它使用標準化的科學數據模式,并通過通用模型接口生成跨領域的預測、模擬、設計和決策。
其中包括:
·多模態編碼器(圖、張量、序列、偏微分方程)
·物理感知架構(PINN、神經算子、圖神經網絡、Transformer)
·域適配器
·統一的科學紅外層
·任務頭(預測、逆向工程、設計、優化)
·用于自主科學的代理界面
這相當于操作系統內核的科學版本。
哲學定義
SFM 是人類首次嘗試將科學世界匯編成一個可計算、可協商、可調度的模型宇宙。
語言模型可以學習人類語言。
SFM則學習自然本身。
這才是真正的范式轉變。
為什么SFM是創世使命的絕對核心
行政命令的每一條都指向這一點:
·數據標準化→ 燃料
·國家實驗室→ 發動機艙
·高性能計算→ 引擎
·AI代理→傳輸
·統一平臺→ 底盤
·科學突破→ 輸出
如果沒有 SFM,Genesis Mission 就只是“更好的科學 IT”。
使用SFM后,它就變成了:
??新的科學文明基礎設施
??首個真正的跨學科科學操作系統
??首次嘗試將物理現實匯編成模型
這就是為什么SFM是核心的中心。
科學基礎模型 (SFM) 是一種物理結構化的多領域跨尺度人工智能模型,它將自然系統和工程系統的預測、反演、設計和優化統一起來,從而實現可轉移的科學智能。
或者超硬核版本:
SFM = 一個能夠學習物理世界結構的統一的AI模型。
聽起來難以置信。為什么是美國能源部?這究竟會有什么好結果——或者說,會有什么問題?
這是我的預測。
1. 美國能源部擁有正確的數據——這些數據是經過幾十年積累的,規模龐大,而且科學上是正確的。
地球上沒有任何其他機構擁有類似的資源:氣候檔案、聚變等離子體日志、X射線散射數據庫、粒子探測器輸出、超導數據集、數十年的高性能計算模擬、量子噪聲譜、材料相變,以及你能想象到的各種形式的結構化科學信號。
這是美國的科學寶庫。
2. 但非語言數據真的能用于基礎模型嗎?
這是個價值十億美元的問題。
科學數據不是文本;它們是場、張量、流形、偏微分方程軌跡、儀器信號。
如果尺度定律能夠更清晰地應用于物理結構化的低噪聲數據,而不是應用于雜亂的人類文本,那么SFM)就可能開啟一種新的科學范式。
否則,整個任務將因其自身的野心而崩潰。
3. 這些數據集的格式是否正確?我們能否使它們兼容?
美國能源部的數據很豐富,但比較分散。
不同的實驗室、不同的儀器、不同的文件格式、不同的元數據約定,以及大量的半機密測量數據。
在 SFM 存在之前,這些數據集必須標準化、模式對齊、校準、溯源跟蹤,并轉換為統一的科學信息庫。
如果這種做法奏效,那么SFM將不可避免。
如果失敗,整個平臺將變成一個無法解決的集成難題。
最硬核的核心:科學基礎模型(SFM)
因為一切——所有的一切——都取決于“科學基礎模型”(Scientific Foundation Model,SFM)。
如果你問我,創世任務中最雄心最大、風險最高但可能回報也最高的目標,就是建立一個科學基礎模型(SFM)。
什么是科學基礎模型(SFM)?——我的定義
科學基礎模型(SFM)是一類大規模訓練、跨領域的AI模型,訓練于多源異構科學數據——包括實驗、觀測、仿真、儀器、以及機制性數據——并由物理定律、校準測量與科學語義所約束。它能夠學習統一表示,實現跨領域遷移、預測推理、設計生成、優化決策,并推動自然與工程系統中的自主科學工作流。
這是你能找到的最完整、最高精度的定義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.