今天,OpenAI 公開 Atlas 的核心技術實現,這是一個專門為 Agent 開發的瀏覽器,讓 AI 能夠看到完整的界面渲染,而不是需要像人一樣,挨個的點擊所有元素,才能獲得所有信息
這也是 OpenAI 首次在工程領域,進行的官方發布
Atlas 看起來就是個 Chromium 套殼,畢竟...你還能看到 Chrome 應用商店,能裝 Chrome 插件
![]()
網址輸入 atlas://extensions ,進入插件頁
Edge、Brave、Arc 也都是這樣,看起來都是 Chromium 套殼
但底層架構完全不同
Atlas 把 Chromium 整個搬出去了
傳統瀏覽器里,Chromium 掛了,整個瀏覽器掛
Chromium 卡了,瀏覽器界面跟著卡
有用戶反饋,在 Sora 這種復雜網頁,別的 AI 瀏覽器會卡住,Atlas 是正常的
Atlas 主應用是獨立的 Swift 應用,Chromium 作為獨立進程在后臺運行,兩者通過 IPC 通信
這套架構叫 OWL(OpenAI's Web Layer)
![]()
Atlas 的 OWL 結構
按 OpenAI 的說法,這種方式
? 啟動快:Chromium 在后臺慢慢加載,Atlas 界面瞬間顯示
? 不崩潰:Chromium 掛了,Atlas 不受影響
? 開發快:大部分工程師不用編譯 Chromium,構建從小時級降到分鐘級
? Agent 能看清屏幕:強行把所有彈窗合成回主頁面
在項目開發上,也能做到足夠的解耦,新員工第一天下午就能提交代碼
OWL 怎么做的
Atlas 和 Chromium 之間通過 Mojo 通信,這是 Chromium 自己的 IPC 系統
OpenAI 寫了自定義的 Swift 綁定,讓 Swift 應用能直接調用 Chromium 的接口
這里有幾個核心概念:
Session:全局控制 Chromium
Profile:管理用戶配置
WebView:控制單個網頁的渲染、輸入、導航
LayerHost/Client:在 Atlas 和 Chromium 之間交換渲染信息
![]()
OWL 工作示意
網頁內容怎么顯示?
Chromium 渲染好的 layer 通過 CALayerHost 傳給 Atlas
Atlas 用 NSView 把這個 layer 嵌進界面
輸入事件怎么處理?
![]()
event 的處理
Atlas 收到用戶輸入(鼠標、鍵盤),翻譯成 Chromium 能理解的 WebInputEvent 格式,發給 Chromium
如果網頁沒處理這個事件,Chromium 會把事件退回來,Atlas 重新合成 NSEvent,給應用的其他部分處理
Agent mode 的特殊處理
這里的思路很牛逼
computer use model 需要一張完整的屏幕截圖
問題來了,瀏覽器里有些元素是獨立渲染的
下拉菜單、顏色選擇器、日期選擇器,這些在 Chromium 里是單獨的彈窗 AI 只看主頁面,看不到這些彈出元素 OpenAI 的做法:強行把所有彈窗合成回主頁面 這些彈窗雖然是獨立窗口,但有自己的 RenderWidgetHostView 和 AcceleratedWidget OWL 用跟主頁面一樣的 delegated rendering 模型,把這些彈窗的 layer 抓出來,按正確的坐標位置合成回主頁面 AI 拿到的就是一張完整的截圖 渲染方法 還有個細節 Agent 生成的輸入事件,直接發給 renderer,不走 browser 層 這樣能保持沙箱邊界,Agent 不能通過快捷鍵觸發瀏覽器的特權操作 相關的任務,也進行了隔離 Agent browsing 可以跑在 ephemeral context 里,不共享用戶的 Incognito profile 每個 agent session 用獨立的 StoragePartition,完全隔離 session 結束,所有 cookies 和站點數據全部丟棄 你可以同時開多個 agent session,每個都在獨立的 tab 里,互相隔離 工程效率的改變 Chromium 代碼庫太大 checkout 要很久,編譯要幾個小時 OWL 把 Chromium 編譯成預構建的 binary,內部分發 大部分做 Atlas 的工程師,只編譯 Swift 代碼,幾分鐘完事 OpenAI 有個工程文化:新員工第一天下午就能提交代碼 對 Chromium 這種項目,這幾乎做不到 但 OWL 做到了 而且因為 UI 層完全重寫,對上游 Chromium 的改動很少,升級版本也容易 說兩句 傳統瀏覽器是為人設計的,Agent 瀏覽器要解決的問題不一樣 人需要各種交互,進行輔助認知,可以點擊菜單然后彈出閱讀 AI 則不同,需要在一張圖里看到所有元素,需要快速響應 新的瀏覽器架構,很有必要 原文附上https://openai.com/index/building-chatgpt-atlas/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.