![]()
2026年春天的硅谷,Harness Engineering已經成了AI圈子里繞不開的熱詞。
從OpenAI Codex團隊五個月內用Agent生成了超過一百萬行生產級代碼,到斯坦福和MIT的研究團隊提出讓AI自己寫Harness的Meta-Harness方案,整個行業正在形成一個新共識:
模型能力決定了天花板,但Harness決定了你能在多長時間里穩定地夠到那個天花板。
AI落地不只是一道算法題,更是一道工程題,同樣的模型能力下,不同的腳手架設計對實際使用效果和成本影響非常大。
換句話說,Agent能不能干活,不完全看模型有多聰明,更要看你怎么讓它聽話、怎么讓它不跑偏、怎么讓它在對話窗口關掉之后還能繼續跑。
看到硅谷的CREAO團隊,在Agent Harness這個賽道上,拿出了全球第一個真正面向普通用戶的答案。
![]()
官網:https://creao.ai/
01為什么是Harness Engineering
先花幾分鐘把Harness這個東西說清楚。
這個詞在中文里最貼切的翻譯大概是“駕馭工程”或者“腳手架工程”。
它不算是一個新的算法或者模型架構,是一整套讓AI Agent穩定執行復雜任務的工程框架。
你把它理解成AI的操作系統也可以。
![]()
OpenAI那篇引爆行業討論的博客里講了一個實驗:
一個只有三名工程師的小團隊,用Codex Agent在五個月內生成了超過一百萬行生產級代碼,合并了約一千五百個Pull Request,整個過程中沒有一行代碼是人類手寫的。
但這個數字本身不是重點,重點是團隊事后復盤得出的結論:Agent不難,Harness才難。
后續的實驗中得到了反復驗證。
SWE-Bench Mobile的論文里有一個非常扎眼的數據:同一個Claude Opus 4.5模型,在不同Harness配置下的編程基準成功率分別是百分之二和百分之十二,差了整整六倍。
LangChain的編碼Agent在Terminal Bench 2.0上,只優化了Harness而沒有動任何模型底層代碼,得分從百分之五十二點八躍升到百分之六十六點五,排名直接從第三十位沖到了第五位。
換句話說,你在AI身上花了多少錢搞模型,跟你花多少心思設計它的運行框架,兩者之間的投入產出比可能完全不在一個量級上。
2026年整個AI行業的焦點,正在從模型本身向模型之外的東西轉移。
大模型的基礎能力在飛速提升,已經超過了普通人的平均水平,AI Agent也能自主執行多步驟的長任務了。
但問題變成了:怎么讓這些Agent在生產環境里穩定跑完不翻車?
![]()
這就是Harness要回答的問題,也是CREAO這家公司切入賽道的邏輯起點。
02CREAO怎么用
打開CREAO,非常簡潔,和其他Agent給人的感覺都不一樣:
![]()
從Feed、Agents、Workspaces到Files再到Agent Brain,邏輯很清晰,上手很簡單。
用慣Claude Code、OpenClaw或者其他Agent的朋友,乍一看可能覺得CREAO很親切,它很自然地融入了各項能力,而且很可靠可控。
但是用的更深入后,會發現因為對Harness的理解,CREAO很像處女座,很細節控,給人的體驗很細膩。
![]()
一點開就能看到,如何創建記憶、如何創建Agent,這些問題是引導充分的,上手用就可以。
相比有些Agent的memory、soul等設定,CREAO給我的第一感覺是,上手很容易,用法非常簡單。
![]()
我試著讓CREAO給我做一個多Agent分工協作的數據看板,訴求非常貼合我的Agent個性用法,功能要求也很綜合。
![]()
Harness的核心價值,在于解決AI執行復雜任務時的失控問題。
像ChatGPT,它很能聊,但你要讓它幫你做一個需要持續監控、定時運行、跨多個工具協同的事情,就需要Claude Code或者更多個性手段了。
聊天窗口一關,所有的執行就跟著消失了。
這就是典型的Harness缺失,模型有意圖理解能力,但沒有一個讓它持久運行的框架。
![]()
創建智能體,實際的效果也很讓人驚喜。
有主動式的引導提問,輔助我來把智能體建的更滿足心意。
創建完成后的智能體,后續也會成為隨時調用的角色對象,能融入到日常的工作流里。
![]()
還嘗試做了一個新聞Agent,每天幫我定時整理AI資訊。
比較讓人欣喜的是,CREAO默認用的是Claude Sonnet 4.6,還能選Opus,效果比很多模型好的不止一點半點,再加上很多Agent設計的優化,讓人使用體驗非常流暢愉悅。
![]()
除了定時的能力,還會和「AI異類弗蘭克研究Agent」聯動起來,定期采集更符合我需求的高價值信息。
所以用上了CREAO之后,它真的成了我每天甚至每個小時都會打開的產品,時不時就想看看任務完成的怎么樣、有沒有主動給我帶來一些新進展。
![]()
還有一些很日常的小任務,效果也不錯。
比如我想給自己的「AI異類弗蘭克」媒體品牌,升級一下品牌Logo。
![]()
生成的logo效果還不錯,風格很多樣。
我尤其喜歡后來生成的簡潔扁平無襯線的版本,已經計劃用在我的未來各種對外露出場景里。
![]()
![]()
做數據看板,想讓監測一下我的公眾號運營情況。
這個需求不算復雜,但上限很高,能把數據動態呈現并且可視化做的好的,CREAO算是獨一份。
![]()
做視頻,我也嘗試了一下。
用我自己的頭像作為人物IP,生成了一段簡單的個人動漫視頻。
可以說,如果單單把CREAO作為一個Agent來理解,很全面、很強大、很周到,常見的使用場景里,效果都不錯。
以上案例測下來,我覺得這是一個對用戶來說非常友好、細節很到位的產品。
但是這還不足以讓CREAO能在硅谷、在投資圈這么受歡迎。
CREAO還做對了什么呢?
03CREAO到底做對了什么
CREAO是最近這段時間,在硅谷正式發布了新一代產品。
發布當天,CREAO在X平臺上連續五個小時霸占全球熱搜榜單前三名, 話題下涌入了來自北美、歐洲、東南亞、拉美等地區的大量科技創作者和開發者。
全球超過五十位頭部科技KOL幾乎同步發布了深度體驗內容,覆蓋英語、西班牙語、葡萄牙語、韓語等多個語種市場,形成了一個非常少見的多語種自來水的傳播效應。
![]()
仔細一研究,發現這支團隊也不是一夜之間冒出來的。
CREAO總部位于硅谷,核心團隊匯聚了來自Google、Meta等硅谷一線大廠的華人AI精英,以及國內頭部大模型創業公司和明星互聯網企業的技術骨干,是一支國際化的復合型團隊。
公司的融資節奏也相當凌厲:成立不到一年就連續完成了兩輪數千萬美金的融資。
我就更好奇了:CREAO到底憑什么,能同時讓全球的開發者和投資人,給出這樣的反應?
一句話來形容:CREAO是全球第一個真正面向普通用戶的AI Agent Harness。
他們自己做了一個叫Super Agent的東西,本質上就是一個Agent馴化系統;
用戶用自然語言描述一個工作流程,系統自動理解意圖、編寫執行代碼、連接各種工具平臺、實時執行、一鍵保存為可復用的Agent、然后按設定的時間表自動運行。
聽起來好像就是一個自動化工具?
不,這里面的差異遠比看上去要大得多。
OpenClaw、Claude Code、Devin這些產品能力很強,但都需要一定的編程理解力,面向的是開發者。
ChatGPT和Claude雖然交互簡單,但本質上只是聊天窗口,關掉之后就沒有了,無法持久執行任何任務。
n8n和Zapier這類自動化工具雖然功能豐富,但需要大量手動配置,每一步都要人工介入,缺乏AI對意圖的理解能力。
中間存在一個巨大的真空地帶:一個既能理解自然語言,又能真正持久執行任務的消費級產品。
CREAO填的就是這個空白。
![]()
假設說,想讓AI幫你做這樣一件事:每周一早上九點,掃描三個競品網站的價格變動,記錄到Google Sheets里,如果價格波動超過百分之十就在Slack上通知你。
用OpenClaw,你需要自己配置運行環境、處理各種技術細節。
但用CREAO,你只需要用自然語言把這個需求描述出來,剩下的全部交給系統。
它自動理解你的意圖、編寫執行代碼、連接Gmail和Google Sheets和Slack等工具平臺,你可以看著它完成整個流程,一鍵保存為可復用的Agent,然后按你的時間表定時自動運行。
對話結束之后,系統還在運行。這是CREAO和所有聊天式AI產品的根本區別。
04跨國精英團隊對消費級AI Agent的重新定義
CREAO的核心團隊配置在今天的AI創業圈子里算是相當硬核的。
創始人兼CEO程凱的履歷本身就很有故事性。
他擁有加拿大多倫多大學數學學士和美國哥倫比亞大學統計學碩士學位。
畢業后他在iPerceptions擔任數學科學家,為戴爾、NASA、康卡斯特等公司開發過機器學習算法,入選過福布斯中國三十歲以下精英榜。
![]()
這不是程凱第一次創業。
他之前創立的語憶科技,是一家專注于用戶體驗管理與消費者洞察的AI公司,累計服務超過三百家品牌客戶,并且實現盈利。
在上?輪企業AI浪潮中,已經驗證過從 0–1 到商業化閉環的能?。
聯合創始人兼CTO Peter P.的履歷也相當扎實。
他之前在Meta任職近六年,隸屬于GenAI團隊,參與過LLaMA體系下的Agentic系統相關研究。
再往前,他還在蘋果擔任過機器學習工程師,做NLP和遷移學習方向的工作。
CPO Clark,兼具數據科學、產品、戰略與創業經驗。
曾在硅?兩家創業公司擔任創始團隊核?成員,橫跨中美市場與多種業態,對早期產品從 0–1、市場驗證與融資節奏有?線實戰經驗。商業化能力非常強。
三位聯合創始人,一位做底層模型出身的CTO,一位資深產品操盤和商業化經驗的CPO,一位連續創業且有成功經歷的CEO……技術、產品、商業化,三要素齊全而且充分閉環了。
這種組合,在Agent基礎設施這個方向上,其實很稀缺,尤其這樣高包容度、高整合能力的團隊。
CREAO整個團隊的構成很多元,來自中國、美國、加拿大、印度等多個國家;核心成員的履歷涵蓋硅谷大廠的AI研發經驗,也有海內外頭部互聯網公司的產品落地經驗。
這種國際化復合型背景,讓他們在技術理解和產品體驗之間,找到了一條不同于純粹硅谷創業公司的路徑。
能感覺到,CREAO團隊對C端平臺級產品體驗,有一種近乎執念的追求。
他們花了很長時間解決:如何讓AI的輸出在對話結束后依然存活。
代碼生成的確定性、多工具編排的穩定性、用戶心智模型的重新設計,每一個環節都需要反復打磨。
而CREAO團隊,恰恰在這個維度上做出了全球范圍內的優解。
05從技術驅動到體驗驅動的范式轉換
4月初,Anthropic因為npm包打包失誤,導致Claude Code大約五十一萬行源代碼被泄露,包含了四千七百多個源文件、四十多個工具模塊以及多項未發布的功能。
雖然這次泄露沒有涉及模型權重和用戶數據,但Claude Code的架構、提示詞及工具調用機制全部暴露在了公眾面前,包括Kairos持久進程、臥底模式等未公開功能。
這一事件在開發者社區引發的討論很有意思。
有人擔心安全和競爭問題,但也有不少觀點認為這次泄露反而會加速整個AI Agent行業的研發進度——因為大家終于有機會看到Anthropic這種級別的團隊是怎么做Harness設計的。
而Claude Code團隊在內部早就堅持一個理念:所有秘密武器在模型本身,Harness應該追求最薄的包裝。
Claude Code這個選擇本身說明了一個問題:Harness的厚度不是靜態的。
當模型能力足夠強的時候,Harness應該被剝離和簡化。Anthropic為Opus 4.5設計了一套相當厚重的Harness方案——GAN式對抗架構、三Agent分工、sprint合約。
但Opus 4.6出來之后,Harness直接做了減法:去掉sprint分解、整體簡化,運行時間從六小時降到三點八小時,成本從兩百美元降到一百二十五美元,性能反而更好。
這套操作被稱為Build to Delete——Harness的厚度取決于模型當前的能力邊界,模型變強了,對應的Harness就應該被剝離。
CREAO的思路和這個邏輯是相通的。
![]()
他們的Super Agent本質上是一個面向普通用戶的Harness系統,讓非技術背景的人也能建立和馴化自己的自動化系統。
隨著底層模型能力的持續提升,這套Harness的復雜度也會逐步下降,最終無限接近用戶直覺——就像智能手機的觸摸屏最終成為所有人都能自然使用的交互方式。
CREAO產品發布后在海外資本市場引起廣泛關注,說實話,我一點也不意外。
Agent賽道從2024年到2026年已經經歷了從概念炒作到技術驗證再到商業落地的完整周期。
中信建投最近的研報也明確提到,Agent的任務交付能力正在變得越來越強,除模型能力提升外,Agent Harness是重要的驅動因素,看好2026年Agent快速落地。
AI Agent這個賽道正在經歷從技術驅動到體驗驅動的范式轉換。
過去兩年所有人都在卷模型能力、卷Agent框架、卷開發者工具,但最終能跑出來的消費級AI產品,一定是讓普通人也能建立并馴化自己的自動化系統的那一個。這就像2007年的iPhone——不是因為觸摸屏技術最先進,而是因為它第一次讓普通人可以直覺地使用智能手機。
CREAO正在做同樣的事。
讓AI Agent從開發者專屬工具,馴化成每個人的執行系統。
而這個產品,出自一支扎根硅谷、融合中美頂尖AI人才的團隊。
他們用了一年的時間,把Agent Harness從一個硬核的技術概念,變成了一個普通人打開網頁就能用的消費級產品。這個方向上的探索才剛剛開始,但方向本身已經不需要再被驗證了。
接下來的十二個月,也許我們會看到更多類似CREAO的產品出現。
Agentic Harness會成為AI基礎設施層最核心的競爭領域之一,而誰能在降低使用門檻的同時保持執行可靠性,誰就能真正占領這個市場。
不是技術最復雜的產品贏,而是讓普通人用得上的產品贏。這個道理在每一輪技術浪潮里都被反復驗證過,這一次也不會例外。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.