龍蝦太火,OpenAI也是動作不停——
前腳剛挖來龍蝦之父,后腳又立馬收購了一家新公司。
而且瞄準(zhǔn)的還是頗讓人在意的智能體安全問題。
![]()
據(jù)OpenAI公告,此次被收購對象為Promptfoo,一家專注于AI安全與評測的初創(chuàng)公司。
稍一打聽便知,這家公司在開源社區(qū)還是小有名氣的——
其評測框架Promptfoo是AI應(yīng)用評測領(lǐng)域最流行的開源工具之一,擁有30多萬開發(fā)者用戶,截至目前GitHub已斬獲11.2K star。
在被收購前,OpenAI、Anthropic、亞馬遜等也都是它的忠實用戶。
據(jù)OpenAI B2B應(yīng)用CTO表示,隨著企業(yè)將“AI同事”部署到實際工作流程中,評估、安全性和合規(guī)性成為基本要求。
因此,Promptfoo也算是補齊了OpenAI在“龍蝦安全”方面的關(guān)鍵一環(huán)。
![]()
而被OpenAI收購后,Promptfoo也將繼續(xù)保持開源。
誰是Promptfoo?
公開資料顯示,Promptfoo成立于2024年,一共有兩位創(chuàng)始人。
聯(lián)創(chuàng)兼CEO曾任Discord LLM工程與開發(fā)者平臺負(fù)責(zé)人,聯(lián)創(chuàng)兼CTO曾任Smile Identity(數(shù)字身份認(rèn)證公司)工程副總裁及AI主管。
![]()
創(chuàng)立Promptfoo的初衷,僅僅是因為團隊關(guān)注到:
- 人工智能系統(tǒng)日益復(fù)雜,而安全工具卻未能跟上步伐。
于是他們決定從主流大模型之路中劃開一道缺口,為開發(fā)者和企業(yè)提供一些AI安全檢測工具,主打一個差異化競爭。
沒想到,這一選擇還真賭對了。
短短兩年過去,這個至今不過23人的小團隊卻取得了驕人戰(zhàn)績——
超過35萬名開發(fā)者用過它家的產(chǎn)品,每月活躍用戶達(dá)13萬,財富500強企業(yè)中超過25%的團隊(約125家)都在使用其產(chǎn)品。
而這份成績單也讓其獲得了資本市場的認(rèn)可。
其最新一輪融資官宣于2025年7月,當(dāng)時由頂級風(fēng)投Insight Partners領(lǐng)投、a16z參投,Promptfoo完成了1840萬美元(約合人民幣1.27億)A輪融資。
![]()
另據(jù)金融信息平臺PitchBook數(shù)據(jù)顯示,Promptfoo自成立以來已融資2300萬美元(約合人民幣1.58億),去年7月的融資使其投后估值達(dá)到8600萬美元(約合人民幣5.92億)。
(注:以上不含此次收購交易金額,雙方對本次交易均暫未披露。)
而能在短時間內(nèi)獲得如此用戶規(guī)模和融資,核心還要得益于其產(chǎn)品——也就是我們開頭提到的Promptfoo開源評測框架。
![]()
這個框架要解決的是一個很多AI團隊正在面對的現(xiàn)實問題:
大模型很好用,但很難測試。
在傳統(tǒng)軟件開發(fā)中,開發(fā)者可以通過單元測試、自動化測試來確保系統(tǒng)穩(wěn)定運行;但到了大模型時代,很多團隊往往只能靠不斷試prompt、人工查看輸出的方式來調(diào)模型。
不僅效率低,而且很難保證上線后的穩(wěn)定性和安全性。
而Promptfoo想做的,就是把AI應(yīng)用測試變成一套標(biāo)準(zhǔn)化的工程流程。
具體主要包括以下幾類能力:
一是自動化評測。開發(fā)者可以批量測試不同的提示詞和模型,讓系統(tǒng)自動評估輸出效果。
比如下圖就是Promptfoo在對比不同開源模型的性能:
![]()
二是AI紅隊演練。系統(tǒng)會模擬真實用戶可能發(fā)起的各種攻擊,從而提前發(fā)現(xiàn)LLM應(yīng)用中的潛在漏洞,并生成完整的安全漏洞報告。
![]()
三是工程化集成。Promptfoo可以直接嵌入開發(fā)流程,例如在CI/CD流程中自動運行模型測試、在代碼提交時自動掃描LLM相關(guān)安全問題、將評測結(jié)果共享給團隊等。
一言以蔽之,Promptfoo試圖把原本充滿玄學(xué)的“調(diào)prompt和測模型過程”,變成一套像軟件測試一樣可重復(fù)、可量化的工程體系。
從使用方式上看,它既提供網(wǎng)頁可視化界面,也支持命令行工具(CLI),開發(fā)者可以直接在本地或服務(wù)器運行大規(guī)模評測任務(wù)。
![]()
Promptfoo表示,其長期愿景是讓這個框架成為AI領(lǐng)域的“標(biāo)配工具”,就像CI(持續(xù)集成)在DevOps領(lǐng)域的地位一樣不可或缺。
- 每次引入新模型、更改提示詞或集成新工具時,系統(tǒng)都會自動對其進(jìn)行評估與紅隊測試,并根據(jù)安全報告的結(jié)果,決定放行或攔截。
而在當(dāng)下這個智能體時代,或者說“龍蝦時代”,Promptfoo的作用肉眼可見地變得愈發(fā)重要。
事實上,從去年拿到A輪融資起,他們就開始將重心轉(zhuǎn)向了智能體。當(dāng)時他們觀察到:
- 互聯(lián)網(wǎng)正在為智能體進(jìn)行重構(gòu)。
具體表現(xiàn)為四大趨勢:多智能體協(xié)作、MCP成為標(biāo)準(zhǔn)協(xié)議、語音交互爆發(fā)、測試驅(qū)動開發(fā)。
基于此,Promptfoo的使命也愈發(fā)清晰——從一個提示詞評測工具,進(jìn)化為智能體時代的安全基礎(chǔ)設(shè)施。
而這,恰好符合OpenAI在“龍蝦時代”的布局需求。
“第一批養(yǎng)龍蝦的人已經(jīng)失眠了”
關(guān)于OpenAI為什么選擇在當(dāng)下這一節(jié)點收購這樣一家公司,答案其實已經(jīng)不言自明。
歸納起來無非兩點:
一是龍蝦實在太火了,所有人都在搶著布局(OpenAI自然也不例外);
二是大火之下,智能體的安全問題已經(jīng)日漸變得刻不容緩。
![]()
龍蝦有多火不用多說了,就說說這安全問題。
從著名刪郵件事件開始,龍蝦的風(fēng)險就已經(jīng)開始集中暴露。
說到底,問題并不在于模型本身,而在于龍蝦這樣的智能體擁有的權(quán)限實在太高。
過去的大模型,大多數(shù)時候只是負(fù)責(zé)生成內(nèi)容。即便回答出現(xiàn)問題,影響也基本停留在信息層面——最多是說錯話、答非所問,即所謂“出現(xiàn)幻覺”。
但龍蝦不一樣。
為了真正完成任務(wù),它們往往被賦予了大量真實世界的操作權(quán)限,什么訪問郵箱、文檔和數(shù)據(jù)庫、什么調(diào)用各類API和企業(yè)工具……全都是你工作生活中最敏感、最核心的數(shù)字資產(chǎn)。
這也意味著,一旦出現(xiàn)誤判或被惡意提示詞誘導(dǎo),問題就不再只是“回答不準(zhǔn)確”,而可能變成真實操作層面的失誤。
這里面風(fēng)險有多大,想必也不用多說了(也難怪很多人不敢用或者需要單獨弄一臺主機)。
個人尚且如此謹(jǐn)慎小心,更別說還有企業(yè)了。當(dāng)越來越多公司開始把業(yè)務(wù)流程交給智能體時,這種風(fēng)險無疑更是會被成倍無限放大。
恰在今天,微博熱搜上出現(xiàn)了這樣一個話題——“第一批養(yǎng)龍蝦的人已經(jīng)失眠了”,說的其實就是上面這兩點(當(dāng)然著重還是強調(diào)安全問題)。
![]()
對此,且看OpenAI是如何破解的——
龍蝦火,那就火速挖來龍蝦之父Peter Steinberger,而且CEO奧特曼順勢宣布大力進(jìn)軍智能體協(xié)作領(lǐng)域。
![]()
龍蝦出bug惹禍(例如偷偷狂刪Meta AI安全總監(jiān)郵件),那就大筆一揮收購Promptfoo這樣現(xiàn)成的智能體安全公司。
根據(jù)雙方合作公告,Promptfoo的技術(shù)將被整合進(jìn)OpenAI Frontier中,后者是OpenAI專門推出的智能體創(chuàng)建和運行平臺。
而被收購后,Promptfoo也將和OpenClaw項目類似,繼續(xù)保持獨立運營,OpenAI僅起到提供支持的作用。
對此,網(wǎng)友們也紛紛感慨,這次真的算是雙贏了。
尤其在智能體時代,會自動執(zhí)行任務(wù)的龍蝦已經(jīng)可以成為評測大模型的新工具——以前還能刷刷榜,但現(xiàn)在全都得“真刀真槍”上戰(zhàn)場拼殺了。
![]()
嗯?讓龍蝦成為檢驗大模型真實能力的新工具,細(xì)想之下確實合理和巧妙。
你說呢?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.