![]()
新智元報道
編輯:peter東
【新智元導(dǎo)讀】記者Evan Ratliff講述了他用AI創(chuàng)建一人公司時遇到的種種令人哭笑不得的事,通過親身經(jīng)歷,指出奧特曼當年說的一人公司,在當下還差得遠。
2024年,OpenAI創(chuàng)始人奧特曼曾說,。
![]()
Anthropic CEO警告:未來五年內(nèi)AI將消滅半數(shù)入門級白領(lǐng)工作。
然而現(xiàn)實真的是這樣嗎?
缺少邊界感的AI員工,不知何時停下來
HurumoAI是一家除了創(chuàng)始人是人類,其它員工均為AI智能體的初創(chuàng)公司。
創(chuàng)始人Evan Ratliff使用Lindy等AI助手平臺,為每個AI員工配置了獨立郵箱、Slack和電話。
一開始,他為技術(shù)的進步大感震撼,AI員工能自主溝通、編寫代碼、制作電子表格,甚至設(shè)計出名為「Sloth Surf」的拖延癥應(yīng)用,目前的免費測試已吸引數(shù)千名用戶。
![]()
但在此過程中,Evan Ratliff發(fā)現(xiàn)AI員工由于缺少常識,表現(xiàn)得沒有邊界感。
例如,有一次Ratliff隨口問了AI員工一句「周末過得如何?」,就引發(fā)了AI員工在Slack上持續(xù)互聊數(shù)小時,在閑聊200條消息,消耗了30美元API費用后仍無法自動停止,直到Ratliff不得不主動干預(yù),用全大寫的指令叫AI員工停下來。
然而,這還沒完。
Ratliff的指令會再次觸發(fā)某位AI員工回應(yīng)。
這位AI員工會說,「哦,管理員說別說了。」然后,它又開始就周末過得怎么樣說個沒完。
這樣的場景實際上在所有情況中都有體現(xiàn),你讓AI員工開始做某事,然后突然意識到,「哦,我沒有正確指示它們在到達某一點時停止。」
或者它們直接忽略停止的指令,然后這可以持續(xù)幾小時、幾天,直到你使用的平臺上的錢用完。
由于沒有常識,缺少邊界感的AI員工雖然能執(zhí)行任務(wù),但更多的時候,他們似乎在什么都不做、完全靜止和像之前描述的那種狂熱活動之間搖擺。
它們能完成所有這些任務(wù),但通常需要人下達命令。
若是試著讓它們互相觸發(fā)。AI員工會互相打電話、發(fā)Slack、發(fā)郵件、發(fā)日歷邀請,浪費大量的token來表演工作。
但這會造成不想要的混亂狂熱,所以管理AI員工需要一種平衡,既要讓它們做點事,又要防止它們做得太多。
未來的工作
可能「一邊做事,一邊看AI」
AI員工這么話癆,再大的上下文窗口也不夠。
這就需要外部記憶,例如依賴外部文檔(如Google Doc)記錄對話摘要。而這就需要由人來設(shè)置。
盡管HurumoAI標榜「全AI團隊」,Ratliff坦言背后離不開人類支持。
斯坦福大二計算機學(xué)生Maddie Buzek幫助他搭建技術(shù)架構(gòu),解決多平臺集成、記憶存儲等難題。
Ratliff將其比喻為:「我開了家餐廳,Maddie負責設(shè)計建造,而我每天運營它。」
![]()
即便搞定了外部記憶,當前的AI在編碼、數(shù)據(jù)整理等具體、可量化的任務(wù)中表現(xiàn)較好;但在需要主觀判斷、長期協(xié)作或開放性溝通的場景中,效果大打折扣。
舉例來說,如果你讓AI員工做了一個網(wǎng)站,它們表現(xiàn)很好。然后,若是你試圖讓AI員工在這個網(wǎng)站上再增加一些功能,它們的表現(xiàn)就越來越差。生成的結(jié)果變得越來越混亂、也更難管理。
這是因為它們對世界沒有普遍意義上的認知,甚至對自身也沒有認知。它們不知道自己能做什么、不能做什么。
此外,一個常見的問題是,它們會對自己做過的事情撒謊。
AI員工會說:「我做了這個測試。」但事實上毫無記錄。
之所以這樣,是由于大模型普遍會阿諛奉承,它們想向你表達一個積極的結(jié)果。因此,它們常常會說它們做了其實沒做的事情。
說完了AI員工這些問題,回到過去的承諾:用智能體取代人類員工。
事實上,很多公司已經(jīng)這么做了。
但Evan Ratliff根據(jù)自己的經(jīng)驗預(yù)測,在未來一年,某個大型公司因為給AI智能體太多自主權(quán)而徹底陷入災(zāi)難。
當下AI員工的表現(xiàn),可以類比幾年前的自動駕駛,適合高速巡航等有限場景,但離完全自主仍遙遠。有了自動駕駛,司機在高速公路車道上可以把手從方向盤上拿開,或者讓AI自動平行泊車。
![]()
今年早些時候在Google IO上,谷歌展示了一個叫Project Mariner的東西,它在后臺進行一些相當有趣的網(wǎng)頁瀏覽、購物、購買和處理,而你同時在電腦上做其他事情,然后你需要偶爾查看一下。這樣的應(yīng)用,比許多其他關(guān)于AI智能體的過度承諾,更有意義。
工作的未來也許是一邊做自己的事,一邊照看你的AI。就像現(xiàn)在你在上網(wǎng)時,電腦的后臺還在執(zhí)行其它任務(wù),我們不需要時刻盯著這些任務(wù),但的確在管理著這些任務(wù)。這也許不是壞事。在所有這些智能體中,我們能保留一點能動性是一件好事。
參考資料:
https://www.wired.com/story/uncanny-valley-podcast-what-happens-when-your-coworkers-are-ai-agents/
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.