![]()
AI編程界再添新星!普林斯頓研究團隊推出了革命性的智能體-計算機接口(ACI)——SWE-agent。這一創新使得大型語言模型如GPT-4能夠華麗轉身,成為軟件工程領域的AI專家,自動在真實的GitHub倉庫中修復bug。
困擾GPT-4已久的編程難題,如今迎刃而解。在SWE-bench測試集中,SWE-agent表現出色,解決了12.29%的問題,平均僅需93秒,準確率令人矚目。更令人振奮的是,SWE-agent完全免費開源。
![]()
短短十幾小時內,便在GitHub收獲了1.6k星、109個Fork的熱烈反響。感興趣的朋友可訪問:https://github.com/princeton-nlp/SWE-agent。英偉達高級科學家Jim Fan也透露了成功秘訣:要在SWEBench上取得12.3%的佳績,關鍵在于精心設計GPT-4的命令行工具,無需其他復雜手段。
John Yang及其研究團隊強調,大模型需要精心設計的智能體——計算機接口,以提供類似于人類喜好的UI設計體驗。例如,當LLM出現縮進錯誤時,編輯器能夠立即阻止并給出反饋。此外,他們還發現,在查看文件時,限制SWE-agent一次顯示100行比展示200-300行或整個文件更為有效。
即使擁有強大的GPT-4模型支持,一個優秀的智能體-計算機設計同樣至關重要。John Yang團隊的技術報告將于4月10日發布,屆時將詳細展示SWE-agent的工作原理和應用前景。
此外,該項目的logo由Ofir Press使用DALLE-3精心設計,突顯了開源Devin的獨特性和創新精神。自推出以來,Devin在短短一個月內迅速走向大眾化,吸引了眾多開發者的關注。
有開發者表示:“我感受到了一個全新的研究領域正在崛起——智能體計算機交互(ACI)。它與人機交互(HCI)有著緊密聯系,但更專注于LLM和LVM的應用。”同時,對于普林斯頓團隊利用GPT-4在基準測試中取得的12.29%準確率,許多人感到驚嘆,并期待GPT-5的誕生將帶來更多突破。
隨著開源Devin的普及和智能體計算機交互(ACI)領域的發展,軟件行業的傳統護城河似乎已經消失。數字經濟應用實踐專家駱仁童博士對此表示期待,隨著更多的AI垂直應用出現,我們將看到更多創新工具和方法涌現,推動軟件工程領域不斷前進。
![]()
智能體工作流SWE-agent的運作可概括為兩大環節:首先是“推理”階段,SWE-agent針對GitHub中的某一問題,利用特定腳本進行處理后,提出相應的拉取請求以期待問題得到解決;隨后進入“評估”階段,對提出的拉取請求進行嚴格檢查,以驗證其是否有效解決了原問題。
目前,這一流程主要應用于SWE-bench基準測試中的問題。若要在任意GitHub問題上運行SWE-agent,可執行以下命令:`python run.py --model_name gpt4 --data_path [GitHub問題鏈接] --config_file config/default_from_url.yaml`。
而對于SWE-bench上的問題,需在SWE-bench Lite上運行SWE-agent并生成補丁:`python run.py --model_name gpt4 --per_instance_cost_limit 2.00 --config_file ./config/default.yaml`。若需針對SWE-bench中的特定問題進行操作,可添加`--instance_filter`選項。
至于評估階段,只需在終端中切換至evaluation目錄并運行`./run_eval.sh `即可,但請注意此步驟目前僅支持SWE-bench問題集。
![]()
作者介紹
SWE-agent這項研究中兩位核心作者是John Yang和Carlos E. Jimenez。
![]()
John Yang
![]()
John Yang目前是普林斯頓大學的研究助理,導師是Karthik Narasimhan。他曾在加州大學伯克利分校取得了電子工程和計算機學士學位。他本人對語言基礎和交互、LLM的基準測試、軟件工程和代碼生成感興趣。
Carlos E. Jimenez
![]()
Carlos E. Jimenez是普林斯頓的博士生,導師是Karthik Narasimhan教授。他研究的是自然語言處理的人工智能和ML,研究興趣包括代碼語言模型,以及面向任務的對話。
無疑,人工智能正在重塑技術行業的運作模式。從Devin、Devika到OpenDevin,他們在軟件工程的舞臺上展現出卓越的實力。AI已不再是軟件工程師的簡單助手,而是逐步取代他們,勝任曾被認為僅人類能完成的復雜任務。
這引發了一個深刻的問題:AI是否已從工具蛻變為工程合作伙伴?更進一步,AI是否具備獨立編寫安全代碼的能力?未來,編程的大權是否會完全交給AI?這些問題不僅關乎技術的飛速發展,更觸及我們對AI角色和能力的根本認知。
Devin:引領AI工程新時代
就在今年3月12日,一家僅創立兩個月、由十名成員組成的初創企業,以其創新之舉在全球范圍內引發了強烈震撼。
這家公司的杰作便是全球首例AI程序員——Devin。Devin不僅具備全面的全棧技術能力,能夠自主掌握未知技術領域,更能在整個開發流程中無縫構建與部署應用程序,從修正代碼缺陷到親自訓練及優化自身的AI模型,無所不能。
在權威的SWE-bench測試中,Devin以顯著優勢超越了Claude 2、Llama、GPT-4等業界翹楚,其優異表現令人矚目,得分高達13.86%,堪稱卓越。
顯然,Devin并非一款普通的AI輔助工具,而是具備獨立執行全套軟件工程任務的先進AI體系。它的誕生標志著AI技術在工程領域的重大飛躍。
與傳統AI工具相比,Devin的獨特之處在于其能夠自主規劃并執行復雜的軟件工程項目,這意味AI現今已具備擔當工程師角色的實力。
除了核心的編程工作,Devin還展現了處理程序故障、實現應用部署以及培育新型AI模型的全方位能力,徹底顛覆了人們對AI在軟件開發中作用的認知。
OpenDevin:共繪未來圖景
在首發當日,一款名為OpenDevin的Devin開源版本應運而生,它以革新之姿強勢登場。
OpenDevin積極倡導社區成員參與代碼貢獻,并堅定秉持開放標準的理念,其核心目標在于持續優化與強化AI在軟件開發領域的應用效能。如此一來,軟件工程師們將能更為高效地駕馭編程工作,提升生產力。
Devika:開源社區冉冉升起的新星
在Devin于AI軟件工程領域的開拓性貢獻的啟發下,又一極具潛力的開源項目——Devika應運而生。
Devika是一位積極進取的AI軟件工程師角色,具備理解復雜人類指令的能力。它能將這些指令細化為明確的操作步驟,精準收集相關數據信息,進而依據這些輸入自動生成實現預定目標的代碼。
詳言之,Devika巧妙借力于Claude 3的卓越性能,融合尖端的AI規劃與編程技術,構建起一個面向公眾、由社區集體驅動的開放式創新平臺。
Devika不僅代表著一項技術創新,更是對全球開源社群的一份誠摯邀約。它呼喚著各路貢獻者攜手踏上AI創新之旅,共襄盛舉,擘畫并塑造AI技術的未來圖景。
AI編程的崛起展示了其在軟件工程領域的巨大潛力,從規劃復雜任務到修復漏洞,甚至管理整個開發流程。盡管如此,AI仍難以應對現有復雜代碼庫和編寫安全代碼的挑戰,這要求深入了解代碼背景、潛在漏洞及最新安全研究。因此,人類的監督在此過程中不可或缺。
雖然AI尚未能完全替代軟件工程師,但它正在重塑技術界的未來。當前,Devin、Devika和OpenDevin等AI軟件工程師引發我們思考:AI應被視為類似人類的存在嗎?Ethan Mollick在“On the Necessity of Sin”中探討了與AI合作共創軟件工程未來的機遇與挑戰。答案或許取決于我們對未來的設想及是否愿意擁抱開源、透明和協作的精神。
商道童言(Innovationcases)歡迎點贊和分享哦!~~
免費電子書: | | | |
數字經濟應用實踐專家 駱仁童主講課程
人工智能:
數字應用:
數字中國:
數字化轉型:》
產業數字化:《》
宏觀與趨勢:
思維與技能:》
創新與創業:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.