網易首頁 > 網易號 > 正文申請入駐

AI編程界再添新星！普林斯頓研究團隊推出了革命性的智能體-計算機

2024-04-05 00:21:47　來源: 商道童言

廣東舉報

分享至

AI編程界再添新星！普林斯頓研究團隊推出了革命性的智能體-計算機接口（ACI）——SWE-agent。這一創新使得大型語言模型如GPT-4能夠華麗轉身，成為軟件工程領域的AI專家，自動在真實的GitHub倉庫中修復bug。

困擾GPT-4已久的編程難題，如今迎刃而解。在SWE-bench測試集中，SWE-agent表現出色，解決了12.29%的問題，平均僅需93秒，準確率令人矚目。更令人振奮的是，SWE-agent完全免費開源。

短短十幾小時內，便在GitHub收獲了1.6k星、109個Fork的熱烈反響。感興趣的朋友可訪問：https://github.com/princeton-nlp/SWE-agent。英偉達高級科學家Jim Fan也透露了成功秘訣：要在SWEBench上取得12.3%的佳績，關鍵在于精心設計GPT-4的命令行工具，無需其他復雜手段。

John Yang及其研究團隊強調，大模型需要精心設計的智能體——計算機接口，以提供類似于人類喜好的UI設計體驗。例如，當LLM出現縮進錯誤時，編輯器能夠立即阻止并給出反饋。此外，他們還發現，在查看文件時，限制SWE-agent一次顯示100行比展示200-300行或整個文件更為有效。

即使擁有強大的GPT-4模型支持，一個優秀的智能體-計算機設計同樣至關重要。John Yang團隊的技術報告將于4月10日發布，屆時將詳細展示SWE-agent的工作原理和應用前景。

此外，該項目的logo由Ofir Press使用DALLE-3精心設計，突顯了開源Devin的獨特性和創新精神。自推出以來，Devin在短短一個月內迅速走向大眾化，吸引了眾多開發者的關注。

有開發者表示：“我感受到了一個全新的研究領域正在崛起——智能體計算機交互（ACI）。它與人機交互（HCI）有著緊密聯系，但更專注于LLM和LVM的應用。”同時，對于普林斯頓團隊利用GPT-4在基準測試中取得的12.29%準確率，許多人感到驚嘆，并期待GPT-5的誕生將帶來更多突破。

隨著開源Devin的普及和智能體計算機交互（ACI）領域的發展，軟件行業的傳統護城河似乎已經消失。數字經濟應用實踐專家駱仁童博士對此表示期待，隨著更多的AI垂直應用出現，我們將看到更多創新工具和方法涌現，推動軟件工程領域不斷前進。

智能體工作流SWE-agent的運作可概括為兩大環節：首先是“推理”階段，SWE-agent針對GitHub中的某一問題，利用特定腳本進行處理后，提出相應的拉取請求以期待問題得到解決；隨后進入“評估”階段，對提出的拉取請求進行嚴格檢查，以驗證其是否有效解決了原問題。

目前，這一流程主要應用于SWE-bench基準測試中的問題。若要在任意GitHub問題上運行SWE-agent，可執行以下命令：`python run.py --model_name gpt4 --data_path [GitHub問題鏈接] --config_file config/default_from_url.yaml`。

而對于SWE-bench上的問題，需在SWE-bench Lite上運行SWE-agent并生成補丁：`python run.py --model_name gpt4 --per_instance_cost_limit 2.00 --config_file ./config/default.yaml`。若需針對SWE-bench中的特定問題進行操作，可添加`--instance_filter`選項。

至于評估階段，只需在終端中切換至evaluation目錄并運行`./run_eval.sh `即可，但請注意此步驟目前僅支持SWE-bench問題集。

作者介紹

SWE-agent這項研究中兩位核心作者是John Yang和Carlos E. Jimenez。

John Yang

John Yang目前是普林斯頓大學的研究助理，導師是Karthik Narasimhan。他曾在加州大學伯克利分校取得了電子工程和計算機學士學位。他本人對語言基礎和交互、LLM的基準測試、軟件工程和代碼生成感興趣。

Carlos E. Jimenez

Carlos E. Jimenez是普林斯頓的博士生，導師是Karthik Narasimhan教授。他研究的是自然語言處理的人工智能和ML，研究興趣包括代碼語言模型，以及面向任務的對話。

無疑，人工智能正在重塑技術行業的運作模式。從Devin、Devika到OpenDevin，他們在軟件工程的舞臺上展現出卓越的實力。AI已不再是軟件工程師的簡單助手，而是逐步取代他們，勝任曾被認為僅人類能完成的復雜任務。

這引發了一個深刻的問題：AI是否已從工具蛻變為工程合作伙伴？更進一步，AI是否具備獨立編寫安全代碼的能力？未來，編程的大權是否會完全交給AI？這些問題不僅關乎技術的飛速發展，更觸及我們對AI角色和能力的根本認知。

Devin：引領AI工程新時代

就在今年3月12日，一家僅創立兩個月、由十名成員組成的初創企業，以其創新之舉在全球范圍內引發了強烈震撼。

這家公司的杰作便是全球首例AI程序員——Devin。Devin不僅具備全面的全棧技術能力，能夠自主掌握未知技術領域，更能在整個開發流程中無縫構建與部署應用程序，從修正代碼缺陷到親自訓練及優化自身的AI模型，無所不能。

在權威的SWE-bench測試中，Devin以顯著優勢超越了Claude 2、Llama、GPT-4等業界翹楚，其優異表現令人矚目，得分高達13.86%，堪稱卓越。

顯然，Devin并非一款普通的AI輔助工具，而是具備獨立執行全套軟件工程任務的先進AI體系。它的誕生標志著AI技術在工程領域的重大飛躍。

與傳統AI工具相比，Devin的獨特之處在于其能夠自主規劃并執行復雜的軟件工程項目，這意味AI現今已具備擔當工程師角色的實力。

除了核心的編程工作，Devin還展現了處理程序故障、實現應用部署以及培育新型AI模型的全方位能力，徹底顛覆了人們對AI在軟件開發中作用的認知。

OpenDevin：共繪未來圖景

在首發當日，一款名為OpenDevin的Devin開源版本應運而生，它以革新之姿強勢登場。

OpenDevin積極倡導社區成員參與代碼貢獻，并堅定秉持開放標準的理念，其核心目標在于持續優化與強化AI在軟件開發領域的應用效能。如此一來，軟件工程師們將能更為高效地駕馭編程工作，提升生產力。

Devika：開源社區冉冉升起的新星

在Devin于AI軟件工程領域的開拓性貢獻的啟發下，又一極具潛力的開源項目——Devika應運而生。

Devika是一位積極進取的AI軟件工程師角色，具備理解復雜人類指令的能力。它能將這些指令細化為明確的操作步驟，精準收集相關數據信息，進而依據這些輸入自動生成實現預定目標的代碼。

詳言之，Devika巧妙借力于Claude 3的卓越性能，融合尖端的AI規劃與編程技術，構建起一個面向公眾、由社區集體驅動的開放式創新平臺。

Devika不僅代表著一項技術創新，更是對全球開源社群的一份誠摯邀約。它呼喚著各路貢獻者攜手踏上AI創新之旅，共襄盛舉，擘畫并塑造AI技術的未來圖景。

AI編程的崛起展示了其在軟件工程領域的巨大潛力，從規劃復雜任務到修復漏洞，甚至管理整個開發流程。盡管如此，AI仍難以應對現有復雜代碼庫和編寫安全代碼的挑戰，這要求深入了解代碼背景、潛在漏洞及最新安全研究。因此，人類的監督在此過程中不可或缺。

雖然AI尚未能完全替代軟件工程師，但它正在重塑技術界的未來。當前，Devin、Devika和OpenDevin等AI軟件工程師引發我們思考：AI應被視為類似人類的存在嗎？Ethan Mollick在“On the Necessity of Sin”中探討了與AI合作共創軟件工程未來的機遇與挑戰。答案或許取決于我們對未來的設想及是否愿意擁抱開源、透明和協作的精神。

商道童言（Innovationcases）歡迎點贊和分享哦！~~

免費電子書： | | | |

數字經濟應用實踐專家駱仁童主講課程

人工智能：

數字應用：

數字中國：

數字化轉型：》

產業數字化：《》

宏觀與趨勢：

思維與技能：》

創新與創業：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.