新智元報道
編輯:peter東 LRST
【新智元導讀】想知道硅谷的程序員怎么使用AI編程,被2000家公司使用的AI代碼審查智能體Greptile基于每月用AI審核的的十億行代碼,發布了AI編程年度報告,揭示了使用AI編程后帶來的生產率提升,但對此程序員們卻無法感同身受。
這份報告最讓人震撼的一點,是指出了在AI編程的幫助下,工程師的代碼生產量飛漲。
每位開發人員,每月提交的代碼行數從4450增長到7839,增長幅度達到76%,對于6-15人的中型開發團隊,每位開發者提交的代碼量更是接近翻倍(提升89%),這意味著AI編程工具正成為一種效率倍增器。
更值得注意的是,程序員單次提交代碼時,每文件中變更的代碼行數的中位數上升20%(從18變為22行),意味著代碼迭代不僅「更快」,且「變化更多」,這可能反映了AI編程工具能夠修改的代碼及應對的需求正變的復雜。
不過對于報告提到的效率提升,ycombinator論壇上對該報告的討論,卻大多是懷疑的聲音。有人說需要花大量時間修復AI生成的代碼中的問題。
這些細微差別從未被這類指標所捕捉。更多的人討論提交的代碼數量增加,是不是等同于程序員真實的工作效率提升。
菜鳥程序員完成一個功能需要幾十行代碼,而資深程序員則只需要幾行就能實現。此外,由于引入了AI編程,代碼被刪除和重寫的頻率如何?這可能不容易統計,但這卻很能反映AI編程帶來的工作效率提升。
另一個更對于代碼提交數量增加與工作效率提升的觀點是,假設員工之間具備同等的專業能力,那么生產力就取決于代碼行數的產出。但事實上,有的任務很難,但不需要太多行代碼,只有資深程序員才能完成;而有些任務很簡單,卻需要很多行代碼。只看代碼提交量,是將所有任務都看成是中等難度的任務。
此外,不同程序員提交的代碼質量不同,這一點在該報告中也沒有體現。從這個角度去看,每一行代碼都應該被視為一種負擔,而不是資產。開發團隊需要領域專家來判斷到底需要多少行代碼存在。
就像你可能會通過每小時搬運的物品數量來衡量倉庫員工的生產力。但如果有人只是把東西隨意扔到倉庫里,或者搬運本不需要移動的東西,他們就會最大化這個指標。
AI輔助下每個程序員能生成更多的代碼了,但這些代碼真的是完成對應任務所必須的嗎?這不是業務方應對考慮的問題,僅僅衡量提交的代碼數,可能會鼓勵不必要的重復勞動。
從這個角度來看,或許「編輯行數」是更合適的評估程序員工作效率的指標。這樣一來,通過重構來減少代碼庫規模的方式仍然可以被視為有生產力。每刪除一行代碼得1分,每添加一行代碼也得1分。
OpenAI依舊領先
但差距在變小
效率躍升的背后,是支撐性技術棧的激烈重構。報告以不同大模型提供商的SDK下載量為考察變量,發現在AI記憶模塊中,mem0以59%市占率一騎絕塵;而對比向量數據庫「六強混戰」(Weaviate 25%領先,Chroma/Pinecone/Qdrant等緊咬)。
![]()
LLMOps層,LiteLLM增長4倍至4100萬下載,LangSmith借LangChain生態捆綁上位。這印證一個趨勢,即模型調度、監控、降級已從「可選項」變為「基建標配」。
當編程調用的智能體數量越來越多,運維復雜度指數上升,LLMOps正在承接當年K8s之于微服務的角色。
![]()
對于模型間的軍備競賽,該報告考察模型提供商從2022年1月到2025年11月的SDK下載量,主要玩家是OpenAI、Anthropic和Google GenAI。OpenAI以一條陡峭上升的綠色曲線主導市場。其下載量從2022年初的幾乎為零,一路飆升至2025年11月的1.3億次,確立了絕對的市場領導者地位。
Anthropic(紅色折線)的增長軌跡堪稱「火箭式」。
雖然起步較晚且基數較小,但自2023年下半年開始,其下載量呈指數級爆發,到2025年11月已達到4300萬次,實現了自2023年4月以來1547倍的驚人增長,Open AI和Anthropic的比值已從47:1縮至4.2:1——開發者正在用腳投票,向更開放、更可控、更可編程的接口遷移。
而黃色曲線代表谷歌,其增長相對平緩,在2025年11月的下載量約為1360萬次,與前兩者相比存在顯著差距。
![]()
不同模型的參數決定模型的適配場景
這份報告還揭示了五大主流模型作為編碼智能體后端的實測基準(考察指標包括第一個token出現需要等待的時間、吞吐量、成本等),見下表。
通過該表,可看出Claude Sonnet 4.5與Opus 4.5只需要等待不到2.5秒,就會返回第一個token,顯著優于GPT-5系(>5秒)。而在交互式編程中,2秒是「心流」與「分心」的臨界閾值。
![]()
而對于批量生成場景,GPT-5-Codex與GPT-5.1的吞吐量斷崖領先,適合后臺CI/CD流水線中的大規模代碼生成/測試用例填充。
Gemini 3 Pro則在響應速度時顯著較慢,需要等10多秒才會返回第一個token,每秒輸出的token數也太少,不適合交互式編程的使用場景。
該報告的最后部分,還給出了2025年基礎模型及大模型編程應用領域的關鍵論文,這些研究預示下一波突破方向,例如Self-MoA顛覆傳統多模型集成,證明單模型多次采樣+聚合可超越異構模型混合,這意味著「模型多樣性」或讓位于「推理路徑多樣性」,而Search-R1用強化學習訓練模型「自主決定何時搜索」,將搜索引擎變為可學習的環境動作,而非靜態的工具調用。RetroLM更是在直接在KV層面檢索,繞過原始文本,改變大模型組織記憶的方式。
無論用了多少AI輔助編程,提交代碼前仍需人工審查。追蹤AI編程工具的使用數據,無法包含人工審核的部分,這將難以真實反映產品實際的使用體驗和效果。不過如果你能證明AI編程工具有助于更快地發布功能,而不是僅僅允許更多的代碼行數通過審查,那么你開發的AI編程工具將具有更強的可證明價值。
參考資料:
https://www.greptile.com/state-of-ai-coding-2025
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.