網易首頁 > 網易號 > 正文申請入駐

AI月產十億行代碼，暴增76%！程序員論壇炸鍋：代碼行數≠生產力！

2026-01-08 21:48:57　來源: 新智元

北京舉報

分享至

　　新智元報道

　　編輯：peter東 LRST

　　【新智元導讀】想知道硅谷的程序員怎么使用AI編程，被2000家公司使用的AI代碼審查智能體Greptile基于每月用AI審核的的十億行代碼，發布了AI編程年度報告，揭示了使用AI編程后帶來的生產率提升，但對此程序員們卻無法感同身受。

　　這份報告最讓人震撼的一點，是指出了在AI編程的幫助下，工程師的代碼生產量飛漲。

　　每位開發人員，每月提交的代碼行數從4450增長到7839，增長幅度達到76%，對于6-15人的中型開發團隊，每位開發者提交的代碼量更是接近翻倍（提升89%），這意味著AI編程工具正成為一種效率倍增器。

　　更值得注意的是，程序員單次提交代碼時，每文件中變更的代碼行數的中位數上升20%（從18變為22行），意味著代碼迭代不僅「更快」，且「變化更多」，這可能反映了AI編程工具能夠修改的代碼及應對的需求正變的復雜。

　　不過對于報告提到的效率提升，ycombinator論壇上對該報告的討論，卻大多是懷疑的聲音。有人說需要花大量時間修復AI生成的代碼中的問題。

　　這些細微差別從未被這類指標所捕捉。更多的人討論提交的代碼數量增加，是不是等同于程序員真實的工作效率提升。

　　菜鳥程序員完成一個功能需要幾十行代碼，而資深程序員則只需要幾行就能實現。此外，由于引入了AI編程，代碼被刪除和重寫的頻率如何？這可能不容易統計，但這卻很能反映AI編程帶來的工作效率提升。

　　另一個更對于代碼提交數量增加與工作效率提升的觀點是，假設員工之間具備同等的專業能力，那么生產力就取決于代碼行數的產出。但事實上，有的任務很難，但不需要太多行代碼，只有資深程序員才能完成；而有些任務很簡單，卻需要很多行代碼。只看代碼提交量，是將所有任務都看成是中等難度的任務。

　　此外，不同程序員提交的代碼質量不同，這一點在該報告中也沒有體現。從這個角度去看，每一行代碼都應該被視為一種負擔，而不是資產。開發團隊需要領域專家來判斷到底需要多少行代碼存在。

　　就像你可能會通過每小時搬運的物品數量來衡量倉庫員工的生產力。但如果有人只是把東西隨意扔到倉庫里，或者搬運本不需要移動的東西，他們就會最大化這個指標。

　　AI輔助下每個程序員能生成更多的代碼了，但這些代碼真的是完成對應任務所必須的嗎？這不是業務方應對考慮的問題，僅僅衡量提交的代碼數，可能會鼓勵不必要的重復勞動。

　　從這個角度來看，或許「編輯行數」是更合適的評估程序員工作效率的指標。這樣一來，通過重構來減少代碼庫規模的方式仍然可以被視為有生產力。每刪除一行代碼得1分，每添加一行代碼也得1分。

　　OpenAI依舊領先

　　但差距在變小

　　效率躍升的背后，是支撐性技術棧的激烈重構。報告以不同大模型提供商的SDK下載量為考察變量，發現在AI記憶模塊中，mem0以59%市占率一騎絕塵；而對比向量數據庫「六強混戰」（Weaviate 25%領先，Chroma/Pinecone/Qdrant等緊咬）。

　　LLMOps層，LiteLLM增長4倍至4100萬下載，LangSmith借LangChain生態捆綁上位。這印證一個趨勢，即模型調度、監控、降級已從「可選項」變為「基建標配」。

　　當編程調用的智能體數量越來越多，運維復雜度指數上升，LLMOps正在承接當年K8s之于微服務的角色。

　　對于模型間的軍備競賽，該報告考察模型提供商從2022年1月到2025年11月的SDK下載量，主要玩家是OpenAI、Anthropic和Google GenAI。OpenAI以一條陡峭上升的綠色曲線主導市場。其下載量從2022年初的幾乎為零，一路飆升至2025年11月的1.3億次，確立了絕對的市場領導者地位。

　　Anthropic（紅色折線）的增長軌跡堪稱「火箭式」。

　　雖然起步較晚且基數較小，但自2023年下半年開始，其下載量呈指數級爆發，到2025年11月已達到4300萬次，實現了自2023年4月以來1547倍的驚人增長，Open AI和Anthropic的比值已從47:1縮至4.2:1——開發者正在用腳投票，向更開放、更可控、更可編程的接口遷移。

　　而黃色曲線代表谷歌，其增長相對平緩，在2025年11月的下載量約為1360萬次，與前兩者相比存在顯著差距。

　　不同模型的參數決定模型的適配場景

　　這份報告還揭示了五大主流模型作為編碼智能體后端的實測基準（考察指標包括第一個token出現需要等待的時間、吞吐量、成本等），見下表。

　　通過該表，可看出Claude Sonnet 4.5與Opus 4.5只需要等待不到2.5秒，就會返回第一個token，顯著優于GPT-5系（>5秒）。而在交互式編程中，2秒是「心流」與「分心」的臨界閾值。

　　而對于批量生成場景，GPT-5-Codex與GPT-5.1的吞吐量斷崖領先，適合后臺CI/CD流水線中的大規模代碼生成/測試用例填充。

　　Gemini 3 Pro則在響應速度時顯著較慢，需要等10多秒才會返回第一個token，每秒輸出的token數也太少，不適合交互式編程的使用場景。

　　該報告的最后部分，還給出了2025年基礎模型及大模型編程應用領域的關鍵論文，這些研究預示下一波突破方向，例如Self-MoA顛覆傳統多模型集成，證明單模型多次采樣+聚合可超越異構模型混合，這意味著「模型多樣性」或讓位于「推理路徑多樣性」，而Search-R1用強化學習訓練模型「自主決定何時搜索」，將搜索引擎變為可學習的環境動作，而非靜態的工具調用。RetroLM更是在直接在KV層面檢索，繞過原始文本，改變大模型組織記憶的方式。

　　無論用了多少AI輔助編程，提交代碼前仍需人工審查。追蹤AI編程工具的使用數據，無法包含人工審核的部分，這將難以真實反映產品實際的使用體驗和效果。不過如果你能證明AI編程工具有助于更快地發布功能，而不是僅僅允許更多的代碼行數通過審查，那么你開發的AI編程工具將具有更強的可證明價值。

　　參考資料：

　　https://www.greptile.com/state-of-ai-coding-2025

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.