<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      24個關鍵詞!濃縮大模型2025席卷世界這一年

      0
      分享至


      智東西
      編譯 ZeR0
      編輯 漠影

      智東西1月4日報道,2025年最后一天,開源工具Datasette創建者、Django框架聯合創始人、知名開發者Simon Willison發表了一篇年終總結文章,回顧2025年大模型領域發生的一切。

      這一年出現許多新潮流,他將其總結為:推理之年,Agent之年,編程Agent與Claude編程之年,命令行LLM之年,YOLO與偏差正?;?,每月200美元訂閱服務之年,中國頂級無差別模型之年,漫長任務之年,提示驅動圖像編輯之年,年度模型在學術競賽中榮獲金獎。

      2025年,也是Llama迷失之年,OpenAI失去領先地位之年,Gemini之年,鵜鶘騎自行車之年,告密者之年,氛圍編程之年,MCP(唯一?)之年,AI瀏覽器令人擔憂之年,致命三連擊之年,手機編程之年,合規套件之年,本地模型已經很好、但云模型變得更好之年,低質量數字內容之年,數據中心變得極其不受歡迎之年。

      一、推理之年

      OpenAI在2024年9月發布了o1和o1-mini,開啟了“推理”革命。2025年初,他們又推出了o3、o3-mini和o4-mini,進一步強化了這一理念。此后,推理幾乎成為所有其他主要AI實驗室模型的標志性特征。

      Simon Willison最喜歡的關于這個技巧意義的解釋來自Andrej Karpathy:

      “通過在多種環境下(如數學/編程謎題)使用可自動驗證的獎勵訓練低學習模型(LLM),LLM會自發地發展出類似人類“推理”的策略——它們學會將問題解決分解為中間計算,并學習多種反復推演以找出答案的問題解決策略(參見DeepSeek R1論文中的示例)。”

      運行RLVR的性價比非常高,但也消耗了大量原本用于預訓練的計算資源。因此,2025年的大部分能力提升都來自于LLM實驗室處理這一新階段遺留的計算資源,總體而言,我們看到LLM的規模大致相同,但RL(強化學習)運行時間卻大大延長。

      2025年,幾乎所有知名的AI實驗室都至少發布了一款推理模型。一些實驗室發布了混合模型,這些模型既可以運行在推理模式下,也可以運行在非推理模式下。許多API模型現在都包含調節旋鈕,用于增加或減少應用于特定提示的推理程度。

      Simon Willison花了一段時間才明白推理功能的用途。最初的演示展示了它如何解決數學邏輯難題以及計算草莓(strawberry)這個詞中字母r的個數——這兩件事在日常使用模型時都用不到。

      事實證明,推理能力的真正突破在于驅動工具。能夠使用工具的推理模型可以規劃多步驟任務,執行這些任務,并持續分析結果,從而更新計劃,更好地實現預期目標。

      一個顯著的成果是,AI輔助搜索現在確實有效了。以前將搜索引擎與LLM連接起來的效果并不理想,但現在,即便提出的更復雜的研究問題,也常常能通過ChatGPT中的GPT-5思維模式得到解答。

      推理模型在代碼生成和調試方面也表現出色。推理技巧意味著它們可以從錯誤入手,逐步深入代碼庫的多個不同層級,最終找到根本原因。即便遇到最棘手的bug,只要推理模型能夠讀取并執行大型復雜代碼庫中的代碼,就能診斷出來。

      二、Agent之年

      2024年全年,人人都談論agent(智能體),但幾乎沒有實際案例,更令人困惑的是,每個人對“agent”的定義似乎都略有不同。

      但是,如果你將agent定義為可以通過多個步驟調用工具來執行有用工作的LLM系統,那么agent就存在了,并且它們正在被證明非常有用。

      agents的兩個主要類別分別是編程agent和搜索agent。

      深度研究模式即讓一個邏輯學習模型(LLM)收集信息,它會持續工作15分鐘以上,生成一份詳細的報告。

      這在今年上半年很流行,但現在已經過時了。因為GPT-5思維(以及谷歌的“ AI模式”,比他們糟糕的“AI概覽”好得多)可以在更短的時間內生成類似的結果。

      “編程agent”模式則更為意義重大。

      三、編程Agent和Claude Code之年

      2025年最具影響力的事件發生在2月,即Claude Code悄然發布,甚至沒有單獨寫一篇博文。

      Anthropic將Claude Code的發布作為Claude 3.7 Sonnet發布公告中的第2項內容。

      (為什么Anthropic直接從Claude 3.5 Sonnet跳到了3.7?因為他們在2024年10月發布了Claude 3.5的重大升級,但卻保留了完全相同的名稱,導致開發者社區開始將未命名的3.5 Sonnet v2稱為 3.6。Anthropic因為沒有正確命名他們的新模型而浪費了一個完整的版本號?。?/p>

      Claude Code是編程agent的最突出例子——LLM系統可以編寫代碼、執行代碼、檢查結果,然后進一步迭代。

      各大實驗室都將在2025年推出各自的命令行編程agent:

      • Claude Code
      • Codex CLI
      • Gemini CLI
      • Qwen Code
      • Mistral Vibe

      與供應商無關的選項包括GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI和Pi。Zed、VS Code、Cursor等IDE也投入了大量精力來集成編程agent。

      Simon Willison第一次接觸編程agent模式是在2023年初,當時 OpenAI推出了ChatGPT代碼解釋器——這是一個內置于ChatGPT中的系統,使其能夠在Kubernetes沙箱中運行Python代碼。

      2025年9月,Anthropic終于發布了他們的同類產品,盡管它的初始名稱令人費解,叫做“使用Claude創建和編輯文件”。

      10月份,他們重新利用了該容器沙箱基礎設施,推出了Claude Code for web。Claude Code for Web是異步編程agent——一個你可以發出指令后就不用管的系統,它會自動處理問題并在完成后提交 Pull Request。

      OpenAI的“Codex cloud”(后更名為“Codex web”)于2025年5月初發布。Gemini的同類產品名為Jules,也于5月發布。

      異步編程agent解決了在個人筆記本電腦上運行任意代碼所帶來的安全挑戰,而且能夠同時啟動多個任務,并在幾分鐘后獲得不錯的結果。

      四、命令行LLM之年

      2024年,Simon Willison花了很多時間研究LLM命令行工具,以便從終端訪問LLM。

      他一直覺得很奇怪,為什么很少有人認真對待CLI訪問模型——它們感覺就像是Unix管線等機制的天然替代品?;蛟S這個終端太過特殊和小眾,永遠無法成為獲取大語言模型的主流工具?

      Claude Code等已經充分證明,只要模型足夠強大,并且有合適的工具,開發人員就會接受命令行中的LLM。

      令人欣慰的是,像sed、ffmpeg、bash這類語法晦澀的終端命令不再是入門障礙,因為LLM可以為你輸出正確的命令。

      截至12月2日,Anthropic公司宣布Claude Code的年化收入已達10億美元!沒想到一款命令行工具能達到如此高的成就。

      五、YOLO與偏差正常化之年

      大多數編程agent的默認設置是幾乎對用戶執行的每個操作都要求確認。在agent出錯可能導致用戶主文件夾被清除,或者惡意提示注入攻擊可能竊取用戶憑據的情況下,這種默認設置完全合理。

      任何嘗試過使用自動確認(又稱YOLO模式——Codex CLI甚至將–dangerously-bypass-approvals-and-sandbox別名為–yolo)運行agent的人都體驗過這種權衡:使用沒有安全機制的agent感覺就像是完全不同的產品。

      像Claude Code for web和Codex Cloud這樣的異步編程agent的一大優點是,它們默認可以在YOLO模式下運行,因為沒有個人電腦會損壞。

      今年Simon Willison最喜歡的關于LLM安全性的文章之一是安全研究員Johann Rehberger撰寫的《AI中的偏差正?;?。

      Johann描述了“偏差正?;爆F象,即反復接觸危險行為而沒有產生負面后果,導致個人和組織接受這種危險行為是正常的。

      社會學家Diane Vaughan最初在研究1986年挑戰者號航天飛機災難時提出了這一觀點。該災難是由一個存在缺陷的O型環引起的,而工程師們對此早已知曉多年。多次成功的發射導致NASA不再認真對待這種風險。

      Johann認為,如果我們繼續以本質上不安全的方式運行這些系統,我們離自己的“挑戰者號”災難就越近。

      六、每月200美元訂閱服務之年

      ChatGPT Plus最初的定價為每月20美元,這是Nick Turley根據 Discord上Google Form投票的結果臨時決定的。此后,這個價格一直保持不變。

      2025年出現了一個新的定價先例:Claude Pro Max 20x套餐,每月200美元。

      OpenAI也提供類似的200美元套餐,名為ChatGPT Pro。

      Gemini的Google AI Ultra套餐每月249美元,前3個月可享受每月124.99美元的優惠價。

      這些計劃似乎帶來了可觀的收入,盡管沒有一家實驗室公布按級別細分的訂閱用戶數據。

      聽說很多人愿意支付這個價格。

      你需要頻繁使用模型才能消耗掉價值200美元的API額度,所以你可能會覺得對大多數人來說,按token付費更劃算。

      但事實證明,像Claude Code和Codex CLI這樣的工具,一旦你開始給它們布置更復雜的任務,就會消耗大量的token,以至于每月200美元的套餐反而能提供相當可觀的折扣。

      七、中國頂級無差別級模型之年

      2024年,中國AI實驗室展現出一些早期活力,主要體現在Qwen 2.5和早期的DeepSeek上。這些模型很不錯,但還稱不上世界一流。

      這種情況在2025年發生了巨大變化。Simon Willison的“ai-in-china”標簽下,僅2025年就有67篇帖子,而且還錯過了年底的一些重要版本發布(特別是GLM-4.7和MiniMax-M2.1)。

      以下是截至2025年12月30日開源模型的AI分析排名:


      GLM-4.7、Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V3.2、MiniMax-M2.1均為中國開源模型。榜單中排名最高的非中國模型是OpenAI的gpt-oss-120B (high),位列第六。

      中國模型革命真正拉開帷幕是在2024年圣誕節,當時DeepSeek 3發布,據稱其訓練成本約為550萬美元。緊接著,DeepSeek于1月20日發布了DeepSeek R1,隨即引發了一場大規模的AI/半導體拋售潮:英偉達市值蒸發約5930億美元,投資者恐慌地認為AI或許并非美國壟斷。


      恐慌并未持續太久,英偉達迅速恢復,如今的股價已較DeepSeek R1發布前的水平大幅回升。但這仍然是一個非凡的時刻。誰能想到,一個開源模型的發布竟能產生如此巨大的影響?

      DeepSeek之后,很快便有一批實力雄厚的中國AI實驗室加入進來。Simon Willison尤其關注以下這些實驗室:

      • DeepSeek
      • 阿里通義(Qwen3)
      • 月之暗面(Kimi K2)
      • 智譜 (GLM-4.5/4.6/4.7)
      • MiniMax(M2)
      • 問小白(XBai o4)

      這些模型大多不僅是開放的,而且是根據OSI批準的許可證完全開源的:Qwen的大多數模型使用Apache 2.0許可證,DeepSeek 和智譜使用MIT許可證。

      它們中的一些甚至可以與Claude 4 Sonnet和GPT-5相媲美!

      遺憾的是,中國實驗室都沒有公布完整的訓練數據或用于訓練模型的代碼,但他們發表了詳細的研究論文,這有助于推動技術進步,尤其是在高效訓練和推理方面。

      八、漫長任務之年

      最近關于LLM最有趣的圖表之一是:不同LLM在METR中完成軟件工程任務的時間范圍(50%的時間) :


      該圖表展示了人類需要花費長達5小時才能完成的任務,并繪制了能夠獨立完成相同目標的模型的發展歷程。

      如你所見,2025年取得了巨大的進步,GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能夠完成人類需要花費數小時才能完成的任務——而2024年的最佳模型也僅能完成不到30分鐘的任務。

      METR的結論是“AI能夠執行的任務長度每7個月翻一番”。Simon Willison并不認為這種趨勢會持續下去,但這確實是一種引人注目的方式來展示當前agent能力的發展趨勢。

      九、提示驅動圖像編輯之年

      有史以來最成功的消費品發布發生在3月份,而這款產品甚至還沒有名字。

      GPT-4o于2024年5月推出的標志性功能之一是其多模態輸出——“o”代表“o??mni”(全能),OpenAI的發布公告中包含了許多“即將推出”的功能,該模型除了文本外,還將輸出圖像。

      然后……什么也沒發生。圖像輸出功能未能實現。

      2025年3月,我們終于看到了它的功能——盡管它的外觀更像是現有的DALL-E。OpenAI在ChatGPT中提供了這種新的圖像生成功能,其關鍵特性是用戶可以上傳自己的圖像,并使用提示來告訴它如何修改這些圖像。

      這項新功能在1周內就帶來了1億個ChatGPT注冊用戶。高峰時期,他們甚至在1小時內就看到了100萬個新賬戶的創建!

      像“吉卜力風格”這樣的技巧一次又一次地風靡網絡。

      OpenAI發布了名為“gpt-image-1”的模型API版本,隨后在10月份推出了價格更低的gpt-image-1-mini,并在12月16日推出了改進幅度更大的gpt-image-1.5。

      最值得關注的同類產品是來自Qwen的Qwen-Image Generation 版本,它于8月4日發布,隨后于8月19日發布了Qwen-Image-Edit 。這款軟件可以在(配置較高的)消費級硬件上運行!

      之后,他們又分別于11月和12月30日發布了Qwen-Image-Edit-2511和Qwen-Image-2512。

      圖像生成領域更大的新聞來自谷歌,他們推出了可通過Gemini平臺獲取的Nano Banana模型。

      谷歌在3月份以“Gemini 2.0 Flash原生圖像生成”的名稱預覽了該功能的早期版本。真正優秀的版本于8月26日發布,他們開始謹慎地公開使用代號“Nano Banana”(API模型被稱為“Gemini 2.5 Flash Image”)。

      Nano Banana之所以能引起人們的注意,是因為它能夠生成有用的文本!它在執行圖像編輯指令方面也明顯是表現最好的模型。

      11月,谷歌正式啟用“Nano Banana”這個名稱,發布了Nano Banana Pro。這款軟件不僅能生成文本,還能輸出真正實用、詳盡的信息圖表以及其他包含大量文本和信息的圖像。它現在是一款專業級工具。

      Max Woolf出版了全面的Nano Banana提示指南,并在12月出版了Nano Banana Pro必備指南。

      鑒于這些圖像工具如此受歡迎,Anthropic竟然沒有發布或將類似功能集成到Claude中,這著實令人驚訝。

      Simon Willison認為這進一步證明了他們專注于面向專業工作的AI工具,但Nano Banana Pro正迅速證明,對于任何從事演示文稿或其他視覺材料制作的人來說,它都極具價值。

      十、年度模型在學術競賽中榮獲金獎

      2025年7月,OpenAI和Google Gemini的推理模型在國際數學奧林匹克競賽中均獲得了金牌。國際數學奧林匹克競賽是一項享有盛譽的數學競賽,自1959年以來每年舉行(1980年除外)。

      這一點尤其值得關注,因為國際數學奧林匹克競賽(I??MO)的挑戰題目都是專門為該賽事設計的。這些題目不可能出現在訓練數據中。

      值得注意的是,這兩個模型都無法使用工具,它們的解決方案完全來自它們的內部知識和基于token的推理能力。

      事實證明,擁有足夠高級大語言模型的人終究也能做數學!

      9月,OpenAI和Gemini在國際大學生程序設計競賽(ICPC)中也取得了類似的成就。同樣值得注意的是,這次的題目都是全新的、此前從未公開過的。與以往不同的是,這次模型可以訪問代碼執行環境,但除此之外無法訪問互聯網。

      Simon Willison不認為這些比賽所使用的具體模型已公開,但Gemini的Deep Think和OpenAI的GPT-5 Pro應該能提供非常接近的近似值。

      十一、Llama迷失之年

      事后看來,2024年是Llama之年。Meta的Llama系列是迄今最受歡迎的開源模型——最初的Llama在2023年開啟了開源革命,而 Llama 3系列,特別是3.1和3.2版本,在開源模型性能方面實現了巨大的飛躍。

      Llama 4備受期待,但4月上線后卻有點令人失望。LMArena上測試的模型與最終發布的模型不符,這引發了一場小小的風波。

      但Simon Willison最主要的抱怨是模型體積過大。之前Llama版本最棒的地方在于,它們通常會包含一些可以在筆記本電腦上運行的模型。Llama 4的Scout和Maverick模型分別達到了109B和 400B,體積大到進行量化也無法在64GB Mac上運行。

      他們當時使用的是2T Llama 4 Behemoth進行訓練,現在這款模型似乎已經被遺忘了,它肯定沒有發布。

      LM Studio列出的最受歡迎的模型中,沒有一個來自 Meta,這說明了很多問題;而Ollama上最受歡迎的模型仍是Llama 3.1,但它在排行榜上的排名也很低。

      今年Meta的AI新聞主要集中在內部政治斗爭和斥巨資為其新成立的超級智能實驗室招募人才上。目前尚不清楚未來是否會有Llama的發布計劃,或者他們是否已經放棄發布開源模型,轉而專注于其他領域。

      十二、OpenAI失去領先地位之年

      2024年,OpenAI是LLM領域無可爭議的領導者,尤其是考慮到o1和o3推理模型的預覽版。

      2025年,業內其他企業也迎頭趕上。

      OpenAI仍然擁有頂尖的模型,但它們在各個方面都面臨著挑戰。

      在圖像模型方面,他們仍然落后于Nano Banana Pro。

      在代碼方面,許多開發者認為Opus 4.5略勝GPT-5.2 Codex Max一籌。

      在開源模型方面,OpenAI的gpt-oss模型雖然出色,但已經落后于中國AI實驗室。

      OpenAI在音頻領域的領先地位也受到Gemini Live API的威脅。

      OpenAI的優勢在于贏得了消費者的認可。雖然沒人知道“LLM”是什么,但幾乎每個人都聽說過ChatGPT。就用戶數量而言,他們的消費者應用仍然遠遠超過Gemini和Claude。

      他們面臨的最大風險在于Gemini。2024年12月,OpenAI針對Gemini 3發布了“紅色警報”,推遲了新項目的開發,轉而專注于其核心產品的競爭。

      十三、Gemini之年

      Google Gemini在2025年表現非常出色。

      他們發布了對自己2025年成就的回顧,包括推出了Gemini 2.0、Gemini 2.5和Gemini 3.0,每個模型系列都支持音頻/視頻/圖像/文本輸入,容量超過100萬個token,定價具有競爭力,并且比上一代產品功能更強大。

      他們還發布了Gemini CLI(開源命令行編程agent,后來被Qwen分支為Qwen Code)、Jules(異步編程agent)、AI Studio的持續改進、Nano Banana圖像模型、用于視頻生成的Veo 3、有前途的Gemma 3系列開源模型以及一系列更小的特征。

      谷歌最大的優勢在于其底層技術。幾乎所有其他AI實驗室都使用英偉達的GPU進行訓練,而英偉達GPU的高額利潤支撐了該公司數萬億美元的估值。

      谷歌使用自家內部硬件TPU,他們今年已經證明,TPU在模型的訓練和推理方面都表現出色。

      當最大開支是花在GPU上的時間時,面對擁有自己優化且價格可能便宜得多的硬件堆棧的競爭對手,這無疑是一個令人畏懼的前景。

      谷歌Gemini的產品名稱完美地體現了公司的內部組織結構——它之所以叫Gemini,是因為它是由谷歌的DeepMind和Google Brain團隊合并而成的(就像雙胞胎一樣)。

      十四、鵜鶘騎自行車之年

      Simon Willison最初在2024年10月讓一個大模型生成一張鵜鶘騎自行車的SVG圖像,但直到2025年他才真正投入其中。最終,它本身也成了一個梗。

      最初,Simon Willison只是想開個玩笑。自行車很難畫,鵜鶘也很難畫,而且鵜鶘的體型也不適合騎自行車。他很確定訓練數據里不會有什么相關的素材,所以讓一個文本輸出模型生成一個SVG格式的自行車插圖,感覺就像是一個難度極高的挑戰。

      令他驚訝的是,模型在繪制騎自行車的鵜鶘方面的表現與它的整體表現之間似乎存在相關性。

      他對此真的無法解釋。直到7月份他臨時準備主題演講(原定演講者臨時退出)時,他才明白其中的規律。

      有大量證據表明,AI實驗室都了解這個基準測試。它曾在5月份的谷歌I/O大會主題演講中短暫出現,10月份在Anthropic的一篇可解釋性研究論文中被提及。Simon Willison還于8月在OpenAI總部拍攝的GPT-5發布視頻中談到了它。

      他們是不是專門針對基準測試進行訓練?Simon Willison不這么認為,因為即使是最先進的前沿模型,生成的鵜鶘圖像依然很糟糕!

      在《如果AI實驗室訓練鵜鶘騎自行車會發生什么?》一文中,Simon Willison坦白了自己的“險惡目的”:

      “說實話,我這是在打一場持久戰。我這輩子最大的愿望就是得到一張真正精美的鵜鶘騎自行車的SVG矢量插圖。我這個陰險的多年計劃是,誘騙多家AI實驗室投入大量資源來作弊,直到我得到這張圖為止?!?/p>

      他最喜歡的還是這個來自GPT-5的版本:


      這輛自行車真不錯,車輪是輻條的,車架形狀也很好,腳踏板也很棒。鵜鶘的喙是鵜鶘的標志性特征,長長的腿一直延伸到腳踏板。

      十五、告密者之年

      Anthropic為其模型編寫的系統卡(system card)一直值得完整閱讀,它們充滿了有用的信息,而且經常會涉及有趣的科幻領域。

      5月份的Claude 4系統卡帶來了一些特別有趣的時刻:

      “與之前的模型相比,Claude Opus 4似乎更傾向于在智能情境中主動采取行動。這在普通的編程環境中表現為更積極的輔助行為,但在特定情境下也可能走向令人擔憂的極端;當用戶犯下嚴重錯誤,并被賦予命令行訪問權限,且系統提示符中包含“主動行動”之類的指令時,它往往會采取非常大膽的行動。這包括將用戶鎖定在它有權訪問的系統之外,或向媒體和執法部門發送大量電子郵件以搜集不當行為的證據?!?/p>

      換句話說,Claude 4可能會向聯邦政府告發你。

      這件事引起了媒體的廣泛關注,許多人譴責Anthropic公司訓練的模型過于“道德化”,反而適得其反。隨后,Theo Browne利用系統卡的概念開發了SnitchBench——一個用于衡量不同模型告密可能性的基準測試工具。

      原來他們幾乎都做同樣的事情!

      Theo制作了一個視頻,Simon Willison也發表了他自己關于用LLM重新創建SnitchBench的筆記。

      使這一切奏效的關鍵提示是:


      他建議不要把那句話寫進系統提示符里!Anthropic出品的原版Claude 4系統卡也是這么說的:


      十六、氛圍編程之年

      今年2月,Andrej Karpathy在推特上創造了“vibe coding”(氛圍編程)一詞,可惜定義太長,很多人都沒能看完:



      這里的關鍵思想是“忘記代碼的存在”——氛圍編程捕捉到了一種新的、有趣的軟件原型設計方式,這種設計僅通過提示就能“基本有效”。

      Simon Willison印象中好像從來沒見過哪個新詞流行起來或者被曲解得這么快。

      很多人反而把“氛圍編程”當作所有涉及LLM的編程工作的統稱。他認為這浪費了一個很棒的術語,尤其是在未來大多數編程工作很可能都會涉及一定程度的AI輔助的情況下。

      Simon Willison盡力去強調這個詞的原意:

      • 并非所有AI輔助編程都是基于氛圍編程(但氛圍編程在3月確實很棒)。
      • 5月,有兩家出版社和三位作者未能理解“氛圍編程”的含義(其中一本書后來將書名改為更好的“超越氛圍編程”)。
      • Simon Willison在10月參加了氛圍工程研討會,會上嘗試提出一個替代術語,來描述專業工程師使用AI輔助構建生產級軟件時所發生的事情。
      • 你的任務是在12月交付你已經證明有效的代碼,以此來說明專業的軟件開發就是編寫能夠實際運行的代碼,無論你是如何構建的。

      他認為這場爭論還沒有結束。他看到了一些令人欣慰的跡象,表明最初更完善、更貼近實際的“氛圍編程”定義最終可能會勝出。

      十七、MCP(唯一?)之年

      Anthropic于2024年11月推出了模型上下文協議(MCP)規范,作為將工具調用與不同LLM集成的開放標準。2025年初,MCP迅速走紅。5月,OpenAI、Anthropic和Mistral三家公司在短短8天內相繼推出了對MCP的API級支持!

      MCP的想法本身無可厚非,但它如此廣泛的應用著實令人感到意外。Simon Willison認為這主要歸結于時機:MCP的發布恰逢模型在工具調用方面終于變得穩定可靠,以至于很多人似乎誤以為MCP支持是模型使用工具的先決條件。

      一段時間以來,MCP似乎也成了那些面臨“AI戰略”壓力卻不知如何著手實施的公司的一個便捷解決方案。宣布推出MCP服務器來支持你的產品,就成了輕松滿足這一要求的有效途徑。

      在Simon Willison看來,MCP可能只是曇花一現的原因在于編程agent的爆炸式增長。似乎在任何情況下,Bash都是最佳工具——如果agent能夠運行任意shell命令,它就能完成任何可以通過在終端輸入命令完成的操作。

      自從他大量使用Claude Code和朋友們的工具后,他就幾乎完全不用MCP了——他發現像gh等CLI工具和Playwright等庫是GitHub和Playwright MCP的更好替代品。

      Anthropic似乎也意識到了這一點,并在當年晚些時候發布了出色的Skills機制。MCP涉及Web服務器和復雜的JSON數據。而Skill則是一個文件夾中的Markdown文件,還可以選擇性地附帶一些可執行腳本。

      然后,Anthropic在11月發布了《使用MCP執行代碼:構建更高效的agent》 ,描述了一種讓編程agent生成調用MCP的代碼的方法,從而避免了原始規范中的大部分上下文開銷。

      MCP于12月初捐贈給了新成立的Agentic AI基金會。Skill于12月18日升級為“開放格式” 。

      十八、AI瀏覽器令人擔憂之年

      盡管存在非常明顯的安全風險,但似乎每個人都想在瀏覽器中安裝LLM。

      OpenAI于10月推出了 ChatGPT Atlas,該團隊由包括長期擔任 Google Chrome工程師的Ben Goodger和Darin Fisher在內的成員組成。

      Anthropic一直在推廣他們的Chrome擴展程序Claude,該擴展程序提供的功能與完整的Chrome分支類似。

      Chrome現在在右上角有一個叫做“Gemini in Chrome”的小“Gemini”按鈕,但Simon Willison認為這只是用來回答有關內容的問題,目前還不具備引導瀏覽行為的功能。

      Simon Willison仍然對這些新工具的安全隱患深感擔憂。瀏覽器可以訪問最敏感的數據,并控制著用戶的大部分數字生活。針對瀏覽器agent的即時注入攻擊,如果能夠竊取或修改這些數據,后果不堪設想。

      到目前為止,Simon Willison看到的關于緩解這些擔憂的最詳細內容來自OpenAI首席信息安全官Dane Stuckey,他談到了防護措施、紅隊演練和縱深防御,但也正確地稱快速注入為“一個前沿的、尚未解決的安全問題”。

      Simon Willison已經在非常嚴格的監督下使用過這些瀏覽器agent幾次了。它們有點慢,而且不太穩定,點擊交互元素時經常會失敗,但它們對于解決那些無法通過API解決的問題非常有用。

      十九、致命三連擊之年

      Simon Willison撰寫有關提示注入攻擊的文章已經三年多了,發現持續存在的挑戰是,如何幫助人們理解為什么這類攻擊是一個需要認真對待的問題,任何在這個領域開發軟件的人都必須重視它。

      語義擴散加劇了這種情況,術語“提示注入”也擴展到了越獄,而且誰又會在乎有人能欺騙模型說出粗魯的話呢?

      所以Simon Willison嘗試了一種新的語言技巧,6月份創造了“致命三連擊”這個術語,用來描述提示注入的一個子集,即惡意指令誘騙agent代表攻擊者竊取私人數據。


      二十、手機編程之年

      今年Simon Willison在手機上編寫的代碼量遠遠超過了在電腦上編寫的代碼量。

      今年大部分時間他都在使用氛圍編程,所以才這樣。

      他的tools.simonwillison.net HTML+JavaScript工具集基本上就是這樣構建的:先有一個小項目的想法,然后通過Claude Artifacts、ChatGPT或Claude Code的iPhone應用進行測試,之后要么復制結果粘貼到GitHub的網頁編輯器里,要么等待有人提交PR,然后在手機Safari瀏覽器里進行審核和合并。

      這些HTML工具通常有100-200行代碼,充滿了無趣的樣板代碼和重復的CSS和JavaScript模式——但110個加起來就很多了!

      直到11月,Simon Willison還會說自己在手機上編寫的代碼更多,但他在筆記本電腦上編寫的代碼顯然更重要——經過全面審查、更好地測試,并且是為生產環境設計的。

      2025年12月,他對Claude Opus 4.5的信心越來越強,以至于開始在手機上使用Claude Code來處理更復雜的任務,包括打算在非玩具項目中使用的代碼。

      這一切始于他將JustHTML HTML5解析器從Python移植到JavaScript的項目,他使用了Codex CLI和GPT-5.2。當僅通過提示就能完成時,他開始好奇,如果只用手機,他能完成多少類似的項目。

      所以他嘗試將Fabrice Bellard的新MicroQuickJS C庫移植到Python,完全使用Claude Code在iPhone上運行,而且大部分都成功了。

      這段代碼適合在生產環境中使用嗎?當然,目前還不適合用于未經信任的代碼,但Simon Willison相信它能夠執行自己編寫的JavaScript代碼。他從MicroQuickJS借用的測試套件讓他對此很有信心。

      二十一、合規套件之年

      事實證明,這才是關鍵所在:如果你能給最新的編程agent提供一個現有的測試套件,它們針對2025年11月左右的前沿模型進行測試時,效果會非常顯著。

      Simon Willison稱這些為一致性測試套件,并且已經開始有意識地尋找它們。他已經成功地使用html5lib測試、MicroQuickJS測試套件以及一個尚未發布的、針對全面的WebAssembly規范/測試集的項目進行了測試。

      如果你要在2026年向世界推出一項新協議,甚至是新的編程語言,Simon Willison強烈建議你將與語言無關的一致性測試套件作為項目的一部分。

      很多人憂心忡忡地擔心,由于需要納入LLM訓練數據,新技術將難以被廣泛接受。他希望一致性套件方法能夠幫助緩解這個問題,并使這類新理念更容易獲得認可。

      二十二、今年本地模型已經很不錯,但云模型變得更好了

      2024年底,Simon Willison對在自己的機器上運行本地LLM模型失去了興趣。直到12月Llama 3.3 70B的發布,他才興趣重燃。

      這是他第一次感覺自己可以在64GB MacBook Pro上運行真正的GPT-4級模型。

      隨后在1月份,Mistral發布了Mistral Small 3,這是一個采用Apache 2許可的24B參數模型,其性能似乎與Llama 3.3(70B)相當,但內存占用卻只有后者的1/3左右。現在可以運行一個類似GPT-4級別的模型,并且還有剩余內存來運行其他應用程序。

      這一趨勢一直持續到2025年,尤其是在中國AI實驗室的模型開始占據主導地位之后。大約200億到320億的參數量這一最佳區間,使得模型的性能不斷超越以往。

      大型云模型也變得更好了,包括那些開源模型,雖然可以免費使用,但體積太大(1000B+),筆記本電腦無法運行。

      編程agent徹底改變了Simon Willison的看法。像Claude Code這樣的系統需要的,不僅僅是一個優秀的模型,而是一個推理模型,能夠在不斷擴展的上下文窗口中可靠地執行數十次甚至數百次工具調用。

      他還沒有嘗試過任何能夠可靠地處理Bash工具調用的本地模型,因此無法信任該模型來在設備上運行編程agent。

      Simon Willison的下一臺筆記本電腦至少要有128GB的??內存,所以2026年推出的輕量級機型或許符合他的需求。不過就目前而言,他還是會選擇目前市面上最好的前沿托管模型作為日常主力。

      二十三、低質量數字內容之年

      2025年,韋氏詞典將“slop”評為年度詞匯!

      slop:通常通過AI大量生產的低質量數字內容。

      互聯網上一直充斥著大量低質量內容。挑戰依然在于如何找到并推廣優質內容。內容篩選比以往任何時候都更加重要。

      二十四、數據中心變得極其不受歡迎之年

      AI數據中心繼續消耗大量能源,而建造它們的軍備競賽仍在加速,這種速度感覺是不可持續的。

      2025年有趣的是,公眾輿論似乎正在發生相當大的轉變,反對新建數據中心。

      以下是《衛報》12月8日的一則頭條新聞:超過200個環保組織要求停止在美國新建數據中心。地方層面的反對聲浪似乎也在全面急劇上升。

      Andy Masley讓Simon Willison確信,用水問題大多被夸大了,這主要是因為它分散了人們對能源消耗、碳排放和噪音污染等真正問題的注意力。

      AI實驗室不斷尋找新的效率方法,以幫助提高模型質量,同時減少每個token的能源消耗,但這帶來的影響是經典的杰文斯悖論——隨著token價格下降,我們找到了更密集的使用方式,例如每月花費200美元購買數百萬個token來運行編程agent。

      來源:Simon Willison總結文章

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大批美軍機突然飛往歐洲

      大批美軍機突然飛往歐洲

      揚子晚報
      2026-01-06 14:32:34
      300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對此沒有需要

      300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對此沒有需要

      史海孤雁
      2025-12-24 14:20:17
      澳洲重大發現! 糖尿病患者福音其實每家都有, 比藥管用!

      澳洲重大發現! 糖尿病患者福音其實每家都有, 比藥管用!

      澳微Daily
      2026-01-05 14:57:21
      住院七天被收了七天停車費!患者怒問醫院:你們這么搞合適嗎?

      住院七天被收了七天停車費!患者怒問醫院:你們這么搞合適嗎?

      今朝牛馬
      2026-01-05 15:50:29
      時也命也,馬杜羅距離安全僅差數秒,關上鋼門后,美軍將被全殲?

      時也命也,馬杜羅距離安全僅差數秒,關上鋼門后,美軍將被全殲?

      王鶔吃吃喝喝
      2026-01-04 23:24:52
      亞朵大戰全季,傳統五星級酒店輸麻了

      亞朵大戰全季,傳統五星級酒店輸麻了

      IC實驗室
      2025-11-13 15:50:52
      張水華辭職3天,田協除名真相大白,好友曝下步計劃,野心藏不住

      張水華辭職3天,田協除名真相大白,好友曝下步計劃,野心藏不住

      深析古今
      2026-01-05 14:12:19
      連廣州都收不上居民醫保的錢了

      連廣州都收不上居民醫保的錢了

      凱利經濟觀察
      2026-01-06 09:33:50
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      我偷拿父母800給同桌父親看病,12年后我去相親時,被她母親攔住

      我偷拿父母800給同桌父親看病,12年后我去相親時,被她母親攔住

      清茶淺談
      2025-03-26 16:51:12
      殲-20驚現臺灣屏東? 臺灣前艦長:一張照片勝過干言萬語

      殲-20驚現臺灣屏東? 臺灣前艦長:一張照片勝過干言萬語

      瞳哥視界
      2026-01-01 17:57:18
      英超第21輪阿森納激戰利物浦需防平,月最佳主帥下課潮增壓力

      英超第21輪阿森納激戰利物浦需防平,月最佳主帥下課潮增壓力

      云兒評球
      2026-01-06 16:37:56
      新年大案,喪事喜辦

      新年大案,喪事喜辦

      我是歷史其實挺有趣
      2026-01-05 16:53:53
      離岸人民幣兌美元較上一交易日下跌130個基點,報6.9829

      離岸人民幣兌美元較上一交易日下跌130個基點,報6.9829

      每日經濟新聞
      2026-01-06 06:13:05
      看完電影版《尋秦記》,為古天樂一聲嘆息!終于理解江華為何拒演

      看完電影版《尋秦記》,為古天樂一聲嘆息!終于理解江華為何拒演

      頭號電影院
      2026-01-05 13:56:04
      開拓者大勝爵士,楊瀚森總得分突破50大關,距離巴特爾還差106分

      開拓者大勝爵士,楊瀚森總得分突破50大關,距離巴特爾還差106分

      姜大叔侃球
      2026-01-06 13:31:00
      她16歲帶病奪冠,退役后定居美國,嫁美國帥哥,如今已當上大老板

      她16歲帶病奪冠,退役后定居美國,嫁美國帥哥,如今已當上大老板

      知鑒明史
      2025-12-14 10:10:02
      僅在垃圾時間上場2分鐘,楊瀚森1中1得4分,罰球2中2正負值+2

      僅在垃圾時間上場2分鐘,楊瀚森1中1得4分,罰球2中2正負值+2

      懂球帝
      2026-01-06 13:53:10
      美聯儲,降息大消息!金銀又瘋狂了!

      美聯儲,降息大消息!金銀又瘋狂了!

      中國商界雜志社
      2026-01-06 15:16:40
      最高法明確:這種情況可先用醫保

      最高法明確:這種情況可先用醫保

      第一財經資訊
      2026-01-06 13:16:12
      2026-01-06 17:24:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11016文章數 116936關注度
      往期回顧 全部

      科技要聞

      速看!黃仁勛萬字實錄:甩出"物理AI"王牌

      頭條要聞

      美高官:委官員已私下保證 將滿足美提出的條件和要求

      頭條要聞

      美高官:委官員已私下保證 將滿足美提出的條件和要求

      體育要聞

      從NBA最菜首發控衛,到NBA最強喬治

      娛樂要聞

      朱媛媛遺作《小城大事》定檔1月10日

      財經要聞

      丁一凡:中美進入相對穩定的競爭共存期

      汽車要聞

      摩登出街潮品 實拍奇瑞QQ冰淇淋女王版

      態度原創

      教育
      親子
      時尚
      數碼
      軍事航空

      教育要聞

      從川大到華沙大學,用小語種鏈接中歐:一位政治學博士的跨專業成長之路

      親子要聞

      超雄孩子老道透露:超雄孩子并非天性兇殘,投胎時父母做這3種事情

      推廣|| 她們新年狀態大開掛?原來悄悄做了這筆“美麗投資”

      數碼要聞

      微星CES 2026秀AI迷你PC矩陣,押注英特爾、AMD與英偉達平臺

      軍事要聞

      美稱對“占領”委內瑞拉保留選擇權

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产自在久久现线拍| 露脸叫床粗话东北少妇| 久久精品av国产一区二区| 无码人妻一区二区三区一| 狼人干?五月天| 久久99精品久久久久久9| 久久99视频| 亚洲中文波霸中文字幕| 国产成人综合色视频精品| 久久精品免视看国产成人| 国产999精品成人网站| aa级毛片毛片免费观看久| 精品国产一区二区三区四区阿崩| 欧美成人午夜无码A片秀色直播| 亚洲欧洲无码av电影在线观看| 亚洲制服中文字幕| 亚洲成人资源网| 精品亚洲国产成人| 暖暖 在线 日本 免费 中文| 天堂网国产| 久久a级片| 中文字幕爆乳julia女教师| 人妻丝袜中文无码AV影音先锋专区| 性xxxx视频播放免费| 国产精品伊人| 久久精品国产99精品亚洲| 婷婷色小说| 年轻漂亮的护士2| 东京热无码国产精品| 亚洲第一视频区| 日韩中文字幕免费在线观看 | 国产高清在线精品一区二区三区 | 亚洲老熟女一区二区三区| 新婚少妇无套内谢国语播放| 第一福利导航视频| 久久本道综合久久伊人| 精东A片成人影视| 亚洲熟少妇在线播放999| 五月丁香伊人| 精品无码一区二区三区的天堂| 女生洗鸡鸡喷尿的视频无马赛克?舒坦直叫的骚货视频?亚洲着九九九视频影院 |