關于訓練范式的變化、benchmark 的失效、Cursor、Claude Code、VibeCoding、LLMGUI
1. RLVR
RLVR成為繼Pretraining、Supervised Finetuning、RLHF之后的新訓練階段。通過在數學/代碼等可驗證環境中訓練,LLM自發習得推理策略,學會分解問題和多步求解。與傳統微調不同,RLVR允許長時間優化,提供高能力/成本比,吞噬了原本用于預訓練的算力。2025年能力進步主要來自更長的RL運行。
2. Ghosts vs. Animals
LLM的優化目標與人類神經網絡截然不同,造就了鋸齒狀智能,既是天才博學者又是易受騙的小學生。RLVR導致LLM在可驗證領域能力飆升但整體參差不齊。Benchmark因可驗證性易被針對優化,"在測試集上訓練"成新藝術。
3. Cursor
Cursor揭示LLM應用的新形態:為垂直領域編排多個LLM調用,進行context engineering,提供專用GUI和自主性滑塊。爭議在于這個應用層有多"厚"。他認為LLM實驗室培養通用人才,而LLM應用通過私有數據、傳感器和反饋將其激活為特定領域的專業團隊。
4. Claude Code
Claude Code是LLM Agent的首個成功展示,循環串聯工具使用和推理。關鍵是它運行在本地電腦而非云端。OpenAI錯將agent部署在云容器中,但在能力參差的過渡期,本地運行與開發者協作更合理。CC以CLI形式呈現,讓AI從網站變成"生活"在電腦上的精靈,這是全新交互范式。
5. Vibe coding將改造軟件并改變職位描述
Vibe coding讓編程不再是專業人士專屬,普通人也能使用。它還讓專業人士編寫更多原本不會寫的軟件,代碼變得免費、臨時、可丟棄。
6. Nano banana / LLM GUI
Nano banana預示LLM GUI雛形。正如計算機從命令行演進到GUI,LLM也應從純文本聊天進化到視覺輸出。人們不喜歡讀文本,它緩慢費力。Nano banana展示了文本生成、圖像生成和世界知識融合的聯合能力。
來源:x.com/karpathy/status/2002118205729562949
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.