<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      這一個Tab鍵,我愿意單獨付費:Cursor在線強化學(xué)習(xí)優(yōu)化代碼建議

      0
      分享至

      機器之心報道

      編輯:+0

      Cursor Tab 是 Cursor 的核心功能之一,它通過分析開發(fā)者的編碼行為,智能預(yù)測并推薦后續(xù)代碼,開發(fā)者僅需按下 Tab 鍵即可采納。



      然而,它也面臨著一個 AI 普遍存在的難題:「過度熱情」。有時,它提出的建議不僅毫無用處,甚至?xí)驍嚅_發(fā)者的思路。

      問題的關(guān)鍵,不只是讓 AI 寫出更優(yōu)秀的代碼,更是要教會它「察言觀色」:在最恰當(dāng)?shù)臅r機提供幫助,在其他時候則保持安靜。

      基于此,Cursor 采用在線強化學(xué)習(xí)技術(shù)訓(xùn)練出一個全新的 Tab 模型。該模型將每一次用戶交互(接受/拒絕建議)都視為一個強化信號,直接用于模型的在線優(yōu)化。在每天超過 4 億次請求的巨大流量驅(qū)動下,模型得以進行高頻度的、基于真實世界反饋的持續(xù)學(xué)習(xí)。



      Cursor 已將這個新的 Tab 模型設(shè)為默認(rèn)版本。與舊模型相比,新模型提供的建議數(shù)量減少了 21%,但所提供建議的接受率卻提升了 28%。此舉旨在提升用戶的編碼體驗,Cursor 也計劃在未來繼續(xù)深化這些方法的研究。

      Cursor 的策略獨特且高效:它每天多次向用戶部署新模型(每隔 1.5-2 小時),利用實時數(shù)據(jù)進行快速訓(xùn)練和優(yōu)化。

      這與主流做法形成了鮮明對比。多數(shù)廠商仍在靜態(tài)數(shù)據(jù)集上進行長周期訓(xùn)練,依賴人工標(biāo)注,數(shù)月才發(fā)布一次新模型。Cursor 的模式則建立了一個超高頻的實時反饋循環(huán),是對傳統(tǒng)模型開發(fā)流程的徹底顛覆。

      這似乎又一次向我們證明了,誰掌握了數(shù)據(jù)入口,誰就掌握了 AI 進化的主動權(quán)。

      該功能在 AI 社區(qū)也得到了非常積極的反饋,有用戶表示這是 Cursor 當(dāng)前「護城河」,并愿意為 Cursor Tab 單獨付費。



      還有開發(fā)者認(rèn)為,它能大幅提升了生產(chǎn)力,不像 agent 那樣只有噱頭,而是「比其他任何功能都更能改善工作流程」。



      另外,一條被「強化學(xué)習(xí)之父」Richard Sutton 轉(zhuǎn)發(fā)的評論表示,Cursor 的這個做法意義重大,它首次大規(guī)模證明了「實時在線學(xué)習(xí)」的巨大威力,并且指明了 AI 未來的一個重要發(fā)展方向,盡管目前還不夠完美。



      Cursor 通過一篇博客介紹了他們?nèi)绾卫眠@些數(shù)據(jù),通過在線強化學(xué)習(xí)技術(shù)來優(yōu)化其 Tab 模型。

      • 博客地址:https://cursor.com/cn/blog/tab-rl

      「干擾性建議」的挑戰(zhàn)

      要實現(xiàn)高接受率,不僅需要提升模型本身的智能水平,更關(guān)鍵的是要判斷何時應(yīng)提供建議,何時應(yīng)保持靜默。在某些場景下,上下文信息不足以準(zhǔn)確判斷用戶的意圖。即便模型具備完美的知識和推理能力,也無法預(yù)知用戶的確切操作。在這些情況下,不提供任何建議是更優(yōu)的選擇。

      為提升建議的接受率,一種直接的思路是訓(xùn)練一個獨立的分類模型來預(yù)測建議是否會被采納。據(jù) Parth Thakkar 在 2022 年披露,GitHub Copilot 便采用了此種策略。它通過一個邏輯回歸模型計算「上下文過濾分?jǐn)?shù)」,該模型接收 11 個特征作為輸入,涵蓋了編程語言、前次建議的采納情況、光標(biāo)前的字符序列等。盡管該模型的確切預(yù)測目標(biāo)未知,但外界普遍猜測其旨在預(yù)測建議被用戶接受的概率。當(dāng)該分?jǐn)?shù)低于 15% 時,系統(tǒng)便會跳過此次建議。

      該方案雖然可行,但 Cursor 的團隊希望尋求一種更通用的機制,以便能復(fù)用 Tab 模型自身學(xué)到的強大代碼表征能力。他們希望從根源上讓 Tab 模型避免生成質(zhì)量不高的建議,而非僅僅在事后進行過濾。因此,他們最終選擇了策略梯度方法。

      策略梯度方法

      策略梯度是一種通用的優(yōu)化框架,其目標(biāo)是調(diào)整「策略」(在此即 Tab 模型),以最大化「獎勵」(Reward)。獎勵是一個被賦予策略所執(zhí)行的每一個動作的數(shù)值。通過策略梯度算法,可以持續(xù)更新策略,使其在未來能夠獲得更高的平均獎勵。

      該類算法的核心思想是:允許策略進行探索性的隨機嘗試,觀察不同行為所帶來的獎勵高低,然后對獲得高獎勵的行為進行正向強化,對導(dǎo)致低獎勵的行為進行負(fù)向強化。

      為了運用策略梯度方法優(yōu)化 Tab,團隊定義了一個精巧的獎勵函數(shù):鼓勵被采納的建議,同時懲罰那些被展示但未被采納的建議。

      例如,假設(shè)目標(biāo)是當(dāng)建議的接受率不低于 25% 時才進行展示。那么,可以為被采納的建議設(shè)定 0.75 的獎勵,為被拒絕的建議設(shè)定 -0.25 的獎勵,而未展示建議的情況獎勵為 0。如果一個建議的真實接受概率為 p,那么展示該建議的期望獎勵就是。該值僅在 p>0.25 時為正。因此,一個旨在最大化獎勵的策略,將學(xué)會在其預(yù)估接受率超過 25% 時才給出建議。



      在實際應(yīng)用中,Cursor 使用的獎勵函數(shù)更為復(fù)雜,還考慮了建議的長度、代碼跳轉(zhuǎn)以及展示更多建議的可能性等因素。但其核心理念是一致的:并非直接對接受率進行建模,而是學(xué)習(xí)一個能夠達成特定接受率目標(biāo)的策略。

      可以推斷,模型在其內(nèi)部表征中自發(fā)學(xué)習(xí)到了對接受概率的評估(或至少是評估其是否超過 25%),而這個過程完全交由優(yōu)化器自行探索。

      同策略(On-Policy)數(shù)據(jù)的重要性



      然而,該方法有一個關(guān)鍵前提:用于計算梯度的動作樣本,必須來自于當(dāng)前正在優(yōu)化的策略。一旦策略被更新,舊的數(shù)據(jù)便不再是「同策略(On-Policy)」數(shù)據(jù)。

      為了獲取最新的有效樣本,就必須將新模型部署給用戶并收集其行為數(shù)據(jù)。這意味著需要一套高效的基礎(chǔ)設(shè)施,以快速部署新的模型檢查點,并縮短從用戶產(chǎn)生數(shù)據(jù)到數(shù)據(jù)進入下一輪訓(xùn)練流程的時間。

      目前,Cursor 推出一個檢查點并收集所需數(shù)據(jù)需要 1.5 到 2 小時。盡管這在人工智能行業(yè)已屬高效,但仍有進一步優(yōu)化的空間。

      Cursor 這次更新讓你心動了嗎?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      新金碟豹女團爆火!承接各大宴會,一場不到2萬,滿滿的青春洋溢

      新金碟豹女團爆火!承接各大宴會,一場不到2萬,滿滿的青春洋溢

      TVB的四小花
      2026-03-11 00:13:36
      特朗普:伊朗一直“咄咄逼人”,不如現(xiàn)在就做個了斷,幫助伊朗人民是有條件的

      特朗普:伊朗一直“咄咄逼人”,不如現(xiàn)在就做個了斷,幫助伊朗人民是有條件的

      大風(fēng)新聞
      2026-03-10 19:23:11
      加倉65%!北向資金重倉鎖定機器人第一真龍,算力+芯片+先進封裝

      加倉65%!北向資金重倉鎖定機器人第一真龍,算力+芯片+先進封裝

      財報翻譯官
      2026-03-10 19:56:39
      恐怖的87-2!CCTV5直播,中國女足vs中國臺北沖4強,賽程有變!

      恐怖的87-2!CCTV5直播,中國女足vs中國臺北沖4強,賽程有變!

      大秦壁虎白話體育
      2026-03-11 00:33:42
      30艘船安全通過!“裝”成中國的,“保命”

      30艘船安全通過!“裝”成中國的,“保命”

      觀察者網(wǎng)
      2026-03-10 10:49:04
      利物浦恥辱夜!天價巨星全場夢游,球迷怒噴:最爛引援沒有之一

      利物浦恥辱夜!天價巨星全場夢游,球迷怒噴:最爛引援沒有之一

      瀾歸序
      2026-03-11 05:05:19
      騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

      騰訊QClaw官網(wǎng)上線:可一鍵部署“龍蝦”,兼容QQ、微信

      PChome電腦之家
      2026-03-09 14:37:39
      給廳長開車6年我從不提私事,父親貨車被扣,廳長遞來一個眼神

      給廳長開車6年我從不提私事,父親貨車被扣,廳長遞來一個眼神

      小月故事
      2026-03-06 14:48:51
      娶個外國媳婦是種什么樣的體驗?網(wǎng)友:誰不喜歡美好的東西

      娶個外國媳婦是種什么樣的體驗?網(wǎng)友:誰不喜歡美好的東西

      另子維愛讀史
      2026-03-07 19:15:01
      中國女籃世資賽12人名單:韓旭李月汝張子宇三塔 王思雨+楊舒予

      中國女籃世資賽12人名單:韓旭李月汝張子宇三塔 王思雨+楊舒予

      醉臥浮生
      2026-03-10 11:06:26
      韓媒解讀平壤馬拉松取消原因:擔(dān)心大量外國人入境,禁用GPS功能

      韓媒解讀平壤馬拉松取消原因:擔(dān)心大量外國人入境,禁用GPS功能

      楊華評論
      2026-03-10 16:45:29
      麻煩了,狄龍:若與森林狼季后賽相遇,我們已經(jīng)摸透了他們的套路

      麻煩了,狄龍:若與森林狼季后賽相遇,我們已經(jīng)摸透了他們的套路

      好火子
      2026-03-11 06:41:56
      聚餐后瘋狂砸家后續(xù):原因曝光,想讓兒子擔(dān)保借錢,女兒再曝黑料

      聚餐后瘋狂砸家后續(xù):原因曝光,想讓兒子擔(dān)保借錢,女兒再曝黑料

      奇思妙想草葉君
      2026-03-10 01:26:22
      林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

      林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

      興趣知識
      2026-03-08 19:32:42
      深圳一幼兒園學(xué)費217360元!網(wǎng)友:都說經(jīng)濟下滑,只是我窮而已

      深圳一幼兒園學(xué)費217360元!網(wǎng)友:都說經(jīng)濟下滑,只是我窮而已

      火山詩話
      2026-03-10 13:22:20
      不要亂吃維生素了!美國研究:長期吃復(fù)合維生素,或增加死亡風(fēng)險

      不要亂吃維生素了!美國研究:長期吃復(fù)合維生素,或增加死亡風(fēng)險

      醫(yī)學(xué)原創(chuàng)故事會
      2026-03-10 15:34:04
      美媒評論東風(fēng)5C導(dǎo)彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

      美媒評論東風(fēng)5C導(dǎo)彈:恐怖!如果丟一枚到美國,會造成怎樣的景象

      朝子亥
      2026-03-10 19:15:03
      景甜瑜伽寫真引爆熱搜!緊身衣難掩豐滿身材,這腰臀比太絕了?

      景甜瑜伽寫真引爆熱搜!緊身衣難掩豐滿身材,這腰臀比太絕了?

      娛樂領(lǐng)航家
      2026-03-11 00:00:08
      記者:又有3名伊朗女足球員脫離球隊;伊朗足協(xié)主席敦促球員回國

      記者:又有3名伊朗女足球員脫離球隊;伊朗足協(xié)主席敦促球員回國

      懂球帝
      2026-03-10 12:47:21
      是否刺殺伊朗新領(lǐng)袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標(biāo);想在伊朗復(fù)制“委內(nèi)瑞拉模式”

      是否刺殺伊朗新領(lǐng)袖?特朗普突然“共情”了:那樣說不合適,我以前也曾是暗殺目標(biāo);想在伊朗復(fù)制“委內(nèi)瑞拉模式”

      極目新聞
      2026-03-10 14:47:01
      2026-03-11 07:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      蔚來今年要少虧150億,沖擊年度盈利

      頭條要聞

      "一對老夫妻雙雙129歲相戀100年"視頻引熱議 當(dāng)?shù)鼗貞?yīng)

      頭條要聞

      "一對老夫妻雙雙129歲相戀100年"視頻引熱議 當(dāng)?shù)鼗貞?yīng)

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

      財經(jīng)要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      本地
      數(shù)碼
      公開課
      軍事航空

      藝術(shù)要聞

      這組剪紙?zhí)懒耍?/h3>

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      數(shù)碼要聞

      蘋果MacBook Neo筆記本SSD速度約為MacBook Pro的1/8

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      剛說完戰(zhàn)爭很快結(jié)束 特朗普改口

      無障礙瀏覽 進入關(guān)懷版