<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      悶聲賺錢的 RL 生意:每個任務,200-20000 美元

      0
      分享至

      2025 年 9 月,The Information 報道 Anthropic 曾討論在接下來一年內(nèi)投入超過 10 億美元用于 RL 環(huán)境建設


      https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

      10 億美元,只買一樣東西:讓模型「練習」的場地和題目

      Epoch AI 最近發(fā)了一篇報告,采訪了 18 位來自 RL 環(huán)境初創(chuàng)公司、neolab(Cursor 這類應用型 AI 公司)和前沿實驗室的從業(yè)者


      https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

      通過這份報告,讓我們看一下這個正在快速成長的隱秘市場

      為什么 RL 環(huán)境突然重要了

      o1 證明了一件事:在有明確答案的任務上做強化學習,能顯著提升模型的推理能力

      Andrej Karpathy 在 2025 年度總結里說:通過在大量可驗證任務和不同環(huán)境上訓練大模型,大模型會自發(fā)涌現(xiàn)出在人類看來像是推理的策略


      各家實驗室現(xiàn)在瘋狂擴展訓練任務的類型和數(shù)量,同時持續(xù)加大 RL 訓練的算力投入

      但問題來了,沒有多樣化、高質(zhì)量的環(huán)境和任務,盲目堆算力做 RL 很可能是在燒錢。Mechanize 估計 RL 訓練期間每個任務大約消耗 2400 美元的算力。如果任務質(zhì)量不行,這些算力就浪費了

      創(chuàng)建高質(zhì)量的環(huán)境和任務,已經(jīng)成為擴展模型能力的關鍵瓶頸

      什么是 RL 環(huán)境

      對于 RL 環(huán)境,這里有三個組件:環(huán)境任務評分器

      環(huán)境
      模型可以執(zhí)行動作的沙盒??赡苁且粋€ Docker 容器里跑著的代碼倉庫,可能是一個模擬的網(wǎng)站,可能是一個 Excel 克隆。定義了模型能做什么(寫代碼、點按鈕、搜文檔)以及這些動作會產(chǎn)生什么效果

      任務
      一個具體的目標。比如「修復這個 bug 讓測試通過」「在這個 Airbnb 克隆里找到最便宜的兩居室」「用這份數(shù)據(jù)做個數(shù)據(jù)透視表」

      評分器
      判斷模型做得對不對、好不好??梢允菃卧獪y試,可以是另一個大模型按標準打分

      三者組合起來,模型反復嘗試任務,評分器給反饋,模型根據(jù)反饋調(diào)整策略


      RL 環(huán)境示意

      幾個具體的例子:

      Git 倉庫環(huán)境:任務是修復 bug 使單元測試通過,類似 SWE-bench。評分器運行測試,檢查是否通過


      Airbnb 克隆環(huán)境:任務是在指定城市和日期找最便宜的兩居室。環(huán)境是帶有真實房源、價格和篩選器的模擬網(wǎng)站。評分器驗證最終答案是否正確


      Bloomberg 終端克隆環(huán)境:任務是查找一批公司的 5 年復合年增長率。評分器檢查返回的數(shù)字是否正確


      Excel 克隆環(huán)境:任務是根據(jù)原始數(shù)據(jù)創(chuàng)建數(shù)據(jù)透視表。評分器將輸出與參考答案對比


      對于 Excel 這類電腦操作環(huán)境,單個環(huán)境可能支持數(shù)百個不同任務。對于編程環(huán)境,更常見的是每個環(huán)境只包含一個任務,因為設置倉庫狀態(tài)相對便宜

      誰在做,多少錢

      四類玩家:

      專業(yè)初創(chuàng)公司
      專注于構建 RL 環(huán)境,覆蓋軟件工程、電腦操作、數(shù)學、金融等領域。Chris Barber 整理了一份名單:pavlovslist.com

      傳統(tǒng)數(shù)據(jù)供應商
      Mercor、Surge、Handshake、Turing 這些過去主要提供人工標注數(shù)據(jù)的公司,現(xiàn)在也開始賣 RL 環(huán)境。一位創(chuàng)始人說,主要價值是「他們有人」:如果需要快速擴大任務創(chuàng)建規(guī)模,他們能比自己招人更快地配置項目

      實驗室內(nèi)部團隊
      xAI、Anthropic 都在招 RL 環(huán)境相關崗位。Cursor 這類 neolab 可以利用用戶數(shù)據(jù)來構建訓練任務。一位創(chuàng)始人指出,最近「內(nèi)部化的趨勢明顯增加」

      產(chǎn)品公司
      Salesforce、Slack 這類公司比任何人都更了解自己產(chǎn)品的界面和邊界情況。我們正在看到實驗室與產(chǎn)品公司之間的合作:Benchling 與 Anthropic 合作生物工作流,OpenAI 與 Shopify、Stripe 合作購物場景


      成本方面:

      合同規(guī)模通常是每季度六到七位數(shù)。一位創(chuàng)始人說合同經(jīng)常是每季度七位數(shù)或更多

      環(huán)境成本取決于保真度。SemiAnalysis 報道網(wǎng)站復刻品(UI 健身房)每個約 2 萬美元。但像 Slack 這樣復雜產(chǎn)品的高質(zhì)量復刻可能要 30 萬美元

      任務成本多位受訪者認同每個 2002000 美元的范圍。特別復雜的軟件工程任務可能到 2 萬美元,但很少見

      獨占權顯著影響定價。兩位創(chuàng)始人獨立表示,獨家交易大約是非獨家的 45


      整體支出在快速增長,但仍然只是算力成本的一小部分。OpenAI 2026 年的研發(fā)算力支出預計約 190 億美元。即使 Anthropic 花 10 億美元買 RL 環(huán)境,相比算力支出仍然是零頭

      領域演變

      最早是數(shù)學和編程

      數(shù)學任務容易產(chǎn)出,不需要構建復雜環(huán)境,只需要有可驗證答案的任務。但一位創(chuàng)始人觀察到,數(shù)學任務容易創(chuàng)建,遷移到其他能力的效果不太好。一位受訪者說「數(shù)學可能在萎縮」

      編程仍是主要需求來源

      而且正在超越 SWE-bench 風格的任務。一位創(chuàng)始人說:「我看到代碼環(huán)境從簡單的 PASS_TO_PASS 和 FAIL_TO_PASS 類型任務,轉(zhuǎn)向更加產(chǎn)品化。軟件工程師實際上是怎么工作的?他們有 GitHub、有 Linear、有代碼 IDE」


      主要增長領域是企業(yè)工作流

      提交費用報告、在電子表格中創(chuàng)建數(shù)據(jù)透視表、根據(jù)簡報生成幻燈片、在 CRM 中更新客戶記錄

      一位創(chuàng)始人說:「我認為企業(yè)工作流今年會爆發(fā)。實驗室非??粗赜袃r值且可量化的東西,企業(yè)工作流正好符合這兩點」

      環(huán)境形式多樣:MCP 風格的工具集成、Playwright 風格的瀏覽器交互、基于截圖的電腦操作。很多依賴于 Slack 或 SAP 等應用的克隆

      一位實驗室研究員警告:「使用網(wǎng)站克隆有很多好的理由,但大家都在 vibe code 出有 bug 的網(wǎng)站,這沒什么用。存在大量沒用的爛環(huán)境」

      兩個領域都在往長時間跨度任務發(fā)展。一位創(chuàng)始人說:「長時間跨度是未來方向。讓智能體執(zhí)行完整的端到端任務,涉及在多個標簽頁、瀏覽器之間導航,然后提交涉及多跳步驟的東西」

      什么才是好的 RL 環(huán)境

      獎勵黑客是頭號顧慮

      受訪者一致認為,防止獎勵黑客(reward hacking)是最重要的質(zhì)量標準


      一位 neolab 研究員說:「獎勵黑客是個大問題。模型可能通過搜索答案來作弊,或者如果你在腳本化倉庫時不小心,它可能會檢出未來的 commit。必須要魯棒。這是底線」

      另一位說:「可靠性最重要:高獎勵必須意味著任務確實被解決了,而不是被黑掉了」

      創(chuàng)建魯棒的評分器很少能一次成功。一位創(chuàng)始人說:「需要很多很多次迭代來檢查獎勵黑客」

      難度校準

      任務需要有挑戰(zhàn)性但不能不可能完成。如果通過率是 0%100%,模型就學不到東西


      多位受訪者提到希望最低通過率在 2%3%,或者在 64128 次嘗試中至少成功一次

      整體分布也很重要。一位研究員說:「RL 環(huán)境的一個非常重要的特性是平滑的梯度:任務難度的多樣性」。可能需要混合搭配:一些任務 0%,一些 5%,一些 30%。訓練一段時間后,0% 的任務變得可學習。一旦任務達到約 70% 的通過率,可能會丟棄它轉(zhuǎn)向更難的任務

      保質(zhì)擴量是核心瓶頸

      一位創(chuàng)始人說:「保質(zhì)擴量是大家看到的頭號瓶頸。找到專家并不難,但管理他們和做質(zhì)量控制很難」

      一位 neolab 研究員說:「不容易找到人來監(jiān)督這個數(shù)據(jù)構建、RL 環(huán)境構建的過程。承包商,你需要激勵他們。當然,你在付錢給他們。但你怎么確保他們不是只在用大模型?你怎么確保他們是真的驗證過的?激勵承包商和做質(zhì)量控制是苦活」


      一位創(chuàng)始人說,他們增加收入的限制因素就是在保持質(zhì)量的前提下擴大任務創(chuàng)建的難度

      需要什么技能

      構建環(huán)境主要是工程技能。創(chuàng)建好的任務需要不同的東西

      一位創(chuàng)始人說:「領域知識和專家級的提示詞能力比 ML 技能對創(chuàng)建任務更重要」

      一位研究員補充說產(chǎn)品感覺也很重要:「你需要知道人們實際上是怎么使用這些工具的」

      一位研究員說:「你不一定需要是 AI 研究員,但也許一個重度 Claude Code 用戶、一個像 Riley Goodside 那樣的提示詞密語者,可能比 AI 研究員更擅長判斷前沿在哪里」

      另一位簡單總結:「最擅長這個的人可能是那些創(chuàng)建了真正被使用的基準測試的人」

      最后

      RL 環(huán)境已經(jīng)從一個技術細節(jié),變成了前沿 AI 訓練的關鍵一環(huán)

      目前來看,這個領域還在快速變化,一年后的情況可能會大不相同

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      杠上了!“誰說歐洲文明要完?加拿大還想加入呢”

      杠上了!“誰說歐洲文明要完?加拿大還想加入呢”

      觀察者網(wǎng)
      2026-02-15 22:54:13
      高市沒想到,日本剛扣押中國漁船,抓走船長,中方就迅速出手了!

      高市沒想到,日本剛扣押中國漁船,抓走船長,中方就迅速出手了!

      歲暮的歸南山
      2026-02-16 00:18:08
      拉夫羅夫公開說“看不懂”,西方政客集體沉默 這事真有那么難解釋

      拉夫羅夫公開說“看不懂”,西方政客集體沉默 這事真有那么難解釋

      西莫的藝術宮殿
      2026-02-16 03:44:59
      俄媒:一旦開戰(zhàn),中方只靠解放軍難以取勝,必須調(diào)動另一股力量!

      俄媒:一旦開戰(zhàn),中方只靠解放軍難以取勝,必須調(diào)動另一股力量!

      勇士軍武閑談
      2026-02-13 11:54:35
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      網(wǎng)速更快!華為公布支持5A通信機型:覆蓋Mate、Pura、nova等系列

      網(wǎng)速更快!華為公布支持5A通信機型:覆蓋Mate、Pura、nova等系列

      快科技
      2026-02-14 12:13:04
      最高可得2888元!剛剛,千問APP宣布發(fā)放口令紅包

      最高可得2888元!剛剛,千問APP宣布發(fā)放口令紅包

      大象新聞
      2026-02-15 17:59:05
      好慘烈的身高對比差距,中越邊境上的一張軍人合影突然火了起來

      好慘烈的身高對比差距,中越邊境上的一張軍人合影突然火了起來

      我心縱橫天地間
      2026-01-30 22:17:29
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      樊振東3-1逆轉(zhuǎn)賈哈!后三局拿捏關鍵分,為薩爾布呂肯奪首勝!

      樊振東3-1逆轉(zhuǎn)賈哈!后三局拿捏關鍵分,為薩爾布呂肯奪首勝!

      籃球資訊達人
      2026-02-15 20:50:48
      德國那位軍事專家說得夠直白:美國不是怕中國,是怕打了也白打

      德國那位軍事專家說得夠直白:美國不是怕中國,是怕打了也白打

      扶蘇聊歷史
      2026-01-28 18:04:09
      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預防

      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預防

      離離言幾許
      2026-02-13 18:34:28
      貝克漢姆家劇情更新,小七情人節(jié)曬與大布合照,貝嫂回應但沒人理

      貝克漢姆家劇情更新,小七情人節(jié)曬與大布合照,貝嫂回應但沒人理

      手工制作阿殲
      2026-02-16 02:42:05
      你無意之中撞見過什么秘密?網(wǎng)友:我婆婆和公公外面各自有人

      你無意之中撞見過什么秘密?網(wǎng)友:我婆婆和公公外面各自有人

      帶你感受人間冷暖
      2026-02-12 00:05:09
      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      小熊侃史
      2026-01-06 11:17:00
      中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

      中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

      乒乓球球
      2026-02-16 00:27:52
      前勇士、湖人冠軍中鋒麥基:我將加入北京首鋼

      前勇士、湖人冠軍中鋒麥基:我將加入北京首鋼

      懂球帝
      2026-02-15 09:17:17
      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      蜉蝣說
      2026-01-29 14:46:50
      從5260萬降到600萬,還準備退役巡演么?奪冠熱門似乎不太需要你

      從5260萬降到600萬,還準備退役巡演么?奪冠熱門似乎不太需要你

      老梁體育漫談
      2026-02-15 00:03:47
      2026央視春晚最新動態(tài)!節(jié)目單曝光,重量級嘉賓登場

      2026央視春晚最新動態(tài)!節(jié)目單曝光,重量級嘉賓登場

      夢在深巷qw
      2026-02-16 03:42:26
      2026-02-16 05:15:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數(shù) 36關注度
      往期回顧 全部

      科技要聞

      發(fā)春節(jié)紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經(jīng)要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態(tài)度原創(chuàng)

      本地
      游戲
      藝術
      教育
      公開課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      LPL第一賽段還未結束,亞運會已有3隊退出LOL比賽,包括東道主

      藝術要聞

      168米!廣州“翠竹”摩天大樓復工?

      教育要聞

      點贊收藏轉(zhuǎn)發(fā)這條視頻,我不怕小日子

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版