<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      剛剛,Anthropic內(nèi)部考題開源!年薪百萬工程師,被AI秒了

      0
      分享至


      新智元報道

      編輯:Aeneas 好困

      【新智元導(dǎo)讀】史上最強(qiáng)模型Claude Opus 4.5發(fā)布后,全面碾壓了人類頂尖工程師,逼得Anthropic不得不被迫放棄招聘筆試!現(xiàn)在,內(nèi)部考題已經(jīng)全面開源了。

      就在剛剛,人類程序員最后的堡壘崩塌了。

      曾經(jīng),Anthropic為自己應(yīng)聘者準(zhǔn)備了一份出了名困難的考題,讓他們在家完成。

      這份考題一直效果不錯,直到Claude Opus 4.5的出現(xiàn)。

      有了這個史上最強(qiáng)模型的加持,人類應(yīng)聘者輕松做出各種考題,因而這份考卷也就失效了。

      今天,因為無法再通過傳統(tǒng)技術(shù)筆試篩選人才,Anthropic被迫開源了舊版試題,并且向全世界求助:有沒有辦法,讓我們真正測試出人類的編程能力?


      作為告別,Anthropic選擇將把最初版本的測試題發(fā)布,作為一個面向大眾的公開挑戰(zhàn)。


      地址:https://github.com/anthropics/original_performance_takehome

      在這個測試題中,候選人需要逐步進(jìn)行多核并行優(yōu)化、SIMD向量化、VLIW指令打包優(yōu)化,并用Perfetto trace做分析。


      他們依然相信:在無限時間下,最強(qiáng)人類依然能超越Claude的極限。

      同時他們強(qiáng)調(diào):如果哪個人類能擊敗Claude Opus 4.5,請務(wù)必聯(lián)系A(chǔ)nthropic!

      剛剛,Claude Opus 4.5把我們的筆試題秒了

      在AI時代,究竟該如何進(jìn)行軟件工程師的面試?

      Anthropic在這篇博客里,進(jìn)行了細(xì)致的探索。


      博客地址:https://www.anthropic.com/engineering/AI-resistant-technical-evaluations

      要知道,曾經(jīng)Anthropic有一套完美的篩選考題。

      可隨著AI能力的指數(shù)級提升,今天還能完美區(qū)分菜鳥和大神的試題,明天就可能被新模型秒殺,這套考題就瞬間失去意義了!

      比如,自2024年初,他們的性能工程團(tuán)隊一直在用下面這套題:要求候選人為一個模擬加速器優(yōu)化代碼。

      這套題在1000多名面試者中,篩出了幾十個最頂尖的工程師。正是這些人,點(diǎn)亮了Anthropic的Trainium集群,發(fā)布了從Claude 3 Opus至今的每一個模型。

      結(jié)果,每個新版本的Claude,都在讓這套題失效!

      同樣的時間里,Claude Opus 4已經(jīng)優(yōu)于大多數(shù)人類申請者,Anthropic勉強(qiáng)還能篩出最強(qiáng)的人類。

      結(jié)果Claude Opus 4.5的橫空出世,直接追平了最強(qiáng)人類天花板!

      如果給無限的時間,人類或許還能險勝,但在面試時間限制下,已經(jīng)根本無法區(qū)分誰是頂尖候選人,誰是最強(qiáng)模型了。

      為此,Anthropic已經(jīng)把這套題迭代了三個版本,甚至越來越「劍走偏鋒」。

      這套測試的誕生

      2023年11月,Anthropic正準(zhǔn)備發(fā)布Claude Opus 3。

      新的TPU和GPU集群就位,大Trainium集群即將上線,公司在算力上的投入是過去的數(shù)倍,但性能工程師卻嚴(yán)重緊缺。

      為此,Anthropic公司績效優(yōu)化團(tuán)隊負(fù)責(zé)人Tristan Hume在Twitter上發(fā)帖求賢,雖然收到了大量簡歷,但標(biāo)準(zhǔn)的面試流程太耗時了。


      于是,他花了兩個星期設(shè)計了一個Take-home測試,從而精準(zhǔn)識別出真正硬核的候選人。

      設(shè)計初衷

      為了做出一個好玩的、能讓候選人興奮的東西,并且能以「高分辨率」掃描他們的技術(shù)實(shí)力,Tristan Hume做了精心設(shè)計。

      相比現(xiàn)場面試,這種形式在評估性能工程技能上更有優(yōu)勢:

      • 時間更充裕:4小時(后改為2小時)的窗口比50分鐘的面試更能反映真實(shí)工作狀態(tài)。

      • 環(huán)境更真實(shí):沒有面試官盯著,候選人在自己的編輯器里干活,零干擾。

      • 深度考察:性能優(yōu)化需要理解系統(tǒng)、造工具,這在短面試?yán)锖茈y體現(xiàn)。

      • 兼容AI輔助:明確允許使用AI。因為對于長線難題,AI很難直接給出完美解。

      另外,Tristan還構(gòu)建了一個Python模擬器,模擬了一個具有TPU特征的假加速器。

      候選人需要優(yōu)化在這臺機(jī)器上運(yùn)行的代碼,并通過一個支持熱重載的Perfetto trace來觀察執(zhí)行過程,該trace會展示每一條指令,效果類似公司在Trainium上使用的工具鏈。


      這臺模擬機(jī)器包含了一些讓加速器優(yōu)化變得很有挑戰(zhàn)性的特性,包括:

      • 手動管理的scratchpad內(nèi)存(不同于CPU,加速器通常需要顯式進(jìn)行內(nèi)存管理)

      • VLIW架構(gòu)(每個周期可以并行運(yùn)行多個執(zhí)行單元,需要高效地進(jìn)行指令打包)

      • SIMD(一條指令同時對多個數(shù)據(jù)元素進(jìn)行向量化運(yùn)算)

      • 多核架構(gòu)(需要將工作負(fù)載合理地分配到多個核心上)

      這些硬核要素,都讓底層優(yōu)化變得更有趣。


      這個任務(wù)是一個并行的樹遍歷問題,刻意設(shè)計成不帶深度學(xué)習(xí)背景的形式,因為大多數(shù)性能工程師并沒有做過深度學(xué)習(xí)工作,具體知識可以在入職后再學(xué)習(xí)。

      該問題的靈感來自于無分支的SIMD決策樹推理——這是一個經(jīng)典的機(jī)器學(xué)習(xí)優(yōu)化挑戰(zhàn)。

      候選人一開始拿到的是一個完全串行的實(shí)現(xiàn),需要逐步挖掘并利用這臺機(jī)器的并行能力。

      早期戰(zhàn)果:它曾完美工作

      最初的效果非常好。

      一位得分遙遙領(lǐng)先的候選人入職后,立即開始優(yōu)化算子,并解決了一個阻礙發(fā)布的編譯器Bug。

      在之后的一年半里,這套題幫忙組建了核心團(tuán)隊,甚至發(fā)掘了幾位本科剛畢業(yè)但實(shí)力超群的天才。

      許多候選人甚至因為覺得太好玩,在超時后還在繼續(xù)優(yōu)化。最強(qiáng)的一份提交,甚至包含了一個完整的迷你優(yōu)化編譯器。

      第一輪崩潰:Claude Opus 4進(jìn)場

      到了25年5月,Claude 3.7 Sonnet已經(jīng)進(jìn)化到讓一半的候選人只要把題丟給它,就能拿高分。

      隨后,Tristan用Claude Opus 4的預(yù)發(fā)布版本試了一下。結(jié)果令人絕望:在4小時內(nèi),它的代碼比幾乎所有人類都要好。

      這并非他第一次被Claude擊敗。早在2023年,Claude 3 Opus和3.5 Sonnet就先后攻破了他們精心準(zhǔn)備的現(xiàn)場面試題。

      對于這次崩潰,Tristan做了緊急修復(fù):既然問題深度不夠,那就加碼。他重寫了啟動代碼,增加了機(jī)器特性的復(fù)雜度,并把時間縮短到2小時。

      第二版?zhèn)戎乜疾烨擅畹膬?yōu)化洞察力,而非單純的代碼量。這招奏效了——但是,也只撐了幾個月而已。

      第二輪崩潰:Claude Opus 4.5的降維打擊

      后來,當(dāng)Tristan拿到Claude Opus 4.5的預(yù)發(fā)布版本時,他眼睜睜看著Claude Code跑了2小時。它像個老練的工程師,先解決了初始瓶頸,搞定了所有常規(guī)微優(yōu)化。

      然后它卡住了,遇到了一個看似不可逾越的內(nèi)存帶寬瓶頸——大多數(shù)人類也卡在這里。但當(dāng)他提示「理論極限」時,它思考片刻,竟然找到了那個只有極少數(shù)人類能發(fā)現(xiàn)的巧妙技巧。

      最終,它的得分與人類歷史最高紀(jì)錄持平(而那個人類考生還是在重度依賴 Claude 4 的情況下完成的)。


      更可怕的是,Anthropic在內(nèi)部的「測試時計算」框架中驗證發(fā)現(xiàn),它不僅能在2小時內(nèi)擊敗人類,甚至隨著思考時間的增加,分?jǐn)?shù)還在不斷上漲。

      大麻煩來了:即將發(fā)布的模型,將徹底摧毀公司招聘這個模型開發(fā)者的測試題。所以,他們只能采用這個策略——把工作直接外包給Claude Code。

      艱難的抉擇

      有人建議禁止AI,但當(dāng)Tristan并未采納。因為在真實(shí)工作中,人類就是需要和 AI協(xié)作。

      也有人建議提高及格線,但這會導(dǎo)致候選人淪為AI的看客,甚至因跟不上AI的思路而不知所措。

      性能工程師的真實(shí)工作其實(shí)更多是艱難的調(diào)試、系統(tǒng)設(shè)計、分析,以及讓AI生成的代碼更優(yōu)雅。這些很難通過客觀測試來考察。

      到底該怎樣設(shè)計一個「像真實(shí)工作」的面試題?這個任務(wù)從未如此艱難。

      嘗試1:換個題型?被秒殺

      首先,Tristan試圖設(shè)計一個更難的內(nèi)核優(yōu)化問題:2D TPU寄存器上的高效數(shù)據(jù)轉(zhuǎn)置,且要避免Bank沖突。這是一個非常棘手的真實(shí)難題。



      然而,Claude Opus 4.5發(fā)現(xiàn)了一個他都沒想到的絕佳優(yōu)化路徑:它重寫了整個計算過程,直接繞過了轉(zhuǎn)置的難點(diǎn)。即便他修補(bǔ)了漏洞,Claude Code配合深度思考(Ultrathink)功能,依然能找出修復(fù)Bank沖突的技巧。

      這讓他意識到,這類問題在已有代碼庫中太常見,Claude已經(jīng)擁有了海量的訓(xùn)練數(shù)據(jù)「經(jīng)驗」。

      嘗試2:變得更古怪

      既然「真實(shí)」行不通,他只能追求「分布外(Out of distribution)」——即AI沒見過的數(shù)據(jù)。

      他想到了Zachtronics的編程解謎游戲。這類游戲使用極度受限的指令集,迫使你用非傳統(tǒng)方式編程。




      于是,他設(shè)計了一套全新的測試:使用微小且極度受限的指令集,目標(biāo)是指令數(shù)最小化。沒有可視化工具,沒有調(diào)試器——候選人必須自己造工具(比如讓AI生成調(diào)試器)。

      他把這套題丟給Claude Opus 4.5,它終于失敗了。

      這套新題效果不錯,分?jǐn)?shù)與候選人的實(shí)際能力高度相關(guān)。但Tristan心中仍有遺憾:他們放棄了原版試題的「真實(shí)感」和「多樣性深度」。

      但這或許就是代價。

      「真實(shí)感」已經(jīng)成為了奢侈品。原版試題之所以有效,因為它像以前的工作;現(xiàn)在的試題之所以有效,因為它模擬了一個全新的、AI尚未涉足的領(lǐng)域。

      公開向人類挑戰(zhàn):原版測試題開源!

      最終,Anthropic宣布:將原版測試題開源。雖然Claude很強(qiáng),但在無限時間下,人類專家的極限仍高于AI。


      目前,Claude的戰(zhàn)績?nèi)缦拢ㄖ芷跀?shù)越低越好):

      • 2164:Claude Opus 4

      • 1790:Claude Opus 4.5(隨手一跑)

      • 1487:Claude Opus 4.5(11.5小時超長思考后)

      • 1363:Claude Opus 4.5(改進(jìn)框架后)

      Tristan表示:如果你能優(yōu)化到1487周期以下,擊敗Claude的最佳表現(xiàn),請一定聯(lián)系他們!

      同時,他也歡迎大家通過常規(guī)流程申請,體驗一下人類要靠多久才能被攻破的「防Claude」新考題。

      參考資料:

      https://www.anthropic.com/engineering/AI-resistant-technical-evaluations


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      輸球僅一夜,安東尼奧質(zhì)疑主辦方:不公平!亞足聯(lián)或送中國隊大禮

      輸球僅一夜,安東尼奧質(zhì)疑主辦方:不公平!亞足聯(lián)或送中國隊大禮

      侃球熊弟
      2026-01-25 03:31:46
      “正常男孩不會這樣坐著”,家長曬兒子滿墻獎狀,網(wǎng)友卻發(fā)現(xiàn)端倪

      “正常男孩不會這樣坐著”,家長曬兒子滿墻獎狀,網(wǎng)友卻發(fā)現(xiàn)端倪

      妍妍教育日記
      2026-01-24 15:53:12
      眾生相!中國隊無緣冠軍 徐彬眼眶泛紅+王鈺棟失落 日本球員跳舞

      眾生相!中國隊無緣冠軍 徐彬眼眶泛紅+王鈺棟失落 日本球員跳舞

      侃球熊弟
      2026-01-25 00:22:31
      大媽跳廣場舞到半夜,放4個大音箱,許多墨汁從天而降,真兇卻找不到

      大媽跳廣場舞到半夜,放4個大音箱,許多墨汁從天而降,真兇卻找不到

      譚老師地理大課堂
      2026-01-24 21:39:32
      浙江文投總經(jīng)理蔣國興被查,曾主導(dǎo)浙報傳媒上市

      浙江文投總經(jīng)理蔣國興被查,曾主導(dǎo)浙報傳媒上市

      觀察者網(wǎng)
      2026-01-24 22:08:03
      劉衛(wèi)東被查前,干了兩件最不要臉的事。

      劉衛(wèi)東被查前,干了兩件最不要臉的事。

      南權(quán)先生
      2025-12-18 16:50:39
      特朗普承認(rèn):美軍在委內(nèi)瑞拉使用“秘密聲波”武器,俄羅斯稱將調(diào)查搜集相關(guān)信息

      特朗普承認(rèn):美軍在委內(nèi)瑞拉使用“秘密聲波”武器,俄羅斯稱將調(diào)查搜集相關(guān)信息

      魯中晨報
      2026-01-24 14:03:03
      工廠停擺、門店撤退:理想汽車的“嚴(yán)冬”,比預(yù)想中來得更冷

      工廠停擺、門店撤退:理想汽車的“嚴(yán)冬”,比預(yù)想中來得更冷

      科技Nice
      2026-01-23 11:27:59
      特朗普暴怒:和平大計三天崩盤!俄歐聯(lián)手拆局,中國的陽謀才叫絕

      特朗普暴怒:和平大計三天崩盤!俄歐聯(lián)手拆局,中國的陽謀才叫絕

      正經(jīng)的燒杯1
      2026-01-24 11:19:06
      太猛了,特斯拉中國官宣降價!

      太猛了,特斯拉中國官宣降價!

      XCiOS俱樂部
      2026-01-24 20:44:49
      里根后第一人:澤連斯基達(dá)沃斯演講后全場起立鼓掌!猛批歐爾班

      里根后第一人:澤連斯基達(dá)沃斯演講后全場起立鼓掌!猛批歐爾班

      項鵬飛
      2026-01-24 18:14:59
      武漢、宜昌入選!全國擬開展有獎發(fā)票試點(diǎn)城市名單公示

      武漢、宜昌入選!全國擬開展有獎發(fā)票試點(diǎn)城市名單公示

      極目新聞
      2026-01-24 13:48:17
      深夜利空!102家公司年報預(yù)虧,3家虧損超百億,千萬別踩雷

      深夜利空!102家公司年報預(yù)虧,3家虧損超百億,千萬別踩雷

      財經(jīng)智多星
      2026-01-24 08:43:17
      解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      新華社
      2026-01-24 23:03:04
      別再提什么斬殺線了!

      別再提什么斬殺線了!

      詩與星空
      2026-01-24 12:17:44
      重要亮劍的背后!

      重要亮劍的背后!

      荷蘭豆愛健康
      2026-01-25 02:07:34
      2:0!姆巴佩雙響追平凱恩+創(chuàng)新紀(jì)錄,皇馬反超巴薩,登頂西甲榜首

      2:0!姆巴佩雙響追平凱恩+創(chuàng)新紀(jì)錄,皇馬反超巴薩,登頂西甲榜首

      阿超他的體育圈
      2026-01-25 06:02:25
      郭包肉 | 首次授銜秘聞:張宗遜為何僅獲授上將軍銜?

      郭包肉 | 首次授銜秘聞:張宗遜為何僅獲授上將軍銜?

      郭包肉八世
      2026-01-24 18:12:56
      載有美國對臺首批軍售武器貨輪于1月13日從美國正駛往臺灣方向

      載有美國對臺首批軍售武器貨輪于1月13日從美國正駛往臺灣方向

      南權(quán)先生
      2026-01-23 15:42:38
      留學(xué)圈黑話“三通一達(dá)”火了,陪讀媽媽風(fēng)評反轉(zhuǎn),賠了夫人又損女

      留學(xué)圈黑話“三通一達(dá)”火了,陪讀媽媽風(fēng)評反轉(zhuǎn),賠了夫人又損女

      妍妍教育日記
      2026-01-23 19:20:29
      2026-01-25 06:39:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14402文章數(shù) 66527關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛現(xiàn)身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發(fā)布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發(fā)布社論

      體育要聞

      當(dāng)家球星打替補(bǔ),他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財經(jīng)要聞

      “百年老字號”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      游戲
      教育
      家居
      數(shù)碼
      公開課

      《輪回之獸》的優(yōu)化不會像《寶可夢》系列那樣差

      教育要聞

      電氣工程選科別慌!物理化學(xué)是關(guān)鍵

      家居要聞

      在家度假 160平南洋混搭宅

      數(shù)碼要聞

      UnifyDrive UC250/450 Pro家庭存儲NAS發(fā)布,配置與價格曝光

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久久久久久久久久久中文字幕| 公安县| 高清无码精品一区二区三区| 久久精品一区二区三区中文字幕| 亚洲成成品网站| 偷窥国产亚洲免费视频| 精品乱码久久久久久中文字幕| 超碰人人爽| 欧美亚洲国产精品久久蜜芽 | 成人乱人伦精品小说| 任我爽精品视频在线播放| 青青操影院| 色欲AV涩爱AV蜜芽AV三区| 久久人妻精品国产| 海盐县| 蜜臀av在线观看| 中文字幕日本一区二区在线观看| 制服丝袜人妻中出第一页 | 又爽又黄又无遮挡的激情视频| 中文字幕精品无码一区二区| 无码人妻品一区二区三区精99| 国产在线观看免费观看不卡| 性色欲情网站iwww九文堂| 亚洲成a人v欧美综合天堂下载| 97无码国产精品久久久日本| 国产在线不卡AV观看| 成人高清无码视频| 日韩无码专区| 国产偷倩视频| 女人天堂av| 苍井空毛片精品久久久| 国产福利精品一区二区| 国产富婆一区二区三区| 后入内射欧美99二区视频| 微拍福利一区二区三区| 亚洲AV永久无码天堂网一线| 3d动漫精品一区二区三区| 1024免费看| 激情 小说 亚洲 图片 伦| 色婷婷Av| 熟妇人妻激情偷爽文|