在硅谷的 AI 淘金熱中,Surge AI 是一個特殊的“異類”。
這家成立四年的數據服務公司,很久都沒拿投資人一分錢,也沒做過大量營銷。它靠著六七十人的團隊服務 OpenAI、Anthropic 等頂尖 AI 企業,并在 2024 年收入超過 10 億美元。
![]()
*Surge AI 的業務包括標注和RL環境構建等。它對數據標注專家的要求非常高,有時會招募創業公司CEO、風險投資合伙人標注,時薪報酬達500-1000美金。
因為遠離 VC 圈,很多人覺得這家 AI 公司就像憑空出現在 10 億美金營收這一梯隊。但或許由于競爭愈發激烈,有消息稱 Surge 正在進行一輪高達 10 億美元的融資,估值或超 250 億。
雖然這家公司是否會接受資本洗禮尚未可知,但它的 CEO Edwin Chen 在最新訪談中,火力全開地批判了硅谷創業的炒作現狀,還把 AI 領域自己看不慣的“風氣”噴了個遍。
他的部分"金句"如下:
AI 時代會出現效率更瘋狂的公司。之前在大公司工作時,我就覺得公司裁掉 90% 的人還會發展得更快,因為最優秀的人不會受到更多干擾。
更少的員工意味著需要更少的資本,不需要融資的公司也將更高頻地出現。所以在那些擅長推銷和炒作的創始人之外,人們會看到那些在技術和產品方面真正出色的創始人。
因為我們不玩硅谷那套融資—PR曝光—繼續融資的套路,這逼著 Surge 只能打磨自己的產品。這樣做的最大好處是,Surge的客戶是那些真正理解數據并真正關心數據質量的人。這些懂行的客戶給了 Surge 反饋,優化產品。
硅谷現在的創業劇本是:每兩周轉型一次尋找產品市場契合度,追逐增長、追逐參與度,使用各種“黑暗手段”瘋狂招聘進行閃電式擴張。但我一直反對這些。
我的建議是:不要隨意轉型,不要盲目擴張,不要只為了簡歷好看就雇傭斯坦福畢業生。要建立那個只有你能做的東西,那個離了你的獨特洞察和專業知識就不復存在的東西。
關于模型。現在很多模型都在刷基準測試,或者在大模型競技場刷分。但大模型競技場由路人票選,所以一個模型甚至可以胡說八道甚至產生幻覺,只要用了瘋狂的表情符號、加粗字體、Markdown 標題這些膚淺的裝飾,就能抓住用戶的注意力,取得好名次。
為提升用戶參與度,AI 公司用了很多套路。比如 ChatGPT 那些令人作嘔的阿諛奉承——哦,你是絕對正確的,多么棒的問題啊。吸引用戶最簡單的方法,就是不斷吹捧他們。
所以,現在人們在教模型去追逐“多巴胺”,而不是追求“真理”。這是一種扭曲的激勵,甚至現在得分最高的模型往往是最差的,或者根本上是失敗的。
總之,Edwin Chen 認為現在的 AI 和創業,至少在某種程度上走入歧途。
以下是經整理的訪談全文:
![]()
VC媒體創業者抱團炒作,AI和創業走入歧途
Lenny:今天的嘉賓是 Edwin Chen,Surge AI 的創始人兼 CEO。他們是領先的 AI 數據公司,為每一個前沿 AI 實驗室的訓練提供動力。
他們也是有史以來最快達到 10 億美元營收的公司,從未籌集過一美元的風險投資,在成立四年內用不到 100 人就做到了這個收入,而且從第一天起就是盈利的。
Edwin,你們團隊不大,能獨立取得這樣的營收非常了不起。你們證明因為AI,極小的團隊也能創造大財富。我很好奇,你認為這種情況會越來越多地發生嗎?
Edwin:是的,我們去年以不到 100 人的規模實現了超過 10 億美元的營收。而且我認為還會看到比我們效率更瘋狂的公司。比如未來幾年內出現人均營收 1 億美元的公司。AI 只會變得越來越好,讓事情更有效率。
我以前在很多大型科技公司工作過,我總是覺得可以裁掉 90% 的人,還會發展得更快,因為最優秀的人就不會有那么多干擾。所以當我們創辦 Surge 時,就想用完全不同的方式來建立它,用一個超級小、超級精英的團隊。很瘋狂的是,我們竟然成功了。
所以我認為有兩件事正在發生碰撞。第一,人們開始意識到不需要建立龐大的組織也能贏。第二,確實是 AI 帶來了這些效率提升。
讓我興奮的是公司的類型也將發生變化。不僅僅是規模變小,我們還將看到根本不同公司出現。你想一想,更少的員工意味著需要更少的資本。更少的資本意味著你不需要融資。
所以,在那些擅長推銷和炒作的創始人之外,你還會看到那些在技術和產品方面真正出色的創始人。
在那些為營收和風險 VC 想看的東西而優化產品之外,你也會看到由這些小的團隊構建的更有趣的產品。人們在構建他們真正關心的東西,實現真正的創新。
所以我實際上真的非常希望硅谷的創業圈能再次成為黑客(Hackers)的樂園。
Lenny:你們以一種非常反傳統的方式做了很多事情。其中之一就是不在 LinkedIn 上發那些病毒式的帖子,不在 Twitter 上不斷推銷 Surge。我想大多數人在最近之前甚至都沒聽說過 Surge,然后你們突然冒出來。
Edwin:我從來不想玩硅谷那套游戲。我一直覺得那很荒謬。
你小時候的夢想是什么?是從零開始建立一家公司,每天沉浸在代碼和產品中?還是向 VC 解釋你的所有決定,然后陷入這個巨大的公關和融資的循環當中?
這確實讓事情變得更困難了,因為當你融資時,你自然而然地成為這個硅谷工業綜合體的一部分,VC 會在推特上談論你,你會上 TechCrunch 的頭條,你會因為在這個巨大的估值下融資被所有報紙報道。
不走這個套路,也會讓事情變得更難,因為我們要想成功的唯一途徑就是建立一個好十倍的產品,依靠研究人員的口碑。但我認為這也意味著我們的客戶是那些真正理解數據并真正關心數據的人。
早期客戶與我們的理念高度一致非常重要,他們是真正關心高質量的數據,真正理解這些數據如何讓他們的 AI 模型變得更好的人。是他們在幫助我們,給我們反饋,所以彼此的關系非常緊密。這些人購買我們的產品,是因為他們知道它有多么不同,它能幫助他們,而不是因為他們在 TechCrunch 的頭條上看到了我們的產品。
Lenny:你們的創業故事非常了不起。不過對于那些不知道 Surge 是做什么的人,Edwin,你會怎么快速解釋自己?
Edwin:Surge 本質上是一家數據公司,在教 AI 模型什么是好的,什么是壞的,我們使用人類數據來訓練它們,有很多不同的產品,比如 SFT、RLHF評分、RL 環境等等。我們也衡量大模型的進步程度。
![]()
*Surge AI 的產品
Lenny:你一直強調數據的質量。那么,創造更高質量的數據到底需要什么?你們的做法有什么不同?
Edwin:我認為這個領域的大多數人根本沒懂什么是“質量”。他們以為只要靠“人海戰術”就能堆出好數據,這完全是大錯特錯。
舉個例子。假設你要訓練模型寫一首關于月亮的八行詩。什么是“高質量”?如果思考得不夠深,標準可能僅僅是:它是詩嗎?有八行嗎?包含“月亮”這個詞嗎?只要滿足這些硬性指標,就打鉤通過,認為這是好詩。
但這絕不是我們想要的。我們追求的是諾貝爾獎級別的作品。它獨特嗎?意象是否微妙?是否能讓你驚嘆并觸動心弦?能否讓人領悟月光的本質?能否引發情感共鳴和深思?
這才是我們眼中的高質量。它可能是一首描繪水上月光的俳句,講究內部押韻和格律。描寫月亮有一千種方式,每一種都應提供關于語言、意象和人類表達的獨特見解。
定義這種“質量”很難,衡量它更難。它是主觀、復雜且豐富的,門檻極高。因此,我們需要構建全套技術來量化它。我們會從每位數據標注專家、每個項目、每項任務中收集成千上萬個信號。
比如,我們能區分誰更擅長寫詩、散文還是技術文檔。我們不僅收集背景和專長,還追蹤實際寫作中的表現。利用這些信號,我們能判斷這個人是否適合特定項目,以及他們的工作是否真正提升了模型表現。
Lenny:很有意思。聽起來你們在特定垂直領域對“質量”有著更深刻的理解。這是否意味著你們的機制是:雇傭在詩歌等方面極具天賦的人,再輔以他們編寫的評估標準?
Edwin:我們的運作機制是這樣的:我們收集標注專家們在平臺上所有操作的成千上萬個信號——從擊鍵特征到答題速度。我們結合評論、黃金標準(Golden Standard),并訓練自己的模型來評估輸出,看他是否提升了最終模型的性能。
我們要找的不是只會寫高中水平詩歌的人,也不是機械地勾選要求、遵循指令的人,而是那些能寫出真正打動人心作品的人。
![]()
* Surge AI 的專家網絡
Lenny:難怪你們發展這么快,這個領域的市場空間太大,Anthropic 僅僅通過更好的數據就取得了巨大的勝利。AI 雖然看似是二進制的計算機產物,但“品味”和人類的判斷力依然是成功的關鍵因素。
Edwin:完全正確。回到剛才的例子,如果你問某些公司什么是好詩,他們只會機械地核對指令清單。但在我看來,那不叫好詩。那些更有品味和修養的前沿實驗室意識到,質量不能簡化為僵硬的復選框,他們會考量那些隱含的、微妙的特質,這正是他們脫穎而出的原因。
Lenny:你提到了Benchmarks。這是很多人擔心的問題,感覺現在每個模型在所有 STEM 領域都超越了人類,但普通用戶并不覺得它們變聰明了。你怎么看基準測試的可信度?它們與 AI 的實際進步有多大相關性?
Edwin:我完全不信基準測試,原因有二。
第一,很多人甚至包括社區內的研究人員,沒意識到基準測試本身往往就有問題。它們可能包含錯誤答案,或者充斥著混亂的數據。雖然大家對熱門榜單有所警惕,但絕大多數基準測試的缺陷都被忽視了。
第二,基準測試通常有明確的客觀答案,這讓模型很容易針對性地刷分。但這與現實世界的混亂和模糊性截然不同。
這就好比模型能拿國際數學奧林匹克金牌,卻解析不好一個 PDF 文件。雖然 IMO 金牌對人類很難,但它具有客觀標準,而解析 PDF 往往涉及模糊性。
對于前沿實驗室來說,在客觀標準上“刷分”比解決現實中混亂、模糊的問題要容易得多。所以,我認為基準測試分數與實際體驗之間缺乏直接的相關性。
Lenny:你把“達到基準測試分數”描述成一種營銷手段,這很有趣。推出 Gemini 3 時,就像是在說:“酷,我們在所有基準測試上都是第一名。” 事實真的是這樣嗎?他們只是在訓練模型去擅長這些特定的考試嗎?
Edwin:是的,原因通常有兩方面。
一方面,確實存在“作弊”嫌疑。有時是基準測試的數據意外泄露進了訓練集,或者前沿實驗室會專門調整評估方式,比如微調Prompt,或者多次運行模型取最佳值,以此來利用規則漏洞。
另一方面,當你針對基準測試而非現實世界進行優化時,你自然而然地就在這些測試上“刷分”了。這本質上就是另一種形式的游戲。
Lenny:既然如此,我們該如何判斷自己是否真在向 AGI邁進?你如何衡量真正的進步?
Edwin:我們真正看重的是“人類評估”。我們會讓真人去和模型對話。
舉個例子,如果你是一位諾貝爾物理學獎得主,你會和模型探討你研究領域的最前沿話題;如果你是一位老師,你會嘗試用模型制定教案;如果你是大廠程序員,你會用它解決日常代碼問題。我們看重的是它能在多大程度上真正幫助用戶。
我們的標注專家(Surgers)都是各自領域的頂尖人才。他們不僅僅給回應,還會深入地審查內容。他們會評估代碼是否運行,反復核查物理方程。他們關注的是準確性、指令遵循能力,以及那些普通用戶在簡單的“二選一”彈窗中注意不到的細節。
普通用戶可能只會憑感覺選一個看起來更“炫酷”的回答,但我們的專家會從多個維度進行深度評估。我認為這比那些基準測試或隨機的在線 A/B 測試要靠譜得多。
Lenny:我很喜歡這種“人類始終處于核心地位”的感覺。
Edwin:是的。根據定義,只要我們還沒達到 AGI,模型就還有東西需要向人類學習。所以我認為那個“不需要人類”的時刻不會很快到來。
Lenny:你有一個很犀利的觀點:你認為很多實驗室正把 AGI 推向錯誤的方向。這基于你在 Twitter、Google 和 Facebook 的工作經歷,能展開談談嗎?
Edwin:我擔心的是,我們本該建立能真正推動人類進步的 AI,比如治愈癌癥、解決貧困、理解宇宙,但我們現在卻在優化“AI 垃圾”。我們基本上是在教模型去追逐“多巴胺”,而不是追求“真理”。
這與我們剛才討論的基準測試有關。舉幾個例子:
現在的行業正被一些糟糕的排行榜左右,比如 LM Arena(大模型競技場)。這是一個流行的在線榜單,由世界各地的路人投票選出哪個 AI 回答更好。但問題在于,這些用戶不會仔細閱讀或核查事實。他們只瀏覽兩秒鐘,然后選那個看起來最“炫酷”的。
所以,一個模型可以完全在胡說八道,甚至產生幻覺,但只要它用了瘋狂的表情符號、加粗字體、Markdown 標題這些膚淺的裝飾,它看起來就很厲害,能以此抓住你的注意力。
LM Arena 的用戶吃這一套。這實際上是在迫使你優化模型,去迎合那些愛看“八卦小報”的人的口味。
我們在自己的數據中也證實了這一點:在 LM Arena 上“刷分”的最簡單方法就是濫用加粗字體、把表情符號數量翻倍、把回復長度拉長兩倍——哪怕模型在胡說八道。
問題在于,前沿實驗室不得不關注這些公關指標。當銷售團隊去談企業大單時,客戶會說:“哦,可是你們在 LM Arena 上只排第五,我為什么要買?”
這導致了一種扭曲的激勵。
研究人員告訴我們:“我今年想升職,唯一的途徑就是把榜單排名刷上去,哪怕我知道這會讓模型在準確性和指令遵循上變差。”所以我認為這些負面激勵正在把 AGI 引向歧途。
我也很擔心這種為了“參與度”(Engagement)而優化 AI 的趨勢。我在社交媒體公司工作過,每次我們針對參與度進行優化,結果都很糟糕:信息流里充斥著點擊誘餌、比基尼照片、大腳怪傳聞和可怕的皮膚病圖片。
我擔心同樣的邏輯正在 AI 領域重演。想想 ChatGPT那些令人作嘔的阿諛奉承吧——“哦,你絕對是正確的,多么棒的問題啊!”吸引用戶最簡單的方法,就是不斷吹捧他們。
現在的模型不斷告訴你“你是個天才”,它們會迎合你的妄想,甚至順著你的陰謀論說下去。它們會把你拉進信息的“兔子洞”里,因為硅谷的邏輯就是最大化用戶的停留時間,增加對話輪次。
所以,公司花費大量時間來“黑”這些排行榜和基準測試,分數確實上去了,但這掩蓋了一個事實:得分最高的模型往往是最差的,甚至是根本上失敗的。我真的非常擔心,這些負面激勵正在將 AGI 推向完全錯誤的方向。
Lenny:所以 AGI 的發展正在被這些實驗室拖慢,因為他們關注了錯誤的目標函數、錯誤的基準測試和評估指標。
Edwin:沒錯,正是如此。
Lenny:我知道你可能不便偏袒誰,畢竟你們和所有實驗室都有合作。但有沒有哪家做得更好,或者可能意識到了這是錯誤的方向?
Edwin:我必須說,我對 Anthropic 印象非常深刻。我覺得 Anthropic 采取了一種非常有原則的立場。關于他們關心什么、不關心什么,以及希望模型如何表現,他們的方式讓我感覺更有原則性。
Lenny:除了追逐基準測試和過度關注參與度之外,你還看到實驗室在犯哪些可能拖慢進度或導致方向錯誤的大錯誤嗎?
Edwin:我覺得確實存在一個問題:他們究竟在構建什么產品?這些產品本身是對人類有益還是有害?我經常思考 Sora,以及它會帶來什么后果。
我們可以觀察哪些公司會開發像 Sora 這樣的產品,哪些不會。這也許揭示了這些公司到底想建立什么樣的 AI 模型,以及他們想要實現什么樣的未來。
Lenny:這里的“最強反駁”(Steel man argument)可能是:“嘿,這很有趣,人們喜歡它。它能產生收入來支持研發,建立更好的模型。而且它以一種有趣的方式訓練數據,這也是有價值的……”
Edwin:是的,如果你完全不在乎路徑,只在乎結果,那確實可以這么說。就像我之前那個小報的比喻:你會為了資助一家正經報社而去賣八卦小報嗎?
當然,如果你不在乎手段,只要能達成目標就行。但如果在這個過程中產生了負面后果,損害了你想實現的長期愿景,或者讓你從更重要的事情上分心,那就得不償失了。所以,我認為你選擇的路徑同樣重要。
Lenny:你身處硅谷提到如果不走拿投資這條路,其實可能更容易建立偉大的公司。
Edwin:是的,我一直很討厭硅谷的很多陳詞濫調。
標準的劇本是:每兩周轉型(Pivot)一次尋找產品市場契合度;追逐增長、追逐參與度,使用各種“黑暗模式”;通過瘋狂招聘來進行閃電式擴張。但我一直反對這些。
我的建議是:不要隨意轉型,不要盲目擴張,不要只為了簡歷好看就雇傭斯坦福畢業生。只去建立那個只有你能建立的東西,那個離了你的獨特洞察和專業知識就不復存在的東西。
你現在到處都能看到這種“照本宣科”的公司。有些創始人在 2020 年做加密貨幣,2022 年轉做 NFT,現在搖身一變又成了 AI 公司。這里沒有連貫性,沒有使命感,他們只是在追逐估值。
我一直很討厭這點。硅谷喜歡嘲笑華爾街只認錢,但老實說,大多數硅谷人也在追逐同樣的東西。
所以我們從第一天起就專注于我們的使命:推動高質量、復雜數據的前沿。
我一直對此很執著,因為我對初創公司有一種浪漫的理想。創業應該是關于承擔巨大風險去建立你真正相信的東西。如果你不斷轉型,你其實不是在承擔風險,你只是想賺快錢。
如果你因為市場還沒準備好而失敗,我覺得這甚至更好。至少你嘗試了一些深刻、新穎和困難的事情,而不是淪為另一家“大模型套殼”公司。
硅谷現在業有很多人厭倦了這些投機取巧,他們想和真正在乎的人一起做真正重要的事情。
Lenny:我正在和 Terence Rohan(一位我很喜歡的 VC)合寫一篇文章。我們采訪了五位在那些代際公司早期加入的員工——比如在 OpenAI 還沒紅之前加入,在 Stripe 還沒出名之前加入。我們在尋找一種模式:這些人是如何先于其他人發現這些偉大公司的?
你的描述與我們的發現完全一致,那就是野心。他們擁有想要實現的狂野野心,而不只是像你說的,四處張望尋找所謂的“產品市場契合度”。
Edwin:對,絕對是這樣。
你必須擁有巨大的野心,必須堅信你的想法能改變世界,并且愿意加倍下注,不惜一切代價去實現它。
關于AGI:選正確的目標函數并為它做優化
Lenny:稍微換個話題。Richard Sutton 提出了“苦澀的教訓”(The Bitter Lesson)。他在一次對話中提到,大語言模型幾乎是一條死胡同,認為我們會在 LLM 上停滯不前,因為那是它們學習的局限。你怎么看?你認為 LLM 能帶我們通向 AGI 甚至更遠嗎?還是你認為需要有新的東西或重大突破才能到達那里嗎?
Edwin:我屬于后者,我確實相信需要一些新東西。
我的思考方式或許更偏“生物學”。我相信,就像人類有一百萬種不同的學習方式一樣,我們需要建立能夠模仿所有這些方式的模型。
也許分布會有所不同,因為人類的側重點不同,但我們希望能夠模仿人類的學習能力,確保有算法和數據讓模型以同樣的方式學習。
僅就 LLM 這種單一的學習方式而言,我認為要想復刻人類多樣的學習能力,還需要新的突破。
Lenny:這與強化學習密切相關,也是你非常熱衷的領域。在“后訓練”階段,強化學習似乎正變得越來越重要。能否給大家解釋一下什么是強化學習和“強化學習環境”?為什么它們在未來會如此關鍵?
Edwin:簡單來說,強化學習就是訓練模型去達成某種獎勵目標。讓我解釋一下什么是“RL 環境”。
RL 環境本質上是對現實世界的模擬。你可以把它想象成構建一個細節豐滿的視頻游戲宇宙,每個角色都有背景故事,每個企業都有可調用的工具和數據,各種實體在其中相互作用。
例如,我們可能會構建一個初創公司的虛擬世界,里面有真實的 Gmail 郵件、Slack 對話線程、Jira 工單、GitHub 的 PR 請求,甚至還有完整的代碼庫。
然后,突發狀況發生了:AWS 掛了,Slack 也崩了。這時候,模型該怎么做?它需要自己想辦法解決。我們會給模型在這個環境中布置任務,設計挑戰,觀察它的表現。根據它做得好壞,我們會給予相應的獎勵或懲罰。
有趣的是,這些環境揭示了一個事實:模型在處理現實世界的端到端任務時,表現往往很弱。
雖然它們在孤立的基準測試上看起來很聰明,比如擅長單步調用工具、遵循簡單指令,但一旦被扔進這些混亂的模擬世界,面對令人困惑的 Slack 消息、陌生的工具,需要執行一系列正確的操作、修改數據庫,并在長達 50 步的交互中保持邏輯連貫時,它們就會以各種離譜的方式崩潰。
這與它們之前所處的那些學術性的、單步任務環境截然不同。我認為這些 RL 環境將成為模型進化的真正游樂場。因為這是對現實世界的模擬,相比那些人為設計的簡單環境,模型有望在這里學會處理真正的任務。
Lenny:我試圖想象這個場景:本質上它就像一個虛擬機,里面有瀏覽器、電子表格,或者網頁,如果你是 Agent,你的工作就是確保網站在線。 突然網站掛了,目標函數就是“找出原因”。是這個意思嗎?
Edwin:對,目標函數可能是“找出原因并修復它”。具體來說,可能是通過一系列單元測試,或者是寫一份復盤文檔,內容必須準確描述發生的事情。我們會根據它的完成情況給予獎勵。這就是我們教導模型去實現目標的方式。
就像以前有過 SFT 和 RLHF,后來有了評分標準(Rubrics)和驗證器(Verifiers)。RL 是下一個階段,并不是說舊方法過時了,而是這是一種新的學習形式,補充了模型需要掌握的新技能。
Lenny:所以在這種情況下,不再是物理學博士坐在那兒跟模型對話、糾正它、寫評分標準,而是現在的專家在設計這個 RL 環境。
這讓我想起另一個例子,比如金融分析師。以前可能是寫評估標準,現在則是:“這是 Excel 表格,你的目標是算出我們的損益表。” 專家變成了環境的設計者。
Edwin:完全正確。那位金融分析師可能會創建一個電子表格,并設計模型需要調用的工具來輔助填表。
比如,模型可能需要訪問彭博終端,它得學會如何使用;它需要用計算器,得學會怎么算。它擁有這些工具的使用權。然后獎勵機制可能是:會下載那個表格,檢查 B22 單元格里的損益數字對不對,或者第二個標簽頁的信息是否準確。
Lenny:有趣的是,這最終變得越來越像人類的學習方式。這也說得通,畢竟神經網絡、深度學習本身就是在模仿人類大腦的運作,讓它們變聰明就是讓它們的學習方式越來越接近人類。
Edwin:是的。也許最終目標就是把你扔進環境里,看你如何進化。但在這個進化過程中,包含了很多不同的子學習機制。
Lenny:這也是我們在 RL 環境中做的事情。你提到設計這些環境時,“軌跡”(Trajectories)非常重要,不僅僅是關注“這是目標,這是終點”,而是過程中的每一步。能談談什么是軌跡,以及為什么它這么重要嗎?
Edwin:人們往往忽略一點:有時即使模型得出了正確答案,它的過程也可能是完全錯誤的。
它可能有各種中間軌跡——也許它嘗試了 50 次都失敗了,最后只是隨機蒙對了數字;或者它用了一種極低效的方式;甚至它可能是在 Reward-hack 來騙取獎勵。
所以關注軌跡非常重要。而且有些軌跡可能非常長。如果你只檢查最終答案,就會丟失大量關于模型中間思考過程的信息。比如,有時你希望模型通過反思來得出答案,有時你希望它能一次搞定。如果你忽略了這些過程,就等于錯失了教導模型正確思考的機會。
Lenny:從“后訓練”(Post-training)開始回顧,你認為模型進步最大的幾個關鍵節點是什么?比如 Evals(評估)處于什么位置?RL 環境又處于什么位置?這僅僅是目前的最新進展嗎?
Edwin:最初,模型進行后訓練的方式純粹是依賴SFT監督微調。我又得用人類做類比了:SFT 就像是徒弟模仿大師,照著葫蘆畫瓢。后來,RLHF成了主流。這好比你寫了 5 篇文章,有人告訴你哪篇寫得最好。而最近,評分標準(Rubrics)和驗證器(Verifiers)變得非常重要。這就不僅僅是打分了,而是獲得詳細的反饋,告訴你具體哪里做錯了,以此來學習。
Lenny:這些其實就是評估(Evals),換了個說法而已。
Edwin:對。我認為“評估”通常包含兩層含義。一種用于訓練:你評估模型做得好不好,做好了就給獎勵。另一種用于衡量進展:比如我有 5 個候選模型版本,想挑最好的發布。我就需要在這 5 個版本上運行所有評估測試,來決定哪個勝出。現在,RL 環境成了新的熱點。
Lenny:懂了。這就像是一場商業模式的進化之旅,總有新東西出現。一開始大家說“好吧,這個我們已經玩得很溜了,但這只是入場券”。現在我們需要全新的東西,比如建立虛擬機和各種不同的用例。
Edwin:沒錯。就像過去有不同的學習方式一樣,新方法的出現并不意味著舊方法過時了。它是另一種形式的學習,補充了之前的手段。這是模型需要掌握的新技能。
Lenny:除了這些,你還聽到了什么新趨勢嗎?比如,“搞定這個之后,下一個大事件是什么?”
Edwin:我覺得確實存在一個核心問題:他們究竟在構建什么產品?這些產品本身對人類是有益還是有害的?比如我經常思考 Sora,以及它會帶來什么。觀察哪些公司會去建立 Sora,哪些不會,這本身就很有意思。
Lenny:我們已經聊了很多領域。在結束前,關于硅谷、融資或 AI,你還有什么想分享的嗎?
Edwin:我想用這個來結束:我骨子里是個科學家。我一直以為我會成為一名數學或計算機教授,去致力于理解宇宙、語言和交流的本質。我曾有個瘋狂的夢想:如果外星人造訪地球,人類需要破譯溝通方式,我希望成為被政府召集的那個人,用數學、計算機和語言學來破解難題。
即使在今天,我最喜歡做的事依然是每當新模型發布時,深入研究它。我會去搗鼓它,運行評估,對比它的進步和退步,然后給客戶寫一份深度分析。大家常以為那是數據科學團隊做的,但其實就是我寫的。
我可以整天做這個,但開一整天會很難受。我不擅長銷售,也不擅長做人們期望 CEO 做的那種典型工作。我喜歡寫分析,喜歡和研究團隊探討發現。有時我會和團隊打電話聊到凌晨三點,討論如何調整模型。我很高興自己還沒脫離數據和科學的一線。
這也正是我想讓 Surge 在 AI 未來中扮演的角色。我們擁有關于數據、語言和質量的獨特視角,知道如何衡量它們,并確保一切在正確的軌道上。
相比典型初創公司,Surge 更像是一個研究實驗室。我們受到的負面干擾很少,關注好奇心、長期價值和嚴謹性,而不是季度財報或董事會 PPT 上好不好看。
我的目標是利用這種獨特性,確保我們塑造 AI 的方式長期對人類這個物種真正有益。
Lenny:我現在意識到,像你們這樣的公司對 AI 的走向有著巨大的影響力。大家通常盯著 OpenAI、Anthropic 這些公司,以為只有他們在定義 AI,但實際上在幫助實驗室發現差距、指引方向上,你們的影響力巨大。順著這個話題,我知道你對于“這對人類為什么重要”有很強的想法,能談談嗎?
Edwin:這可能會有點哲學,請耐心聽我說。
最直接的層面是:我們訓練和評估 AI。但更深層的使命是幫助客戶思考他們夢想中的“目標函數”。也就是,你到底希望你的模型成為什么樣?
一旦確定了目標,我們會幫助訓練模型去接近那顆“北極星”,并幫助衡量它。但這很難,因為目標函數通常極其豐富且復雜。
打個比方,這就好比問一個孩子:“你想通過什么測試?”簡單的版本是:通過高中考試,或者 SAT 考高分,寫篇漂亮的論文。
但復雜的版本是:“你想成長為什么樣的人?” 你希望無論做什么都快樂嗎?還是只想去名校、在經濟上成功?
如果你選前者,你怎么衡量“快樂”?怎么衡量“經濟成功”?這比衡量 SAT 分數難多了。而我們正在做的,就是幫助客戶找到并衡量他們夢想中的“北極星”。
回到剛才的例子,如果你讓模型寫 50 封郵件,是僅僅讓它機械地寫完,還是希望它能意識到“不,寫到這里已經足夠完美了,去忙別的吧”?
更宏大的問題是:我們是否在構建真正能讓人類進步的系統?
所以,選擇正確的目標函數,并確保我們是在為此優化,而不是為了那些簡單的替代指標優化,這對我們的未來至關重要。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.