<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不融資、不燒錢、不擴團隊,華裔 CEO 創辦的AI獨角獸打入谷歌、Anthropic核心供應鏈!如今營收近百億

      0
      分享至


      編輯 | 冬梅

      在 Meta 豪擲 143 億美元入股競爭對手 Scale AI 時,這家由谷歌前工程師創立、員工僅為對手十分之一的公司,已悄然實現了年營收超 10 億美元的業績,且從未接受外部投資。


      AI 競技場上,聚光燈總在追逐著 OpenAI、Google 等發布下一個萬億參數模型的明星。而決定模型“思維”與“品格”的訓練數據,則像被遺忘的地基。

      硅谷正上演一幕對比鮮明的戲劇:一邊是 Meta 豪擲 143 億美元收購數據標注公司 Scale AI 近半股份,使其創始人亞歷山大·王成為硅谷紅人。

      另一邊,是其低調的對手 Surge AI:成立近五年沒有任何融資、過去兩年幾乎不發新聞稿、員工僅為對手十分之一,卻悄悄實現了超過 10 億美元的營收,在財務上已超越獲得巨資的 Scale AI。

      這次故事的主角輪到了 Edwin Chen。

      Surge AI 的創始人兼 CEO Edwin Chen 是一位美籍華裔,曾在 Massachusetts Institute of Technology(MIT)學習數學與語言學。畢業后,Edwin 踏入職場 —— 他曾在包括 Google、 Meta Platforms(前身 Facebook)以及 Twitter 等科技公司工作,負責機器學習、人類計算與內容審核等項目。通過這些經歷,他親眼見到一個嚴峻問題:即便是資源雄厚的大廠,在把海量原始數據轉化為高質量、“適合用于訓練 AI 模型”的數據時,也常因標注粗糙、質量參差不齊而失敗。

      有一次,他參與的一個項目需要人工標注五萬條信息流,然而外包結果令他震驚——俚語、梗圖、社交語境、歧義表達……這些“低級錯誤”層出不窮,使得輸出數據幾乎無法用于高質量模型訓練。正是這個經歷,讓 Edwin 意識到:整個行業,哪怕是頂級公司,也嚴重低估了“數據質量”對未來 AI 的關鍵性。

      于是,在 2020 年,他做出了一個大膽決定:離開舒適安穩的工作,創立一家專注“高質量、高復雜度、人類標注 + AI 訓練基礎設施”的公司。Surge AI 由此誕生。

      為了保證數據質量,Surge AI 構建了一套復雜的技術和篩選體系。

      公司組建了一個名為“Surge Force”的精英標注員網絡,準入門檻極高。申請者除了需要過硬的專業背景,還需提交 5 道試寫題目,經另一名資深標注員審核通過后才可加入。

      該網絡不僅包括來自全球的專業人士,甚至聘請了斯坦福、普林斯頓和哈佛的教授來參與訓練 AI,旨在將人類的專業知識、創造力和價值觀編碼進數據。

      更重要的是,Surge AI 開發了先進的人機協同系統和算法來保障質量。系統精細追蹤每一位標注者的數千個行為信號,并用機器學習反向分析,以檢測和對抗低質量標注行為。

      他們發現,即使是麻省理工學院的畢業生也可能試圖用各種方式“欺騙”系統。因此,單純依賴“聰明人”無法保證質量,必須依靠技術體系。

      這樣可靠的數據支持,為 Surge AI 贏得了最頂尖的客戶群和極高的議價能力。

      公司的客戶名單幾乎囊括了所有 AI 巨頭:OpenAI、Anthropic、谷歌、微軟、Meta。僅 Meta 的生成式 AI 部門,2024 年在 Surge AI 的服務上支出就超過 1.5 億美元。

      憑借扎實的技術和高門檻的服務,Surge AI 在成立第一年就實現了盈利。


      在這樣一家幾乎以不可能速度增長的公司背后,人們最好奇的往往不是商業數字本身,而是推動這一切的第一性原理:Surge 是如何構建出業內最可靠的數據質量體系?為什么 Edwin 堅持在沒有外部資本加持的前提下,將公司推向十億美元規模?在模型能力指數級攀升的當下,數據、評價與訓練環境究竟扮演著怎樣的戰略角色?

      近日,Edwin 做客《Lenny's Podcast》,與 Lenny 展開了一場深入的對話。在對話中,Edwin 以他一貫的清晰邏輯和務實風格,講述了 Surge 的起點、它如何服務未來的 AI 基礎設施,以及為何數據公司有機會成為下一個時代真正的“基礎設施級企業”。

      以下內容為 InfoQ 翻譯整理,經編輯:


      成立四年 0 融資,

      如今營收破 10 億美元

      Lenny:我想先從你們的成績有多“夸張”說起。很多人、很多公司都在談論——借助 AI,通過極少的人手把業務規模做到巨大。而你們是第一次真正把這件事做到如此“前無古人”的程度。你們在不到 4 年時間里做到 10 億美元營收,員工也就 60~70 人的樣子,而且完全沒有融資、沒有 VC。我相信沒人做到過這一點。你們真正實現了外界口中“AI 時代企業的夢想”。我很好奇:你覺得未來是否會出現越來越多這種情況?另外,AI 在哪里最幫你們實現了這種杠桿效應?

      Edwin:我們去年營收超過 10 億美元時,公司還不到 100 人。我認為未來幾年會出現更極端的公司,例如“每位員工貢獻 1 億美元營收”這種情況一定會發生。AI 會越來越強、越來越高效,這個比例是不可避免的。

      我以前在多家大型科技公司工作時就感覺,其實裁掉 90% 的人,公司反而會更快,因為真正厲害的人經常被各種無關事務拖累。我們創辦 Surge 時,就決定完全用不一樣的方式做公司——一個極小、極精英的團隊。最瘋狂的是,我們真的做到了。

      我覺得現在有兩個趨勢正在碰撞:大家開始意識到,企業并不需要龐大組織來成功。此外,AI 帶來的效率會徹底改變公司構建方式。 最讓我興奮的是:未來公司不僅變“更小”,類型也會變得“根本不同”。團隊越小,需要的資本越少也就意味著不需要融資。

      沒有融資,就不需要靠能講故事、善于 pitch 的創始人,而是給真正懂技術、懂產品的人更多機會。

      產品也會從過去那種“為了營收、為了 VC 喜好”設計,轉向真正有意思、由一群癡迷的小團隊打造的東西。大家會去做自己真正關心的東西,做真正的技術創新。我真心希望硅谷能回到“黑客創造時代”。

      Lenny:你們做了很多“反傳統”的事情,比如幾乎沒人看到你們在 LinkedIn、Twitter 上宣傳。很多人甚至直到最近才知道 Surge,然后你們就突然宣布營收 10 億、增長最快的公司。為什么要這么做?我猜這是很刻意的選擇?

      Edwin:我們從一開始就不想玩硅谷那套游戲。想想看:你小時候夢想做什么?是為了每天寫代碼、做產品,還是為了向 VC 解釋你的每一個決策、跳上公關與融資的“倉鼠輪”?不融資確實讓一切更難,因為只要你融資了,你自然會被納入硅谷產業鏈:VC 會幫你發推文,媒體會報道你,他們會因為你的估值寫文章。

      我們沒做這些,所以我們唯一能成功的方式,就是打造比別人好 10 倍的產品,讓最懂數據的研究者通過口碑發現我們。

      雖然這么做并不容易,但這也帶來好處:我們的早期客戶是那些真正理解數據質量、真正關心 AI 模型效果的人。他們會給我們最有價值的反饋,和我們在同一使命上。所以雖然更難,但這是“對的困難”。

      Surge AI 到底做什么?

      Lenny:為了不太了解 Surge 的聽眾,你能快速解釋一下你們是做什么的嗎?

      Edwin:我們本質上是在“教 AI 模型什么是好、什么是壞”。我們用真人數據訓練模型 —— 包括 SFT、RHF、Rubrics、Verifiers、R 環境等等各種系統。我們也測量模型在訓練后進步了多少。所以,我們是一家“數據公司”。

      Lenny:你們成功的最大原因之一,是數據質量遠高于別人。但什么叫更高質量的數據?你們到底做了哪些不一樣的事情?大多數人忽略了什么?

      Edwin:很多人甚至不知道“質量”是什么意思。他們以為多找點人干活就能得到好數據,這是完全錯誤的。舉個例子:假設你要訓練模型寫一首關于“月亮”的詩。低質量的理解方式是:是不是詩?有沒有 8 行?有沒有“月亮”這個詞?符合這些勾選項,他們就說“合格”。

      但我們想要的,是“諾貝爾文學獎級別”的詩。我們要的是:是否獨特?意象是否細膩?是否能觸動情感、引發思考?是否教會你關于月光的新東西?這種“質量”高度主觀、復雜,難以衡量,需要大量技術來測量。

      我們必須收集數千個信號:每個標注者的背景與擅長領域、他們寫詩 vs 寫論文 vs 寫技術文檔的表現、鍵盤輸入節奏、回答速度、其他人對他們內容的評價、模型在使用他們的數據后是否變得更好。

      就像 Google 搜索:第一層:把最差的內容過濾掉;第二層:找到最好的內容;Surge 做的是第二層,也是最難的一層。

      Lenny:聽起來你們做的不是簡單的標注,而是深入理解每個垂直領域中的“好是什么”。這是通過雇傭專家嗎?還是靠你們定義的評估體系?具體怎么運作?

      Edwin:我們會收集你在平臺上所有行為的“上千個信號”,例如:鍵盤輸入、回答速度、代碼規范、同行評價,我們訓練的模型對你產出的內容的判斷,然后我們會判斷你是否真正能提升模型性能。

      就像 Google 用各種信號決定一個網頁是否優秀一樣,我們也用信號決定哪些標注者是“最好的”,哪些項目適合哪些人,哪些內容能夠真正提升模型能力,最終它其實是一個復雜的機器學習問題。

      為什么 Claude 的

      代碼能力領先那么久?

      Lenny:過去幾年我一直很好奇一件事:Claude 在寫代碼與寫作上長期領先其他模型,而經濟價值又這么大,但其他公司花了非常久才追上來。所有 AI 編碼產品都建立在 Claude 上,因為它實在太強了。為什么 Claude 這么強?只是數據質量好嗎?

      Edwin:數據當然是非常重要的因素,但還有其他部分。一個模型的數據選擇是無限維度的,比如:人類數據 vs 合成數據的比例,在代碼領域,是更重視前端還是后端?是重視前端的視覺設計,還是代碼效率?要不要為了 PR 去優化那些學術基準?目標函數到底是什么?最關鍵的是:

      后訓練是一門“藝術”,不是純科學。

      不同團隊“品味”不同,導致有的模型寫出的 UI 更簡潔,有的模型邏輯性更強,有的模型更偏向于“工程師口味”。這種“品味”影響你要的數據類型,最終影響模型能力。Anthropic 靠“更好的數據”獲得巨大增長是事實。

      Lenny:現在所有模型發布都會說“我們在各大基準上超過人類、排名第一”,但普通人感覺模型并沒有那么大突破。你怎么看基準測試?它們和真實 AI 進步的相關性如何?

      Edwin:坦白說,我完全不相信這些基準。理由有兩個:第一,基準本身經常是錯誤的,它里面有錯誤答案,題目混亂且結構不嚴謹,即便研究人員自己也沒意識到問題有多大。

      第二,基準太“客觀”,太容易被模型刷分。模型能拿到 IMO(國際數學奧林匹克)金牌,但仍然無法穩定解析 PDF。為什么?因為 IMO 題目是“客觀答案”,而解析 PDF 是混亂的真實世界問題,所以模型“爬分”很容易,但解決真實世界問題很難。

      Lenny:聽起來這些基準更多是營銷工具。比如 Gemini 3 發布時就會說:“我們在所有基準中第一!”是不是因為公司會刻意訓練模型去刷這些題?

      Edwin:是的,情況可以分為兩種:一種是有些基準會意外泄露,另一種是實驗室會調整系統提示詞、運行次數等方式,優化到更高分。

      Lenny:我們換個稍微不同的方向,聊聊另一個可能有些反主流敘事的觀點。我猜你看過《Lex Fridman Podcast》采訪 Richard Sutton 的那期節目吧?即使沒看過,他們基本上聊了這樣一個話題:Richard Sutton,那位著名的人工智能研究員,提出了著名的“苦澀的教訓”這個梗。他談到語言模型幾乎像是一條死胡同,他認為由于它們的學習方式,我們會在語言模型上真正遇到瓶頸。你怎么看?你認為語言模型會把我們帶到通用人工智能(AGI)甚至更遠嗎?還是認為我們需要一些新的東西或重大突破才能到達那里?

      Edwin:我屬于相信需要新東西的那一陣營。我是這么想的:當我思考訓練時,我持一種——不知道是否該說是生物學觀點——但我相信,正如人類有無數種不同的學習方式一樣,我們也需要構建能夠模仿所有這些方式的模型。

      也許它們各自關注的重點分布會不同,我知道對你來說也會不同。但我們希望能夠模仿人類的學習能力,并確保我們擁有相應的算法和數據,讓模型能以同樣的方式學習。所以,就語言模型與人類學習方式不同這一點而言,我認為需要一些新的東西。

      強化學習為什么越來越重要?

      Lenny:這聯系到了強化學習。這是你非常看重的領域,而且我聽到越來越多的聲音說,它在模型訓練后階段正變得越來越重要。你能幫大家理解一下什么是強化學習以及強化學習環境嗎?為什么它們在未來會越來越重要?

      Edwin:強化學習本質上是訓練你的模型以達到某個特定的獎勵。讓我解釋一下什么是強化學習環境。強化學習環境本質上是對現實世界的模擬。可以把它想象成構建一個擁有完整宇宙的視頻游戲。每個角色都有真實的故事。每家企業都有你可以調用的工具和數據。所有這些不同的實體相互交互。

      例如,我們可能構建這樣一個世界:你有一家初創公司,里面有 G 郵件、Slack 線程、Jira 工單、Git PR 和整個代碼庫,然后突然 AWS 宕機了,Slack 也掛了。那么,模型,你該怎么辦?模型需要想辦法解決。所以,我們在這些環境中給模型分配任務。

      我們為它們設計有趣的挑戰,然后運行它們看其表現如何,接著教導它們。當它們做得好或不好時,我們給予獎勵。我認為有趣的一點是,這些環境真正展示了模型在現實世界端到端任務中的薄弱環節。有很多模型在孤立的基準測試中看起來非常聰明,比如它們擅長單步工具調用,擅長單步指令遵循。

      但突然之間,你把它們丟進這些混亂的世界里:有令人困惑的 Slack 消息、它們從未見過的工具,它們需要執行正確的操作、修改數據庫,并在更長的時間跨度內進行交互——它們在第一步的行為會影響第 50 步的決策。這與它們之前所處的那些學術性的單步環境非常非常不同,所以模型會以各種災難性的方式失敗。因此,我認為這些強化學習環境將成為模型學習的非常有趣的“游樂場”,它們本質上是現實世界的模擬和模仿,所以希望相比這些人為設計的環境,模型在真實任務上能表現得越來越好。

      Lenny:我在試著想象這具體是什么樣子。本質上,它就像一個虛擬機,里面可能有瀏覽器或電子表格之類的東西,比如說 surge.com……那是你們的網站嗎?我們確認一下,是 surge.com 嗎?

      Edwin:我們實際上是 surgehq.ai。

      Lenny:好的。那么,假設這是 surgehq.ai。你的工作,作為一個智能體,是確保網站正常運行,然后突然它宕機了。目標函數是……找出原因。是這樣嗎?

      Edwin:是的。所以目標函數可能是……或者說任務的目標可能是:去弄清楚原因并修復它。因此,目標函數可能是通過一系列單元測試,也可能是撰寫一份文檔——比如一份復盤報告,其中包含與實際情況完全吻合的特定信息。我們可能會給它各種各樣的不同獎勵,以確定它是否成功。所以,我們基本上是在教導模型去達成那個獎勵。

      本質上,這就像讓它放手去干:“這是你的目標,找出網站宕機的原因并修復它。”然后它就開始利用它所有的智能嘗試各種事情。它會犯錯,你在過程中幫助它,如果它做對了方向就給予獎勵。

      Lenny:那么你所描述的,這就是模型變得更智能的下一階段。更多的強化學習環境專注于……我猜是經濟價值很高的特定任務?

      Edwin:是的,沒錯。就像過去模型學習有各種不同的方法一樣——最初我們有 SFT(監督微調)和 RLHF(基于人類反饋的強化學習),然后有了評估標準和驗證器——這是下一個階段。而且,并不是說以前的方法過時了。這只是另一種學習形式,是對之前所有類型的補充。就像模型學習的一種不同技能。

      在這種情況下,它不再是某個物理學博士坐著跟模型對話、糾正它、給它評估“正確答案是什么”、創建評估標準等等。更多的是這個人現在在設計一個環境

      Lenny:我聽到的另一個例子是,就像一個財務分析師:“這是一個 Excel 電子表格,你的目標是弄清楚我們的利潤和虧損情況。”那么現在,這位專家不再是坐著寫評估標準,而是在設計這個強化學習環境。

      Edwin:對,正是如此。所以那個財務分析師可能會創建一個電子表格。他們可能會創建一些模型需要調用的工具來幫助填寫表格。比如,模型可能需要訪問彭博終端,它需要學習如何使用它,需要學習如何使用這個計算器,還需要學習如何進行這個計算。所以它有所有這些可以訪問的工具。然后獎勵可能是:“好的,也許我會下載那個電子表格,我想看看 B22 單元格是否包含正確的利潤虧損數字”,或者“第二個標簽頁是否包含這條信息”。有趣的是,這更接近人類的學習方式:我們只是嘗試各種東西,弄明白什么行得通,什么行不通。

      Lenny:你提到在這個過程中“軌跡”非常重要。不僅僅是“這是目標,這是終點”,而是過程中的每一步。你能談談什么是“軌跡”,以及為什么它對此很重要嗎?

      Edwin:我認為人們沒有意識到的一點是,有時即使模型得到了正確答案,它也是以各種瘋狂的方式達成的。在中間過程中,它可能嘗試了 50 次都失敗了,但最終只是碰巧隨機地得到了一個正確的數字。或者,有時它的做法非常低效,或者它幾乎是“獎勵破解”式地找到了正確答案。所以我認為關注軌跡實際上非常重要。

      同時,也因為其中一些軌跡可能非常長。如果你只檢查模型是否得到了最終答案,那么就缺失了關于模型在中間步驟如何行為的大量信息。有時你希望模型通過反思其行為來得到正確答案,有時你希望它能一次性直接得到正確答案。如果你忽略所有這些,就像是在教導它時缺失了大量本可以教授的信息。

      Lenny:我喜歡這個說法。它嘗試了一大堆東西最終才做對,你肯定不希望它學會“這就是達到目標的方法”,因為往往有更高效的方法。你提到了在幫助模型變得更智能的旅程中我們所采取的種種步驟。由于你如此近距離地接觸這件事這么久,我認為這對大家會很有幫助。從最早的后訓練開始,哪些步驟最有助于模型的進步?比如評估(eval)如何融入其中?強化學習環境又是怎樣的?有哪些步驟?現在我們正朝著強化學習環境前進。

      Edwin:最初,模型開始進行后訓練的方式純粹是通過 SFT。SFT 代表什么?SFT 代表監督微調。這很像……我經常用人類學習來類比。SFT 很像模仿大師并復制他們的行為。然后 RLHF 變得非常主流,那個類比就像是:有時你通過寫 55 篇不同的文章來學習,然后有人告訴你他們最喜歡哪一篇。過去一年左右,評估標準和驗證器變得非常重要,它們就像是“通過被評分來學習”,得到關于你哪里出錯的詳細反饋。“評估”(eval)是另一個說法。

      我認為“評估”通常涵蓋兩個層面。一是你使用評估來進行訓練,因為你是在評估模型是否做得好,當它做得好時你就獎勵它。另一個概念是,你在試圖衡量模型的進展,比如:“我有五個不同的候選模型檢查點,我想選出最好的一個發布給公眾。”所以對這五個不同的檢查點進行所有這些評估,以決定哪一個最好。

      Lenny:我們有了強化學習環境。這算是當前的新熱點。對吧?

      Edwin:是的,現在我們有強化學習環境了。它有點像現在的新熱門事物。我認為我們需要構建一套產品,來反映人類學習的無數種不同方式。舉個例子,想想如何成為一名偉大的作家。你不是通過死記硬背一堆語法規則而變得偉大的。你是通過閱讀偉大的書籍、練習寫作、從老師和書店買你書并留下評論的人那里獲得反饋而變得偉大的。

      你注意到什么有效,什么無效。你通過接觸所有這些杰作以及糟糕的作品來培養品味。所以,你是通過這種無盡的實踐和反思循環來學習的。你擁有的每一種學習類型——這些對于成為偉大作家來說,都是非常不同的學習方法。同樣地,正如偉大作家可以通過一千種不同的方式變得偉大,我認為模型也需要通過一千種不同的方式學習。

      這就像最終目標就是把你扔進環境里,看你怎么演化。但在那種演化中,有所有這些不同的子學習機制。

      “我關心的不僅僅是公司營收”

      Lenny:這正是我們現在在做的事情。所以這真的很有趣。這可能是我們達到 AGI 之前的最后一步。沿著這個思路,Surge 有一點非常獨特,我了解到你們有自己的研究團隊,我認為這相當罕見。談談為什么你們要在這方面投資,以及這項投資帶來了什么?

      Edwin:是的,我認為這源于我自己的背景。我自己的背景就是一名研究員,所以我從根本上一直關心的是推動行業和研究社區的發展,而不僅僅是收入。

      我認為研究團隊的作用有幾個方面。我們公司幾乎有兩種類型的研究員:一種是“前沿部署研究員”,他們通常與我們的客戶密切合作,幫助他們理解自己的模型。我們會與客戶非常緊密地合作,幫助他們理解:“這是你的模型目前的水平。這是你落后于所有競爭對手的地方。根據你的目標,這些是未來可能改進的方向。”

      然后我們會設計這些數據集、這些評估方法、這些訓練技術來讓他們的模型變得更好。這是一種非常協作的概念,與我們的客戶——他們自己也是研究員,只是更側重于數據方面——攜手合作,竭盡全力讓他們成為最好的。

      另一種就是我們還有內部研究員。他們專注于稍微不同的領域。他們專注于構建更好的基準測試和排行榜。我談了很多關于我擔心當今的排行榜和基準測試正在將模型引向錯誤方向的問題。所以,問題是我們如何解決這個問題?這正是我們的研究團隊目前非常非常專注的領域。

      他們在這方面投入了大量精力。他們也在研究其他方面,比如我們需要訓練自己的模型,看看哪種類型的數據表現最好,哪種類型的人員表現最好。所以他們也在研究所有這些訓練技術,以及對我們自己的數據集進行評估,以改進我們的數據運營和內部數據產品,從而決定什么才是高質量的東西。

      Lenny:這真是太酷了,因為我想基本上各大 AI 實驗室都有自己的研究員來幫助他們推進 AI。我猜像你們這樣的公司擁有真正從事 AI 基礎研究的研究員,應該是相當罕見的。對嗎?

      Edwin:是的。我認為這只是因為我從根本上一直關心這件事。我經常更多地認為我們更像一個研究實驗室,而不是一家初創公司,因為那就是我的目標。有點好笑,但我總是說,我寧愿成為陶哲軒,而不是沃倫·巴菲特。那種創造能夠推動前沿的研究,而不僅僅是獲得某些評估結果的理念,一直是驅使我前進的動力,而且效果很好。

      Lenny:這就是這件事美妙的地方。你提到你們正在招聘研究員。在這方面有什么想分享的嗎?你們在尋找什么樣的人?

      Edwin:我們尋找那些從根本上對數據整天感興趣的人。就是那種真的可以花 10 個小時鉆研數據集、擺弄模型、思考“我認為模型在這里失敗了,這是我希望模型具備的行為”的人。就是那種非常動手、思考模型的定性方面而不僅僅是定量部分的能力。所以,再次強調,就是這種動手處理數據的態度,而不僅僅是關心那些抽象的算法。

      Vibe Coding 被過渡炒作了

      Lenny:太棒了。我想問幾個關于 AI 市場和行業的宏觀一點的問題。你認為未來幾年還會發生什么人們可能想得不夠多、或沒有預料到的事情?AI 將走向何方?什么會變得重要?

      Edwin:我認為未來幾年會發生的一件事是,由于不同實驗室的“個性”和“行為”,以及他們優化模型的目標函數不同,模型實際上會變得越來越差異化。

      大約一年前,我還沒意識到這一點。那時我以為所有的 AI 模型基本上都會變得非常同質化,它們的行為會彼此相似。當然,今天可能有一個模型在某個方面稍微更聰明一點,但其他的肯定會在幾個月內趕上。

      但過去一年我意識到,公司所秉持的價值觀會塑造模型。

      讓我舉個例子。前幾天,我讓 Claude 幫我起草一封郵件,它幫我弄了 30 個不同的版本,30 分鐘后,我覺得它確實幫我精心打造了一封完美的郵件,然后我發出去了。但之后我意識到,我花了 30 分鐘做了一件根本無關緊要的事。當然,現在我有了完美的郵件,但我花了 30 分鐘做了一件以前完全不會擔心的事。而且這封郵件可能對任何事情都沒有任何實質影響。

      所以,這里有一個深刻的問題:如果你可以選擇完美的模型行為,你想要哪種模型?你是想要一個說“你說得對,這封郵件肯定還有 20 種改進方法”,然后繼續迭代 50 次,吸走你所有時間和注意力的模型?還是想要一個為你的時間和生產力優化的模型,它會說:“不,你需要停下來。你的郵件已經很好了,發出去然后繼續你的一天吧。”

      同樣地,就像在這個問題上,你可以選擇模型如何行為一樣,對于模型需要回答的每一個其他問題,你希望模型具備的行為方式將從根本上影響它。這幾乎就像谷歌構建搜索引擎的方式與 Facebook 或蘋果構建搜索引擎的方式會非常非常不同一樣。他們都有自己遵循的原則、價值觀和想在世界上實現的目標,這些塑造了他們將要構建的所有產品。同樣地,我認為所有的語言模型也將開始表現得非常不同

      Lenny:這非常有趣。你已經從 Grok 上看到了這一點。它有一種非常不同的個性和回答問題的方式。所以我聽出來,未來我們會看到更多這種差異化。

      Edwin:是的。

      Lenny:沿著這個思路,再問一個問題。你認為 AI 領域最被低估的是什么?你覺得人們談論得不夠多但真的很酷的東西是什么?還有,什么是被過度炒作的?

      Edwin:我認為被低估的一點是,所有聊天機器人將開始內置各種功能。我一直是“可執行文件 / 成果物”的忠實粉絲,我認為它效果非常好。

      實際上,前幾天,我不知道這是不是新功能,但它問我是否需要幫助創建一封郵件,然后它創建了……它沒能完全工作,因為它不允許我發送郵件,但它創建了一個小盒子,我可以點擊它,然后直接給某人發送這條消息。我認為將這種“成果物”概念提升到下一個層次,就在聊天界面本身內置這些小應用、小 UI,我覺得人們談論得還不夠多。所以我認為這是一個被低估的領域。

      至于過度炒作的領域,我絕對認為“Vibe Coding”(憑感覺 / 模糊需求生成代碼)被過度炒作了。我認為人們沒有意識到,如果他們現在就把這些似乎能運行的代碼直接丟進他們的代碼庫,長期來看會讓他們的系統變得多么難以維護。所以……我對未來的編碼工作有點擔心。這種事只會不斷發生。

      Lenny:這些都是非常精彩的回答。關于第一點,這其實是我問過 Anthropic 和 OpenAI 的首席產品官 Kevin 和 Mike(注:指 Mike Greger)的問題。我問他們,作為一個產品團隊,既然你們現在擁有這種千億級大腦般的智能,你們到底還需要產品團隊多久?你們覺得 AI 會直接為你創造產品嗎?就像“告訴我你想要什么”,它就開始構建產品,并在你使用過程中不斷演化產品?感覺你描述的就是我們可能前進的方向。

      Edwin:是的,我認為有一個非常強大的概念,它能幫助人們以一種更強大的方式實現他們的想法。

      創建 Surge AI 的心路歷程

      Lenny:有件事我們還沒深入聊,但我覺得非常有趣,就是你創立 Surge 的故事。你的背景非常獨特。我總想起 Coinbase 創始人 Brian Armstrong 有一次做的一個演講,讓我印象深刻,他談到自己非常獨特的背景如何讓他創立了 Coinbase。他有經濟學背景,有密碼學經驗,然后他還是工程師,這就像是一個完美的交集,讓他創立了 Coinbase。我覺得你與 Surge 的故事非常相似。聊聊你的背景,以及那如何引領你創立了 Surge?

      Edwin:那要從很早以前開始聊起。我從小就對數學和語言非常著迷。我去 MIT,一方面因為那里顯然是數學和計算機科學最好的地方之一,另一方面也因為喬姆斯基在那里。我上學時的夢想實際上是找到一種連接所有這些不同領域的底層理論。

      后來我在谷歌、Facebook 和 Twitter 做過研究員。我一次又一次地遇到同樣的問題:我們不可能獲得訓練模型所需的數據。所以我一直堅信高質量數據的必要性。

      然后,2020 年 GPT-3 發布了,我意識到,是的,如果我們想將事情提升到下一個水平,構建能夠編碼、使用工具、講笑話、寫詩、解決黎曼猜想并治愈癌癥的模型,那么,我們將需要一個全新的解決方案。我在所有這些公司時,一直讓我抓狂的是:我們面前擁有全人類的智慧力量,而所有數據標注公司卻都在專注于圖像標注這樣非常簡單的事情。所以我想構建一些專注于所有這些高級復雜用例的東西,真正幫助我們構建下一代模型。我認為我跨數學、計算機科學和語言學的背景,真的深刻地影響了我一直想做的事情。所以,我在 GPT-3 發布一個月后創立了 Surge,我們的唯一使命就是構建我認為推動 AI 前沿所需要的那種用例。

      Lenny:除了你們正在取得的巨大成功之外,是什么在驅動你繼續構建這個事業,在這個領域不斷建設?

      Edwin:我認為我本質上是個科學家。我一直以為自己會成為數學或計算機科學教授,致力于理解宇宙、語言和通信的本質。有點好笑,但我一直有個天真的夢想:如果有外星人來訪地球,我們需要弄清楚如何與它們溝通,我想成為那個和它們一起去的人,用所有這些花哨的數學、計算機科學和語言學知識來破譯。

      所以即使在今天,我最喜歡做的事仍然是,每當有新模型發布,我們都會對它進行一次非常深入的研究。我會試用它,運行評估,比較它在哪些方面改進了,哪些方面退步了。我會創建這種非常深入的分析報告發送給我們的客戶。

      這其實有點好笑,因為很多時候我們會說這是數據科學團隊做的,但通常其實就是我自己做的。我想我可以一整天都做這個。我很難忍受整天開會。我不擅長銷售,也不擅長做人們期望 CEO 做的那些典型事情。但我喜歡寫這些分析報告,喜歡和研究團隊一起頭腦風暴。

      有時候我會和別人在電話上聊到凌晨三點,就為了深入研究某個模型。所以,最重要的是,我仍然能夠整天親身參與數據和科學研究。我認為驅使我前進的是,我希望 Surge 在 AI 的未來——我認為這也是人類的未來——中扮演關鍵角色。

      我們對數據、語言、質量以及如何衡量這一切、如何確保它走在正確的道路上,有著非常獨特的視角。我認為我們獨特地不受那些有時會將公司引向負面方向的種種影響所束縛。就像我之前說的,我們把 Surge 更多地建設成一個研究實驗室,而不是典型的初創公司。

      所以我們關心好奇心、長期激勵和學術嚴謹性,而不太關心季度指標或者在董事會報告中看起來好不好。所以我的目標是,利用我們公司所有這些獨特之處,來確保我們正在以一種對人類物種長期真正有益的方式塑造 AI。

      Lenny:在這次對話中,我意識到你們這樣的公司對 AI 的發展方向有多么大的影響力。事實上,你們幫助實驗室理解它們的差距在哪里,需要改進什么。不僅僅是每個人都在關注 OpenAI 等公司的負責人,認為他們是引領 AI 的人。但我在這里聽到的是,你對事情的發展方向有很大的影響力。

      Edwin:是的。我認為這里有一個非常強大的生態系統。老實說,人們還不知道模型將走向何方,他們想要如何塑造它們,以及他們希望人類在這一切的未來中扮演什么角色。所以我認為有很多機會可以繼續塑造這場討論。

      Lenny:你分享的這些讓我對構建 AI、訓練 AI 的細微之處,以及你們所做的工作,有了更深的理解。從外部看,人們可能只把 Surge 和這個領域的公司看作是在創造所有這些數據來喂養 AI。但顯然,這其中有很多人們沒有意識到的東西。我很欣慰像你這樣深思熟慮的人在主導這件事。也許最后一個問題:在創立 Surge 之前,你希望自己當時知道些什么?很多人創業時并不知道自己要面對什么。有沒有什么你想告訴過去的自己的事?

      Edwin:是的。我絕對希望自己早知道,你可以通過埋頭苦干、做好研究和簡單地打造出卓越的產品來建立一家公司,而不是通過不斷發推文、制造聲勢和融資。這有點好笑,但我從沒想過自己會開公司。我喜歡做研究,實際上我一直是 DeepMind 的忠實粉絲,因為它是一家了不起的研究公司,被收購后仍然繼續做著驚人的科學研究。

      但我一直以為他們是那種神奇而罕見的獨角獸。所以我認為如果我開公司,我就得變成一個整天看財務報表、整天開會、做所有這些聽起來極其無聊而我總是討厭的事情的商人。所以,我認為瘋狂的是,結果完全不是這樣。我每天仍然深入數據之中,而且我喜歡這樣。我喜歡我能做所有這些分析,與研究團隊交流。這

      基本上是應用研究,我們在構建所有這些真正推動 AI 前沿的驚人數據系統。我希望我知道你不必把所有時間都花在融資上,你不必不斷制造聲勢,你不必變成不是你的人。你實際上可以通過打造一個優秀到足以穿透所有噪音的產品來建立一家成功的公司。我想,如果我知道這是可能的,我會更早開始。

      Lenny:你有什么喜歡的人生格言,在工作和生活中經常回想起來嗎?

      Edwin:我想我提到過這個理念:創始人應該建立一家只有他們才能建立的公司,這幾乎像是他們的整個生命、經歷和興趣將他們塑造成此的宿命。所以我認為這個原則適用得很廣,不僅對創始人,對任何創造事物的人也是如此。

      所以,我想總的原則就是真正追隨你的興趣,做你熱愛的事。這幾乎就像我做關于 Surge 的很多決定一樣。有幾年前我沒想過,但后來有人對我說的話:公司在某種意義上,是其 CEO 的化身。這有點好笑,我以前沒想過,因為我一直不太清楚 CEO 到底做什么。我總以為 CEO 很普通,就是做你的副總裁們、董事會等等告訴你要做的事,你只是對決策說“是”。但實際上不是這樣,而是當我思考某些我們必須做出的重大艱難決定時,我不會想“公司會怎么做”,不會想“我們要優化什么指標”,我只是想“我個人關心什么?我的價值觀是什么?我想看到世界上發生什么?”所以,我認為遵循那個理念——問問自己:你關心什么價值觀?你想塑造什么?而不是什么會讓儀表盤好看——我想這會帶來相當重要的結果。

      https://www.youtube.com/watch?v=dduQeaqmpnI&t=346s

      聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。

      AI 重塑組織的浪潮已至,Agentic 企業時代正式開啟!當 AI 不再是單純的輔助工具,而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。

      把握行業變革關鍵節點,12 月 19 日 - 20 日,AICon 全球人工智能開發與應用大會(北京站) 即將重磅啟幕!本屆大會精準錨定行業前沿,聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新,邀您共同深入探討:如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統,讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      12月12日俄烏:歐盟終于發力,歐洲做出改變?

      12月12日俄烏:歐盟終于發力,歐洲做出改變?

      山河路口
      2025-12-12 18:03:37
      原子彈炸后百年內寸草不生!今廣島卻住滿了人,看看專家怎么說?

      原子彈炸后百年內寸草不生!今廣島卻住滿了人,看看專家怎么說?

      興趣知識
      2025-12-12 19:33:40
      10人聚餐逃單新進展:放言稱絕不付錢 組局者身份被扒 是滴滴司機

      10人聚餐逃單新進展:放言稱絕不付錢 組局者身份被扒 是滴滴司機

      鋭娛之樂
      2025-12-13 08:29:48
      何小鵬汽車這種惡趣味文化,應該消失了

      何小鵬汽車這種惡趣味文化,應該消失了

      張棟偉創業咨詢大學生就業創業
      2025-12-12 15:19:56
      頂級美人和普通美人的區別,看央視《大生意人》5位女演員就懂了

      頂級美人和普通美人的區別,看央視《大生意人》5位女演員就懂了

      陳述影視
      2025-12-09 21:51:09
      愛潑斯坦書桌驚現年輕女子昏睡照片,特朗普與多名女子合照曝光。

      愛潑斯坦書桌驚現年輕女子昏睡照片,特朗普與多名女子合照曝光。

      環球趣聞分享
      2025-12-13 13:30:09
      北京市委常委會召開會議,研究市委關于中央巡視反饋意見的整改落實方案等事項

      北京市委常委會召開會議,研究市委關于中央巡視反饋意見的整改落實方案等事項

      新京報
      2025-12-13 20:00:02
      高市政權下的日本,西方媒體終于察覺到不對勁了……

      高市政權下的日本,西方媒體終于察覺到不對勁了……

      環球時報國際
      2025-12-12 23:56:09
      別再說范曾糊涂了,87歲和37歲妻子造娃成功,女方才是真被套牢了

      別再說范曾糊涂了,87歲和37歲妻子造娃成功,女方才是真被套牢了

      甜檸聊史
      2025-12-11 21:38:28
      貪財風流、嗜酒如命,香港樂壇一代鬼才,2000多首歌撐起整個武林

      貪財風流、嗜酒如命,香港樂壇一代鬼才,2000多首歌撐起整個武林

      慕姑娘的讀行生活
      2025-12-13 07:00:07
      國家正式出手!2026年起個人存取現金按“新規”來,有存款的看!

      國家正式出手!2026年起個人存取現金按“新規”來,有存款的看!

      百態人間
      2025-12-13 16:09:19
      恩比德39+9賽季最強76人力克步行者 喬治23+5+6探花22分

      恩比德39+9賽季最強76人力克步行者 喬治23+5+6探花22分

      醉臥浮生
      2025-12-13 10:36:10
      37歲王思聰面相變了,下巴后縮禿頭有姨味,帶五個女伴憔悴不開心

      37歲王思聰面相變了,下巴后縮禿頭有姨味,帶五個女伴憔悴不開心

      銀河史記
      2025-12-13 15:10:31
      火箭掘金前瞻,6連客強度拉滿,對位約基奇申京需吸取首場教訓

      火箭掘金前瞻,6連客強度拉滿,對位約基奇申京需吸取首場教訓

      拾叁懂球
      2025-12-13 21:54:18
      楊玉環墓被出土,專家打開棺槨一看,千年前“傳言”竟然被證實!

      楊玉環墓被出土,專家打開棺槨一看,千年前“傳言”竟然被證實!

      芊芊子吟
      2025-12-13 17:45:05
      《沁園春·雪》發表,無人超越,一才女填詞,毛主席驚:拜受了

      《沁園春·雪》發表,無人超越,一才女填詞,毛主席驚:拜受了

      抽象派大師
      2025-12-13 05:01:21
      出事了,美軍突襲中國船只,銷毀貨物揚長而去,外媒:一月前干的

      出事了,美軍突襲中國船只,銷毀貨物揚長而去,外媒:一月前干的

      深析古今
      2025-12-13 13:17:25
      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      卷走53億!又一大佬帶全家跑路,欠中國銀行20億,投資者血本無歸

      以茶帶書
      2025-12-09 23:33:58
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉這些年
      2025-12-07 15:39:25
      最邪惡的實驗:六女四男船上共渡100天,無法律約束,結局會怎樣

      最邪惡的實驗:六女四男船上共渡100天,無法律約束,結局會怎樣

      貓眼觀史
      2024-08-17 10:30:56
      2025-12-13 23:16:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      11821文章數 51627關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      百萬支體溫計2周搶空 有老板備20萬現金一箱貨都沒買到

      頭條要聞

      百萬支體溫計2周搶空 有老板備20萬現金一箱貨都沒買到

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      教育
      親子
      本地
      家居
      軍事航空

      教育要聞

      QS前百學校近況:LSE終于下offer,IC無面拒,曼大不慢了

      親子要聞

      懷孕了,受害人竟是親兄妹,網友:相煎何太急呀!

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      家居要聞

      溫潤質感 打造干凈空間

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: AV探花| 国产无码免费| 啪啪电影| 亚州成人AV| 日韩精品人妻中文字幕不卡乱码| 黄石市| 亚洲精品一二三| 欧洲美女黑人粗性暴交视频| 久久国产成人午夜av影院| 无码人妻精品一区二区三区9厂| 少妇裸交aa大片| 人与禽交av在线播放| 色欧美片视频在线观看| 欧美色熟妇| 亚洲成人网站视频| 人妻无码网站| 两个人看的www免费视频中文| 免费无遮挡无码永久视频| 亚洲三级高清免费| 国产欧美另类精品久久久| 白嫩少妇丰满一区二区| 久草综合网| 无码人中文字幕| 国产成人8x视频网站入口| 久久久精品人妻一区二区三区四| 熟妇与小伙子matur老熟妇e| 西西444www高清大胆| 亚洲中文在线播放| 超碰2025| 日韩99在线a| 亚洲精品美女久久久久99| 无码高潮少妇毛多水多水| 成人午夜在线播放| 熟妇与黑人一区二区三区乱码| 色哟哟91| 天天伊人久久| 无码专区—va亚洲v天堂麻豆| 久久婷婷五月综合97色一本一本| 91福利国产午夜亚洲精品| 久久露脸国语精品国产91| 久久99精品久久久久|