網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

同樣1GB文本，為何中文訓練效果差？對話EleutherAI研究員Catherine，看懂多語言模型的“詛咒”與“祝福”

2025-07-23 16:05:53　來源: AI科技大本營

北京舉報

分享至

作者 | 王詩棋何苗

采訪 | 王啟隆 Eric Wang

出品丨GOSIM 開源創(chuàng)新匯

從語言學跨界到自然語言處理（NLP），Catherine Arnett 深刻體會到，多語言背景帶來的思維多樣性，正在為多語言模型的構(gòu)建開辟全新路徑。

作為 EleutherAI 的 NLP 研究員，Catherine 起初在愛丁堡大學主修中文與語言學。一次偶然的導師更替，引導她從傳統(tǒng)語言學研究轉(zhuǎn)向語言模型的計算探索，由此踏上了跨越語言與技術邊界的研究之路。

她精通英語、西班牙語、法語和漢語，對語言的結(jié)構(gòu)差異與共性有著敏銳的感知。在深入多語言自然語言處理的過程中，Catherine 提出了一個具有啟發(fā)性的重要概念——“字節(jié)溢價”（byte premium）。她發(fā)現(xiàn)：即使是字節(jié)數(shù)相同的文本，不同語言中所承載的“有效信息密度”卻可能差異顯著。這一現(xiàn)象揭示了語言結(jié)構(gòu)對模型輸入效率的深層影響，并為多語言模型性能優(yōu)化提供了新的理論視角。

圍繞這一發(fā)現(xiàn)，Catherine 及其團隊于去年訓練了名為“Goldfish”的小型語言模型系列，參數(shù)量約為 1 億，覆蓋多達 350 種語言進行預訓練。令人驚訝的是，這些輕量級模型在部分基準測試中，表現(xiàn)甚至超越了如 Llama-8B 等參數(shù)規(guī)模高達數(shù)十億的主流多語言大模型。

另一方面，Catherine 一直秉持著知識開放共享的信念。她深信，只有在開放協(xié)作的環(huán)境下，結(jié)合對語言和文化多樣性的尊重，才能培育出真正公平而強大的語言模型。帶著這樣的熱忱和洞見，在本期 Open AGI Forum 訪談中，Catherine 與我們分享了她在語言領域跨界求索的心路歷程，以及對多語言模型未來發(fā)展的獨到見解。

“多語言的詛咒”本質(zhì)上源于模型容量受限。當單一架構(gòu)試圖覆蓋所有語言時，反而可能影響效果。與其如此，不如為每種語言量身打造小而精的模型，將“詛咒”轉(zhuǎn)化為優(yōu)勢。

多語言模型評估缺乏有效基準是當前最大的障礙之一，必須開發(fā)真正具備文化敏感度的高質(zhì)量評估體系。
高層次的語法結(jié)構(gòu)是否會影響語言模型的學習效果？實驗結(jié)果顯示，模型性能的差距并不主要由這些特征造成，更可能取決于數(shù)據(jù)集的規(guī)模。
科學本應是開放的。如果無法獲取模型權(quán)重和訓練數(shù)據(jù)，所做的就不能稱之為真正的科學。

以下為訪談實錄：

跨越語言邊界：從語言學到 NLP 的探索之路

Eric Wang：非常感謝 Catherine 接受 GOSIM 的采訪。能否先請你做一個簡要自我介紹？

Catherine Arnett：大家好，我是 Catherine Arnett，目前在 EleutherAI 擔任自然語言處理研究員。最近我剛從加州大學圣地亞哥分校獲得語言學博士學位，研究方向聚焦在多語言自然語言處理。

Eric Wang：你擁有非常獨特的學術背景——最初在愛丁堡大學攻讀的是中國研究與語言學雙學位，和現(xiàn)在從事的 NLP 工作看似相距甚遠。能否談談當初是什么吸引你走進語言學的世界？又是什么促使你選擇學習漢語這樣一門語言?

Catherine Arnett：我從小就對語言很感興趣。小時候曾在一所西班牙語學校就讀，后來又學習了拉丁語等其他語言，這些經(jīng)歷讓我對語言本身產(chǎn)生了濃厚的興趣。上大學時，我希望挑戰(zhàn)自己學習一種完全陌生的語言，最后選擇了漢語。我覺得漢語非常有趣，這一選擇也無意間為未來的發(fā)展指明了方向。

Eric Wang：也就是說，你當時已經(jīng)掌握了西班牙語、法語和漢語。在學習漢語的過程中，有沒有遇到哪些特別的挑戰(zhàn)或讓你印象深刻的趣事？

Catherine Arnett：最吸引我的是漢語獨特的書寫系統(tǒng)。我最初花了大量時間練習讀寫，一筆一畫地臨摹和記憶漢字。這種學習體驗對我而言既新鮮又充滿挑戰(zhàn)。

Eric Wang：你精通多種語言的背景是否在潛移默化中影響了你對語言本質(zhì)的理解？

Catherine Arnett：當然。學習多種語言讓我逐步建立起“多語言視角”。像漢語這樣與英語差異極大的語言，讓我不禁思考語言之間的結(jié)構(gòu)差異，以及這些差異如何影響語言學習、語言技術開發(fā)和語言模型的構(gòu)建。

Eric Wang：你在個人主頁上提到自己曾在中國旅行，是否可以分享一下當時的經(jīng)歷？這些旅行是短期的，還是較為長期的生活體驗？

Catherine Arnett：我曾在杭州生活過一個學年。在沒有課程安排的時間，就利用空余時間去全國各地旅行，體驗不同城市的文化和風貌。中國地大物博、歷史悠久，這段生活經(jīng)歷讓我對語言和文化有了更深層次的理解，也成為我人生中非常寶貴的一段回憶。

Eric Wang：后來你選擇赴加州大學圣地亞哥分校攻讀語言學博士，并轉(zhuǎn)向計算社會科學方向。從傳統(tǒng)語言研究轉(zhuǎn)向計算方法的轉(zhuǎn)變，是如何發(fā)生的？

Catherine Arnett：其實這個轉(zhuǎn)變并非一蹴而就。最初我研究的是心理語言學，關注人類如何處理和產(chǎn)出語言。通過行為實驗研究語言理解機制，我當時具體研究的是漢語中的“重疊”現(xiàn)象。隨著研究深入，我開始思考是否能將心理語言學的研究方法運用到語言模型的研究中去，并從漢語擴展到其他語言，這也逐漸引導我走入了計算語言學的世界。

Eric Wang：那么，真正促使你進入 NLP 領域的契機是什么？

Catherine Arnett：當時由于導師更替，我的研究方向也發(fā)生了一些調(diào)整。之后我去參觀了學校認知科學系的幾個實驗室，其中一個實驗室每周會組織論文研討，討論的內(nèi)容多與語言模型相關。我努力跟上他們的閱讀節(jié)奏，漸漸地我對模型的內(nèi)部機制產(chǎn)生了濃厚興趣，很多問題也隨之浮現(xiàn)。這些經(jīng)歷推動我逐步投身于 NLP 研究。

Eric Wang：我最初接觸 NLP 時正值“AI 寒冬”，當時業(yè)內(nèi)普遍認為“NLP 已死，沒有未來”。在你的觀察中，NLP 是如何一步步發(fā)展至今天這個階段的？

Catherine Arnett：我真正開始關注 NLP 是在 2021 年。當時 GPT-3 已經(jīng)發(fā)布，但 ChatGPT 尚未出現(xiàn)，尚未引發(fā)如今的巨大影響力。盡管那時的模型在自然性和說服力上還存在明顯差距，但它們已經(jīng)顯現(xiàn)出強大的潛力。這也讓我們開始提出諸如“這些系統(tǒng)如何理解語言”“它們是如何學習語言”的基礎性問題。

Eric Wang：你扎實的語言學理論背景是否幫你在自然語言處理領域解決過一些關鍵問題？

Catherine Arnett：是的。今年早些時候我在國際計算語言學會議（COLING）上發(fā)表了一篇論文，研究語言類型學中的一些關鍵特征，例如高層語法結(jié)構(gòu)是否會影響語言模型的學習效果。之前已有研究提出這些特征可能對模型表現(xiàn)產(chǎn)生影響，這是我一直關注的方向。因此我設計了一系列系統(tǒng)實驗。最終結(jié)果顯示，盡管語言特征間確實存在差異，但模型表現(xiàn)的差距主要還是受數(shù)據(jù)規(guī)模影響，而非語言本身的類型特征。

“字節(jié)溢價”：多語言模型訓練中的隱性瓶頸與新視角

Eric Wang：你在研究中提出了“字節(jié)溢價”（Byte Premium）這一非常關鍵且具有新意的概念。能否用通俗的方式向我們的觀眾解釋一下？

Catherine Arnett：我們最初的研究目標，是想找到一種方法，讓不同語言的數(shù)據(jù)集規(guī)模可以在標準化的前提下進行比較。這個概念的提出，源于我們在觀察中發(fā)現(xiàn)：在 UTF-8 編碼下，不同語言的字符所占用的字節(jié)數(shù)存在明顯差異。舉例來說，拉丁字母的字符通常只占用 1 個字節(jié)，而中文字符則需要 2 至 3 個字節(jié)，像緬甸文、高棉文等語言的字符甚至可能需要 3 到 4 個字節(jié)。這意味著，同樣大小（按字節(jié)計）的文本，在不同語言中所包含的“有效語言信息”并不一致。我們稱這種差異為“字節(jié)溢價”（Byte Premium）。具體來說，比如用 1GB 的中文文本訓練模型，由于每個字符占用更多字節(jié)，模型實際接收到的有效信息可能只有原始量的一半甚至更少。這一現(xiàn)象在超大規(guī)模的多語言模型中尤為明顯，也在一定程度上解釋了我們觀察到的性能瓶頸。

Eric Wang：在你提出“字節(jié)溢價”之前，學術界通常是如何衡量多語言數(shù)據(jù)集規(guī)模的？

Catherine Arnett：過去，大多數(shù)研究者都是以 token 數(shù)量來衡量數(shù)據(jù)集規(guī)模的。在像 XGLM 這樣的多語言模型技術報告中，雖然偶爾也會使用字節(jié)數(shù)或 GB 作為單位，但主流做法仍是以 token 總數(shù)為基準。畢竟 token 數(shù)不僅直接關系到訓練過程中的步數(shù)，也便于調(diào)控訓練參數(shù)。

不過我們后來決定放棄這一做法，主要原因是我們當時需要在訓練分詞器之前就確定各語言的數(shù)據(jù)量，而在分詞器還未生成的情況下，token 數(shù)是無法準確統(tǒng)計的。這個起初看似只是個技術細節(jié)，沒想到最后竟成為一個完整的研究課題。

Eric Wang：在實際模型開發(fā)中引入“字節(jié)溢價”概念時，你認為最大的挑戰(zhàn)是什么？

Catherine Arnett：與其說是挑戰(zhàn)，不如說是我們?nèi)栽谂獯鸬囊恍﹩栴}。比如，在訓練時會根據(jù)不同語言的“字節(jié)溢價”調(diào)整數(shù)據(jù)的規(guī)模，但這又帶來了新的矛盾：隨著數(shù)據(jù)量的上調(diào)，計算資源的消耗也會同步增長。

如果我們希望在計算資源不變的前提下進行跨語言的數(shù)據(jù)量調(diào)節(jié)，那么如何在各語言間實現(xiàn)資源分配的公平性和實驗設置的一致性？目前這在工程層面上仍較難實現(xiàn)，也是我們下一階段要重點解決的方向之一。

圖｜Open AGI Forum 現(xiàn)場對談實錄（左：主持人王啟隆，右：嘉賓 Catherine Arnett）

數(shù)據(jù)稀缺與基準缺失，是多語言模型訓練的真正瓶頸

Eric Wang：你在 GOSIM 大會上的演講主題，聚焦于尋找開放多語言大語言模型評估的最佳實踐。目前評估多語言大語言模型時，最迫切需要解決的問題是什么？

Catherine Arnett：整體而言，基準測試數(shù)據(jù)的缺乏確實是我眼下最大的挑戰(zhàn)，所以我會更關注如何根據(jù)一些重要指標謹慎地挑選合適的評估基準。在評估的過程中，我經(jīng)常發(fā)現(xiàn)要么根本找不到可用的基準，要么現(xiàn)有的基準不符合最佳實踐標準。因此，目前在 EleutherAI，我的重要工作之一就是建立多語言評估體系，以幫助解決這個問題。

Eric Wang：那么關于基準測試，我們該如何確保評估指標真正反映出模型在現(xiàn)實世界中多語言情境下的實際能力，而不是讓模型只是鉆評測方法的空子，或針對特定的基準進行“作弊”呢？

Catherine Arnett：我認為關鍵在于采用多樣化的基準測試。我想強調(diào)的一點，是避免使用機器翻譯生成的基準測試，這非常重要，因為這會將機器翻譯中的噪音帶入評測過程。特別是對于那些低資源語言而言，機器翻譯的質(zhì)量通常很差，這種基準測試容易產(chǎn)生誤導。另外，還要確保實驗細節(jié)和結(jié)果報告盡可能精確，這樣在進行模型對比（例如模型選型）時，才能確保評測指標真實反映出你所關注的性能，并且能正確理解評測結(jié)果。

Eric Wang：明白了。那么對于那些低資源語言，在創(chuàng)建高質(zhì)量且具有文化敏感性的評估基準時存在哪些具體困難？社區(qū)又該如何協(xié)作來克服這些挑戰(zhàn)？

Catherine Arnett：這正是我們當前致力于攻克的核心問題。EleutherAI 擁有一個對所有人開放的 Discord 社區(qū)，目前已有約三萬名成員。項目的關鍵在于推動大規(guī)模、跨機構(gòu)的國際合作。試想，如果我們要構(gòu)建一個覆蓋 10 種語言的數(shù)據(jù)集或評估體系，至少需要 10 位語言專家分別負責對應語言，理想情況下還需要更多人參與。我們必須組建一支涵蓋多語言、多文化背景的專家團隊，才能真正理解在不同文化語境下什么才是“相關”或“重要”的內(nèi)容。如果缺乏與這些專家的深入合作，我個人其實很難掌握各類文化中的細微差異。

Eric Wang：這里提到的專家指的是 MoE（混合專家模型）還是真正的人類專家？

Catherine Arnett：我指的是人類專家。人類專家可以幫助我們理解現(xiàn)有的評估體系，判斷哪些內(nèi)容適合直接翻譯，哪些需要進行本地化調(diào)整。

Eric Wang：你研究的另一個重要課題探討了“多語言的詛咒”。這種“詛咒”具體體現(xiàn)在哪些方面呢？

Catherine Arnett：“多語言詛咒”指的是這樣一種現(xiàn)象：當模型加入了大量其他語言的數(shù)據(jù)后，目標語言的性能不但沒有提高，反而可能會變差。這通常是因為模型的容量已經(jīng)達到上限，無法同時有效地學習并表示所有語言的信息。我們在 GOSIM 會議上也反復討論過，比如像 Llama 這類大型多語言模型，其訓練數(shù)據(jù)大約 95%都是英語，那么剩下的容量還能分配給其他語言多少呢？這些語言在數(shù)據(jù)集中本來就占比較少，模型能分配給它們的資源自然也有限。因此，這些都是在訓練多語言模型時需要認真考慮的問題。

Eric Wang：模型容量在這個問題中起到什么作用？

Catherine Arnett：從根本上講，我們不可能用一個模型完美覆蓋所有語言。我甚至覺得，或許我們根本沒有足夠的數(shù)據(jù)支撐這樣的模型，而且即使不斷增大模型的規(guī)模，也未必能真正解決問題。相反，我們應該專注于針對特定語言或小語種群體，設計更專門化的小模型，而不是試圖讓單個大模型同時兼顧所有語言。說到底，通過無限增大模型來解決所有語言問題是不現(xiàn)實的。

Eric Wang：也就是說各個國家可能都需要各自建立專門的語言模型和數(shù)據(jù)集，就像這次 GOSIM 提到的波蘭語數(shù)據(jù)集那樣？

Catherine Arnett：沒錯。我們的確需要針對每種語言開發(fā)專門的模型。不過這不一定意味著模型只能支持單一語言，但核心目標一定是最大化特定語言的表現(xiàn)。因為，雖然像 Llama 這樣的大模型也能生成波蘭語等非英語文本，但效果其實并不理想。

Eric Wang：那有沒有可能將這種“詛咒”變成一種優(yōu)勢？比如，通過某些特定的訓練策略，在不同語言之間實現(xiàn)積極的知識遷移？

Catherine Arnett：當然可以。我們?nèi)ツ暝?EMNLP 大會上發(fā)表的一篇論文明確證實了這一點：對于低資源語言而言，多語言訓練通常能帶來明顯的性能提升，我們將這種現(xiàn)象稱之為“多語言的祝福”。具體來說，這些語言能夠有效地借助其他語言（尤其是與之接近的語言）的知識實現(xiàn)遷移學習，從而改善模型的表現(xiàn)。而且，這種遷移并非必須依賴于英語，事實上，從與目標語言更相似的語言遷移，效果通常更為明顯。因此，我現(xiàn)在的一個研究重點，就是探索如何創(chuàng)造最佳條件，最大程度地發(fā)揮這種遷移的優(yōu)勢，以更好地解決許多語言面臨的數(shù)據(jù)不足問題。

Eric Wang：如果我們希望擴大模型覆蓋的語言種類，應該如何避免或減輕“多語言詛咒”對特定語言，尤其是那些資源豐富或結(jié)構(gòu)獨特的語言帶來的負面影響？

Catherine Arnett：我認為，解決這個問題的關鍵是擺脫“用單一模型覆蓋所有語言”的思路。與其在像 Llama 這樣的大型模型基礎上做微調(diào)，不如針對不同語言分別訓練專門的模型，從頭開始優(yōu)化小模型的架構(gòu)與參數(shù)，可能更為有效。事實上，我們?nèi)ツ昃陀柧毩艘幌盗袇?shù)量約一億的小模型，這些“小而精”的模型在某些任務上的表現(xiàn)甚至超過了參數(shù)規(guī)模大 80 倍的 Llama-8B，這充分證明了“小模型定制化”的潛力。

Eric Wang：“金魚”模型（Goldfish）？

Catherine Arnett：對，就是“金魚”模型。這種現(xiàn)象啟發(fā)我們重新思考：究竟在什么條件下才能真正讓模型達到最佳表現(xiàn)？也許我們應該從規(guī)模更小的模型入手，從頭開始預訓練，并以更高效的方式設置分詞器，而不是一開始就依賴現(xiàn)有的大型模型。

Eric Wang：在如今這個越來越被大型模型主導的時代，“金魚模型”這樣“小而美”的模型在研究和實際應用中扮演了怎樣的角色呢？

Catherine Arnett：首先，小模型的出現(xiàn)極大降低了研究的門檻。最近我用“金魚模型”做實驗，僅用筆記本電腦不到兩小時就跑完了整個流程。這種體驗對于缺乏大型超算資源的研究者而言意義重大，說明即使在有限的計算條件下，我們依然可以做出非常有價值的研究。盡管小模型不是唯一的研究方向，但它很好地補充了大模型的研究，為我們提供了一種經(jīng)濟實用的實驗環(huán)境，既能避免高額計算資源的浪費，也能為未來更大規(guī)模的探索積累經(jīng)驗。

Eric Wang：在處理海量多語言數(shù)據(jù)時，你認為識別并消除偏見及有害信息的最大挑戰(zhàn)是什么？

Catherine Arnett：我認為多語言數(shù)據(jù)目前最大的問題主要體現(xiàn)在兩個方面：數(shù)據(jù)質(zhì)量和有害內(nèi)容。首先，語言識別的準確性問題至今依然沒有得到徹底解決，這也是我希望能有所貢獻的領域，目前 Common Crawl 項目就正在努力提升語言識別的準確性。其次，有害內(nèi)容（toxicity）的識別也是個巨大的挑戰(zhàn)。我們?nèi)ツ暝鴩L試通過合成數(shù)據(jù)來訓練專門的有害內(nèi)容分類模型，但當時只針對歐洲語言進行了實驗。如果要將這種方法擴展到更多低資源語言，效果如何尚不得而知。實際上，語言資源越是匱乏，我們能用的有效工具也就越少。坦率地說，我暫時也沒有非常完美的解決方案。最終，我們需要的是更完善、更可靠的工具。在英語主導的 NLP 研究領域，有些問題看似已經(jīng)解決或不再重要，但在多語言環(huán)境下，這些問題依然遠未得到有效解決。

多語言模型研究依然處于上半場

Eric Wang：當前學術界對 AI 對齊、大型語言模型的社會影響（如就業(yè)和教育）、以及潛在監(jiān)管挑戰(zhàn)等話題都有許多討論。從你關注的多語言研究視角來看，有哪些議題是值得特別關注的？

Catherine Arnett：坦白講，我常常覺得多語言領域比主流研究晚了好幾年。以預訓練為例，我們領域還有許多關鍵問題并未得到妥善解決，而主流的 NLP 研究已經(jīng)越過了基礎預訓練階段，進入了更先進的后訓練和智能體階段。然而，對我所研究的很多語言來說，我們目前的模型性能還很初級，甚至連基礎的預訓練工作都尚未完善，更遑論考慮智能體或強化學習這些更前沿的問題。因此，在某種意義上，我們與主流前沿還有一定的距離。不過我也一直關注這些最新的發(fā)展動態(tài)，目前我的主要精力集中于構(gòu)建高質(zhì)量的數(shù)據(jù)集、設計更有效的評估方法以及訓練精巧的小模型。雖然研究進度存在一定落差，但這樣的節(jié)奏讓我能更加穩(wěn)扎穩(wěn)打地推進研究。雖然多語言 NLP 領域目前規(guī)模有限，但我們的社區(qū)卻充滿活力，成員之間的凝聚力也非常強。

Eric Wang：最近有篇熱門文章提出：“我們已進入 AI 時代的下半場”，但對許多語言而言可能還遠未達到這個階段，你怎么看？

Catherine Arnett：確實如此。對大部分語言而言，AI 的發(fā)展仍處于“上半場”。不少語言當前擁有的數(shù)據(jù)量甚至比不上 1970 年代的英語資源水平。盡管我們在這些語言上的研究還相對落后，但這也意味著還有廣闊的空間值得我們持續(xù)努力追趕，這個過程本身就充滿挑戰(zhàn)和機遇。

Eric Wang：在多語言環(huán)境中，AI 的倫理問題和價值觀對齊會不會變得更加復雜？我們應如何確保 AI 系統(tǒng)尊重不同文化的價值觀？

Catherine Arnett：最近，EleutherAI 的 Discord 社區(qū)里也展開了熱烈的討論，我自己也正與社區(qū)成員合作研究這個問題。在過去半年里，我們已經(jīng)看到越來越多專門用于評估文化適配性的基準數(shù)據(jù)。我認為，目前一些最前沿的模型已經(jīng)具備了討論文化敏感性的條件。但必須承認，在多語言環(huán)境下，模型性能本身較弱，數(shù)據(jù)資源也更匱乏，能使用的工具相當有限。這是我們需要積極解決的問題。實際上，這對不同語言社群的成員來說也是一次寶貴的機遇，他們可以利用自己的文化經(jīng)驗與獨特視角，參與構(gòu)建真正具有文化敏感性的基準測試和數(shù)據(jù)集，幫助 AI 系統(tǒng)更好地理解和尊重不同文化的價值觀。

Eric Wang：目前全球存在如此眾多的語言，而每種語言都需要大量資源去支持。你覺得 AI 的能耗問題給開發(fā)公平和包容的多語言 AI 帶來了哪些挑戰(zhàn)？

Catherine Arnett：從我自身的研究經(jīng)驗來看，由于處理的數(shù)據(jù)集規(guī)模本就有限，我們也無法訓練規(guī)模龐大的模型，只能相應地減少模型大小。然而這反倒促使我們長期以來專注于開發(fā)資源高效的小模型，也算是在無意中解決了部分計算資源和能耗方面的挑戰(zhàn)。我也參與過一些項目，探索如何讓模型更高效地運行在邊緣設備上。坦率地講，我對此沒有特別深刻的見解，但確實感受到，資源的局限性迫使我們更積極地探索高效和節(jié)能的方案，這在一定程度上緩解了能耗帶來的問題。

AI 心智起源的二向探討

Eric Wang：對你個人而言，開放科學意味著什么？

Catherine Arnett：GOSIM 昨天有位演講者說得很好：根本不存在所謂的“開放科學”，因為科學本來就應該是開放的。如果研究是封閉的，那就根本不算是真正的科學。我經(jīng)常跟同事討論：如果我們無法獲取模型的權(quán)重，無法了解訓練數(shù)據(jù)，我們怎么能夠確定自己觀察到的現(xiàn)象不是由于隱藏的系統(tǒng)提示、或訓練數(shù)據(jù)污染所導致的呢？我認為，只有當我們能完全掌握整個技術棧，包括訓練代碼、強化學習過程等各個環(huán)節(jié)時，才真正能夠從實驗中獲取有效知識。如果缺乏開放，我們做的根本不算科學研究。

Eric Wang：你認為在開放數(shù)據(jù)和負責任 AI 之間，我們該如何找到平衡點？

Catherine Arnett：過去一年，無論是在我此前所在的初創(chuàng)公司 Play Us，還是現(xiàn)在的 EleutherAI，我一直在探索如何構(gòu)建既開放又負責任的數(shù)據(jù)集，并讓這些數(shù)據(jù)集具備規(guī)模化應用的可能。盡管我們選擇的數(shù)據(jù)集整體規(guī)模可能不算太大，但我相信這樣的數(shù)據(jù)集能夠成為穩(wěn)固的研究基礎。我們或許會犧牲一些數(shù)據(jù)規(guī)模上的優(yōu)勢，但這樣做的好處是能更好地滿足倫理要求，并實現(xiàn)長期可持續(xù)發(fā)展。此外，這種方式還能避免潛在的法律風險，并有助于維護與不同語言社區(qū)之間良好的合作關系。我認為，這種負責任且開放的研究模式才是正確的發(fā)展方向，這也是我一直以來致力推動的事情。

Eric Wang：隨著模型能力不斷提高，關于 AI 是否可能產(chǎn)生類似人類心智、意識或自我認知的討論越來越多，但這些概念常常難以界定，你怎么看？

Catherine Arnett：坦率地說，我對一些關于 AGI（通用人工智能）和 ASI（超級人工智能）的宏大觀點或憂慮一直保持謹慎態(tài)度。在我看來，一個真正的 AGI 或 ASI，至少應該能夠流暢地掌握所有語言，這或許才是我們真正追求的目標。但很明顯，我們距離這個目標仍然很遙遠，因此我并不認為短期內(nèi)會出現(xiàn)任何系統(tǒng)能夠完全達到這種水準。

Eric Wang：在 AI 領域，有兩種不同的看法：一種認為人的心智源于視覺感知，比如李飛飛開發(fā)的 ImageNet，以及后來的 AlexNet 所代表的路徑，強調(diào)嬰兒出生后通過觀察世界逐漸形成理解；另一種則認為心智主要源于語言和文本，認為人類和動物最大的區(qū)別就是語言。你認為我們更應該關注哪條路徑，視覺還是語言？

Catherine Arnett：作為一名語言學家，我自然更傾向于強調(diào)語言對 AI 發(fā)展的作用。但如果想讓 AI 更“像人類”，我認為最終的方向一定是多模態(tài)的。目前多模態(tài)研究的進展很令人興奮，包括具身智能（embodied AI）也是一個非常值得期待的方向。當然，這些領域也引發(fā)了不少新的問題和擔憂。坦白地說，作為語言學家，我不確定自己能在多模態(tài)或具身智能上貢獻多少。然而，人類的智能顯然不僅僅依賴于語言，也不僅僅依賴于視覺或其他多模態(tài)體驗——實際上，這些因素缺一不可。所以我覺得語言和視覺這兩個方面對 AI 的發(fā)展來說都是必不可少的。

Eric Wang：回到意識、思維和認知的哲學問題上。你認為人類的意識或心智能力到底源于哪里？

Catherine Arnett：我個人也傾向于認為，人類和動物之間的關鍵差異就在于語言。當然動物也有非常復雜的交流系統(tǒng)——目前甚至有一些有趣的研究正嘗試破譯鯨魚和海豚的交流方式，它們的溝通系統(tǒng)其實非常復雜。但我想強調(diào)的是，人類甚至在出生前就已經(jīng)開始接觸語言——胎兒在母體內(nèi)就能聽到聲音，所以我們剛出生時對于語言的接觸并非是 0。因此，要嚴格區(qū)分視覺體驗和語言在意識中的具體作用是非常困難的。但作為語言學家，我必須指出，語言具有獨特且至關重要的作用。語言讓我們能夠合作、交流和共享想法，更重要的是，它塑造了我們的思維方式，讓我們能夠構(gòu)建復雜的觀念。如果沒有語言，這一切都是無法實現(xiàn)的。

一位 NLP 研究者眼中的 GOSIM 與歐洲開源生態(tài)

Eric Wang：這是你第一次來巴黎參加 GOSIM 大會嗎？能談談你對這座城市以及本次大會氛圍的初步感受嗎？

Catherine Arnett：我之前已經(jīng)來過幾次巴黎，所以對這里并不陌生。不過，這次參加 GOSIM 大會帶給我的體驗仍然很新鮮。與我以往參加的學術類 NLP 會議相比，這次最大的不同是能夠接觸到來自更多不同領域的同行，大家關注的問題也更加多元化，包括基礎設施、實際應用場景等等。這種跨領域的交流給了我更廣闊的視角，也讓我了解到了其他領域同行的研究現(xiàn)狀以及他們所面臨的挑戰(zhàn)。

Eric Wang：從你的角度來看，歐洲的 AI 開源社區(qū)有哪些特別的地方？與北美或其他地區(qū)相比，這里的開發(fā)者生態(tài)有什么不同嗎？

Catherine Arnett：我們之前也在一些討論中提到過這個問題。舉個例子，歐洲有 EuroHPC 這樣的項目，它集合了歐盟各國乃至整個歐洲的資源，建立大型的超級計算中心，并根據(jù)需求統(tǒng)一分配計算資源。我覺得，這種公共共享設施的存在更容易引導研究人員主動走向開源，而不像美國那樣更多依賴私有的計算集群。因此在基礎設施層面上，歐洲天然地更傾向于開源模式。當然，另一方面來看，我自己的合作者其實遍布全球，包括歐洲、北美、亞洲等地，從這個意義上來說，我所處的社區(qū)本身就是全球化的。從整體來看，歐洲社區(qū)與其他地區(qū)并沒有非常明顯的差異，尤其考慮到我很多合作者本身就在歐洲。

Eric Wang：關于 GOSIM 未來的發(fā)展，以及和全球開源 AI 社區(qū)的合作，你有什么期望或建議？

Catherine Arnett：我相信隨著 GOSIM 不斷發(fā)展壯大，會有更多的人加入其中。每一次大會都會吸引到來自不同領域和背景的參與者，這種多元化的參與本身就能夠為社區(qū)帶來新的視角和創(chuàng)新活力。希望 GOSIM 能繼續(xù)保持這種開放性，積極吸引更多不同組織、領域的人參與進來，給大家提供交流和分享經(jīng)驗的平臺。

Eric Wang：好的，非常感謝 Catherine 的分享，謝謝你和 Open AGI Forum 交流你的經(jīng)驗和見解。

限量早鳥票搶先購！

9 月 13- 14 日，

GOSIM HANGZHOU 2025

1500 +全球一線開源開發(fā)者

100 +海內(nèi)外資深專家

100 +優(yōu)質(zhì)技術分享

5大技術論壇

9場主題Workshop

3場Hackathon創(chuàng)新競賽

1場GOSIM Spotlight

特別聯(lián)動Rust 十周年精彩活動

RustGlobal + RustChinaConf

大咖云集，內(nèi)容豐富

歡迎親臨現(xiàn)場

與全球開源資深大咖面對面交流！

早鳥觀眾票數(shù)量有限，先到先得！

立即打開鏈接或掃碼搶購:

https://hangzhou2025.gosim.org/tickets/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.