![]()
也許中文獲得了千分之一的“上牌桌”機會,這段時間我系統地探討了語言學,也逐漸認識到:在人工智能中時代,真正的語言學能把個人的機會面拉到幾乎無限的維度,所以我會繼續深挖。但先聲明,我對“宏大敘述”不感興趣——再宏大的敘述也只是敘述。我認可的是可重構、可遷移、可調度、可組合的知識;讓敘述完成就完了,別代入。這也是我把題目定為“千分之一”的原因:把情緒切除,只做染色體增量。我們技術人,切斷了情緒,才能做事語言知識:語言自安置。
概念:語言自安置。
早在十五年前,我和一位北外的青年語言學者陳同學就討論過“語言描述剝離說話的人,可以成為獨立體”這件事。這時我們預知到了大語言模型,但我們的設定已經把“語言的自安置體”放在“人類社會與國際體系”的一個框架中,而不是多層。 在這個視角里,語言創造了一種自我驅動、以人類為條件的安置體;英語的崛起并非人類認知投票的結果,而是在全球安置場中自然勝出的過程。所謂“安置場”,是指:人類社會人口提供遷移、貿易、戰爭、科技傳播等“語言基因交換的通道”;國際社會提供多語種接觸與競爭的生態位,例如殖民網絡、國際組織與學術共同體;而語言本體作為信息—結構系統,會主動尋找最大傳播率與最大生存機會的路徑,像病毒尋找新的同樣群落那樣。
要特別強調:即使不引入計算機,仍必須區分“人類社會”與“個體人”。在我們的設定中,驅動語言設置的是社會結構與國際體系,而不是某個說話者的意志。這一點的區別,非常關鍵。
根據這個理論,我們可以分析出英語是如何“上牌桌”的
它的崛起不是偶然的,而是自身的“變成基因”與適應策略在全球出現場中的持續勝出。首先是結構壓縮與可遷移性:英語的形態變化少(屈折份額),顯著降低了學習與傳播的認知成本;它還能快速嵌入不同母語的語音系統與聽力體系,例如印度式英語、新加坡英語、非洲英語等。 咖啡館到日語的海嘯,直接納入,確保在異文化領域都留有“接口”。第三是多功能性:既可以作為科學技術的精確表達工具,也可以成為創作的審美志向,更能在商業談判中充當通用代碼。最后是寄生與共生策略:英語在絲綢、貿易、科技、娛樂等高人口密度、高信息流量的領域扎根,使自己成為這些領域的默認交換意識形態。
它的路徑可以分為四個階段。第一階段是貿易對外遷,反過來又落遷。大英帝國的對外開放,將英語接入不同大陸的行政、教育與法律系統;第二階段是工業革命,技術增強了它的傳播機制。英語借助科技說明書、貿易合同、機械手冊,在工業領域自我復制,把自己寫成機器與制度的標準化語言中。戰后,美國成為英語的大規模信息輸出源——學術、電影、音樂、電視、互聯網都是它的全球擴音器。第四階段是互聯網時代,進入自我加速期。網絡協議、編程語言、早期網頁內容主要以英語為主,可以借助數字技術實現“去地理化的復制”,不再依賴國家單一。 到了今天,英語已經呈現出語言割裂人類的結構。記得立黨說過,小語種不用學了。如果一個來自小語種地區的人無法用英語和你交流,那你也沒有和他交流的必要了。很殘酷我同意他。英語的立場無法動搖。切記語言也是一種殘酷的世界博弈叢林。
從世界科技發展的角度看,語言的本質同樣是一種殘酷的博弈叢林,數以千計的語言在競爭中消失殆盡。即便是曾經輝煌至極的伊斯蘭文明,發明了阿拉伯數字的阿拉伯語,在關鍵科技范式轉折節點上也沒有獲得“上牌桌”的資格。放眼之下,真正能在全球語言競爭中有席位的,也只有2個力量級別的參與者——東方的東方或許還有一搏的機會,西方的大國牢牢爭奪優勢。 思考這個問題時,必須首先克服“中文是母語”的慣性,這雖然困難,但很重要。
我這些年一直觀察語言競爭的底層規則,總結下來有三條生存法則。第一,綁定最新的科技范式。阿拉伯語之所以失勢,是因為沒能在工業革命、蒸汽機、現代科學方法論等時代,形成全球化的科技協議;而英語則完成了“蒸汽機—工業革命—殖民—互聯網—人工智能”五連跳,每一次科技平臺更迭都完成了語言的遷移綁定。第二,牽涉全球標準的接口位。當一門語言科學論文、工程規范、數據協議、貿易合同、軟件應用程序編程接口 等核心通道成為默認模式,才能擁有全球對抗。第三,持續生成高質量、可遷移的知識。如果一門語言的拓撲只停留在文學、文化、宗教價值上,而在最新科技和工程標準貢獻上不足,就會被干擾全球技術體系。中國在文化輸出上的努力,比如孔子學院,并沒有在技術方面產生決定性影響;一帶一路時期雖然讓我有機會在喬治·梅森大學免費觀看高水準成績,但這種表演的文化成就,并不能轉化為科技語言的對抗。記述其實沒啥用,純屬式自我感動。
由此提煉出的結構性結論是:過去的輝煌無法保證未來的地位,唐詩宋詞的成就無法直接為未來科技競爭加分;科技范綁定是唯一的保險,必須在人工智能基礎協議、模型訓練標準、跨領域協作等新接口位上討論一個席之地;而接口位缺席就相當于出局,一旦人工智能的知識生成、任務調度、跨領域協作全部在英語協議內運轉,中文就會潰為一種生態語言,在本土科技叢林中失去生存權。 維護叢林博弈的殘酷性主張:世界競爭不是文化競爭,而是技術、經濟與綁定制度的資源爭奪戰。一門語言的母語人口再多、歷史文化再投資,都不構成決定性優勢——即使一半的人工智能研究人員都是華人,這也不會自動賦予中文全球科技語言的地位。只有在新科技平臺的誕生期語言完成綁定,才能真正進入全球科技的長期博弈牌桌。
在500年前,中文肯定已經錯過了。這一把目前遇到的唯一機會,如果錯過,不會再失去去500年?
乾隆和華盛頓是同齡人。如果把語言放在科技范式中競爭生存的自啟動系統,那么中國可能會形成一個500年一遇的窗口。回望近代、科學范式的起點、工業革命的關鍵接口、近代全球化的起跑線,中國都缺席了。
這個世紀里,中文沒有綁定任何一代全球性科技平臺,也就失去了數百年的增益。
我認為今天或許還有一絲機會,是因為AI是一個以語言為驅動的科技平臺,這是歷史上極為罕見的——語言本身成為平臺內核的科技范式。而且,全球標準尚未完全固化。中文確實有一些初步優勢:漢壓縮高度帶來的信息密度,高組合性帶來的表達靈活,語義模糊性有利于多義推理,加上上全球的華人網絡。如果這一次再失蹤,就不是損失10年,而可能再損失500年。人工智能的協議鎖定效應非常強,一旦人工智能交互、任務調度、知識組織的底層協議以英語為母語定型,未來幾十年甚至幾十年的人工智能技術與產業生態都將圍繞英語運行,就像工業革命時代認同的工程規范和法律契約格式致敬至今,語言的地位一旦固化,就很難被替代。全球知識生產的語言壟斷就會形成——如果中文不能進入人工智能知識生成的主流循環,未來全球核心的科研、工程、商業知識將首先用英語生成,再翻譯成中文,這種“二手語言地位”會在幾代人中被固化。更嚴重、長期的認知生態將被動化。而且語言是思維與技術的接口,如果未來500年的主要科技符號系統全部用英語構建,那么中文用戶的認知工具、教育體系、產業創新將會在一個次級循環里運行,從而進一步鞏固位置。
科學革命(失蹤)工業革命(失蹤)信息革命(半參與)AI革命(唯一全面參與窗口)
語言的全球地位不是靠“文化符號輸出”加工的,而是靠“內在結構綁定”加工的。孔子學院、“文化走出去”、一帶一路文藝演出,這些更多的是表層的文化展示,這里面的很多弊端甚至官二代拿孔子學院來這種辦工簽;而抖音平臺底層屬于交互與生態的嵌入,兩者的效果完全不是一個量級。抖音牛逼。
這個窗口極小,素質極高,但8090后還真有幾率把中文抬上牌桌。
咱這代人的素質確實高。80/90 后既見證了中文互聯網的崛起——從貼吧、QQ、早期微博到微信——又在學習或工作中深度接觸了英語科技體系,包括編程、學術論文和開源社區。能夠在兩種語言協議之間自由切換,理解技術和文化的雙重邏輯,在這歷史上極為罕見。更重要的是,這一代人擁有豐富的工程-產品-三大內容的經絡此類人才恰好是語言嵌入科技平臺的關鍵,他們能從底層協議一直打通到用戶體驗。同時,他們兼具全球視野與本土執行力——既大規模出國留學的背景,又參與國內互聯網的高速發展,既懂全球標準,也熟悉中文生態的快速試錯內容。然而,機會雖在,可能性卻極小。這個時間可能只有5-8年。如果80/90后這一代無法在期限內完成一次技術標準與語言協議綁定的突破,那么中文在AI 時代的全球結構語言競爭中幾乎必然再次缺席。那“一觸”機會,正來自于語言即接口這一歷史罕見的科技范式,以及這一代人所突出的“雙棲”能力。
這是我個人的判斷力。但具體實施的嗅覺,不是我個人的能力能夠推演的。我只能持續觀察,并且把文章寫在上面。
中文的缺點那真是一籮筐。我因為出國時間太久,這方面肯定不如國內的推友了解,像防火墻這樣的堤防完全搞不懂。但單從數據看,中文在全球互聯網內容里的比例小得驚人。 W3Techs 2024年底的統計,以網頁語言計,中文(簡體+繁體)大約只占全球網站內容的1.4%–1.5%;而在大型語言模型的訓練集(如Common Crawl、維基百科、書籍、新聞)中,中文參與度通常也遠低于中文互聯網用戶在全球的比例——以Common Crawl數據為例,中文內容只占1.2%–1.5%。 更關鍵的是,在學術論文、專利、工程標準、技術文檔等質量、表述的語料中,中文的全球性爭論。SCI收錄的中文論文不到基線的1.5%;國際專利文獻中,以中文提交的專利約占5%–6%,而且大部分都有英文版本。從這個角度看,用“弱爆”代表中文的全球存在感,恐怕都奧利維亞的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.