AI大廠終于意識到繼續與內容平臺對抗是條不歸路。就在全球最知名的百科全書網站維基百科(Wikipedia)慶祝25周年之際,負責運營維基百科的維基媒體基金會方面宣布,亞馬遜、Meta、微軟、Mistral AI以及Perplexity等多家AI大廠加入“維基媒體企業合作伙伴計劃”(Wikimedia Enterprise)。
![]()
因此也就意味著,這些廠商將付費獲取維基百科的“企業級數據訪問權”,以獲取這家百科全書網站的實時數據。而維基媒體企業合作伙伴計劃則會根據他們的特定需求,對維基百科海量的文章數據進行結構化處理,使其更易于模型訓練和商業用途。對此維基媒體基金會表示,來自亞馬遜、微軟等廠商的授權費用將直接用于支持該非營利組織的長期運營。
簡而言之,維基百科將旗下的數據資產整理成AI更易懂的形式,以方便AI廠商即拿即用。
在AI大模型的訓練中,結構化數據以其固有的清晰度、一致性和效率,成為了構建可靠且可擴展AI大模型的關鍵。尤其是那些用于分類、回歸和預測等任務的模型,結構化數據更是必不可少。
![]()
比如在金融大模型中,交易金額、交易時間、交易類型等結構化的交易記錄,就可以作為模型的輸入特征,幫助AI學習和識別風險模式,從而提升輸出結果的穩定性。不僅如此,結構化數據與知識圖譜之間存在天然的協同關系,通過將兩者結合,AI大模型就可以更準確地理解數據的上下文和語義。
而維基百科之所以要向AI廠商提供結構化數據的訪問權,是因為后者的爬蟲已經成為了這家非營利組織的夢魘。維基媒體基金會產品高級總監Marshall Miller此前在博客文章中表示,“使用維基百科內容的AI聊天機器人必須引導更多用戶訪問維基百科,確保免費知識能夠持續流通。訪問量下降就意味著志愿者可能減少,內容更新和豐富的速度放緩,個人捐贈者對這項工作的支持也可能下降。”
為了保證內容的可訪問性,維基媒體基金會針對維基百科的內容采取了分布式存儲,然后根據一定的策略分配到不同的存儲節點,使得數據可以就近存儲,從而提高訪問速度和效率。當某個內容被多次請求時,他們就會將內容緩存到離用戶最近的數據中心,倘若某個內容很久都未被請求,那么就會存儲在核心數據中心。
根據內容的熱度存儲數據,就使得維基百科能夠盡可能地節省服務器開支。然而人類的偏好與AI截然不同,人類更關心時下的熱點,而AI追求的是進化,后者傾向于囫圇吞棗式鯨吞所有數據。內容的熱度對AI毫無意義,就意味著維基百科認為的冷門內容也會被頻繁訪問,也就是說AI比人類訪客更能消耗寶貴的帶寬。
其實維基百科想要找這些AI廠商要錢不難理解,可后者為何會在這個時間點選擇付錢呢?過去三年,因AI爬蟲抓取數據而引發的訴訟可謂比比皆是,AI廠商更是一直在“白嫖”內容平臺,甚至寧可打官司也不愿付錢。如今,這些廠商的想法卻出現了180度的大轉彎。
AI大廠之所以愿意向維基百科付錢,是因為他們不希望看到維基百科倒下。AI行業一直存在一個悖論,那就是如何在不依賴于人類提供的大量訓練數據的情況下,讓AI變得更智能?這就好比要求一個旱鴨子橫渡長江,卻不給TA配游泳教練。
![]()
目前,構建AI大模型的關鍵技術是基于人類反饋的強化學習(RLHF),不僅依賴人類標注員,更需要持續向大模型投喂數據。就像培養一個優秀學生需要優質教師一樣,大模型的性能提升需要海量的預訓練數據和高質量的指令微調/強化學習數據。
在跳出RLHF模式之前,AI大模型的進化就需要汲取人類的智慧,還做不到在完全沒有外部數據的情況下實現自我進化。谷歌、微軟、亞馬遜、Meta已經意識到一味向內容平臺單方面索取會導致人類創作者降低輸出內容的熱情,如果沒有廣大創作者在互聯網上分享內容,難道要他們親自上陣?
雖然目前已經有團隊基于強化學習中的“自我博弈”(Self-Play)開始探索“無數據自我進化”,也就是AI給自己出題、自己解題、再從中學習,如此循環往復,來讓AI變得更聰明。但問題是由于沒有來自外部的“標準答案”,評估每一個自生成問題的難度和可解性都需要讓大模型實際解答,整個過程就如同反復試錯的窮舉法,極其耗費時間和算力。
![]()
換而言之,AI的無數據自我進化盡管省去了獲取外部數據的成本,卻不得不面臨預訓練算力激增以及模型迭代需要更多時間。對于大廠而言,算力可能不是問題,但他們缺時間。以OpenAI為例,在CEO山姆·奧特曼宣布進入紅色警報(Code Red)狀態,推遲非核心項目應對谷歌Gemini的強勢反撲后,只花1個月時間就拿出了GPT-5.2。
當下AI業界的狀態是“爭先恐后”,沒有哪家廠商敢于慢工出細活。當不需要外部訓練數據的方法還有暫時解決不了的缺陷時,AI廠商就不得不回過頭來與維基百科這種擁有高質量數據的平臺和解。萬一維基百科選擇躺平擺爛,就該AI廠商頭疼了。
更何況出錢從維基百科買數據反而更有性價比,畢竟AI廠商寶貴的人力資源要用于升級算法,讓自家員工創作內容才是大材小用。
【本文圖片來自網絡】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.