哈嘍,大家好,我是小方,今天,我們主要來看看,曾經被整個科技界奉為圭臬的“大力出奇跡”——即瘋狂堆砌算力和參數的AI發展模式,是不是真的走到了盡頭。
![]()
![]()
![]()
過去十年,大家似乎形成了一種思維定式:想讓AI更聰明?那就加參數、喂數據、砸算力,但這種做法效率越來越低,把學術界擠到了邊緣,也讓大公司的研究越來越封閉。更重要的是,這條路的回報,正在肉眼可見地遞減。
![]()
![]()
這個團隊的策略不是盲目擴大規模,而是采用極高純度的專業數據集進行訓練,并結合了新型的稀疏化訓練技術。這個案例就像一記警鐘,提醒我們:在計算資源回報遞減的時代,優化技術和數據質量,往往比單純的“更大”更管用。
![]()
為什么單純堆算力不靈了?因為這就像只往一個方向使勁,深度神經網絡的學習方式其實很“笨”,它善于記憶常見模式,但對于現實世界中大量存在的、不常見的“長尾”信息,學習效率極低,需要耗費不成比例的巨量算力去“死記硬背”,這就好比為了記住一本詞典里所有生僻字,而把整本詞典翻來覆去背了成千上萬遍。
![]()
好在,研究者們找到了其他提升算力“性價比”的杠桿,首先是數據質量。業界現在公認,對數據進行精心清洗、去重、排序,其效果可能遠超簡單增加數據量。
其次是算法創新。比如,通過“模型蒸餾”技術,讓一個龐大的“教師模型”教會一個小巧的“學生模型”,讓小模型獲得逼近大模型的能力;再比如“檢索增強生成”,讓模型在回答問題時能實時查閱外部知識庫,而不是全靠死記硬背。這些技術,都讓等量算力下的產出大幅增加。
![]()
最后是架構本身。Transformer架構奠定了過去幾年的輝煌,但它可能已觸及天花板,新的架構探索,比如更接近生物神經網絡的脈沖神經網絡,或者能更好處理序列中長期依賴的新模型,正在實驗室里萌芽,它們可能從根本上重塑算力與性能的關系曲線。
![]()
那么,不迷信算力,路在何方?前沿的探索正在發生幾個關鍵轉向。第一個轉向,是從“訓練算力”到“推理算力”。以前所有智慧都凝結在訓練好的靜態模型里,現在,人們發現,在模型使用時(推理階段)投入更多計算資源進行搜索、規劃、多步推理,能極大提升最終表現,且成本遠低于重新訓練,這就像給人一個計算器,而不是讓他背下所有乘法表。
![]()
第二個轉向,是數據從“靜態化石”變為“可塑材料”。以前模型在固定數據集上訓練完就定型了,現在,借助成本大幅降低的合成數據技術,我們可以主動生成、補充模型薄弱環節所需的數據,讓模型在迭代中持續適應新環境。
![]()
第三個轉向,是智能的核心從“孤立模型”走向“交互系統”。未來的AI能力,可能不單單取決于模型本身,而取決于它如何與工具、數據庫、其他AI智能體乃至物理世界進行交互與協同,這要求計算機科學家擁有更廣闊的系統思維。
![]()
算力是重要的基石,但絕不是唯一的出路。當行業從對算力的盲目崇拜中清醒過來,將目光更多地投向算法革新、數據質量和系統設計時,我們或許才能迎來AI下一個真正穩健、高效且包容的突破階段,這條路也許沒那么“簡單粗暴”,但無疑會更可持續,也更能孕育出多樣化的智慧。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.