網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

破防了！全球頂尖AI慘敗，人類最后防線竟是「重啟試試」？

2026-01-27 11:15:06　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：元宇好困

【新智元導(dǎo)讀】大模型能寫代碼、聊八卦，但敢不敢讓它直接接管網(wǎng)絡(luò)運(yùn)維？一項(xiàng)最新評(píng)測(cè)顯示，面對(duì)真實(shí)網(wǎng)絡(luò)故障，頭部模型平均準(zhǔn)確率竟不足50%！為此，GSMA聯(lián)手全球巨頭開啟「地獄級(jí)」難度挑戰(zhàn)賽，通往MWC 2026的門票已備好，3.5萬歐元大獎(jiǎng)等你來拿！

大模型的效用價(jià)值正處在從「做試卷」向「干實(shí)活」轉(zhuǎn)變的深刻變革期。

當(dāng)業(yè)界目光從聊天機(jī)器人（Chatbot）轉(zhuǎn)向智能體（Agent），在現(xiàn)實(shí)網(wǎng)絡(luò)作業(yè)的復(fù)雜場(chǎng)景下，現(xiàn)有的大模型表現(xiàn)與其在基準(zhǔn)Benchmark的表現(xiàn)大相徑庭。

GSMA（全球移動(dòng)通信系統(tǒng)協(xié)會(huì)）連同ITU、ETSI、IEEE、TM Forum等電信行業(yè)權(quán)威組織，正式發(fā)起AITelco Troubleshooting Challenge（全球電信AI故障排查挑戰(zhàn)賽）。

這種跨標(biāo)準(zhǔn)組織、跨地域的合作極其罕見，彰顯了該賽事的權(quán)威性。

這是一場(chǎng)邁向網(wǎng)絡(luò)智能體的終極實(shí)驗(yàn)。

截至當(dāng)前，該項(xiàng)賽事已吸引來自全球超過1000+支隊(duì)伍參賽，受到產(chǎn)學(xué)研各界的廣泛關(guān)注。

智能體能力的提升，已成為大模型在垂直領(lǐng)域大規(guī)模應(yīng)用的關(guān)鍵賽點(diǎn)。

全球精英同臺(tái)競(jìng)技，你準(zhǔn)備好了嗎？

為什么這可能是今年最「硬核」的AI賽事

范式躍遷

從「懂行」到「能干」的跨越

電信行業(yè)是人類歷史上構(gòu)建的最為復(fù)雜的工程系統(tǒng)之一。

現(xiàn)代通信網(wǎng)絡(luò)涉及從無線接入網(wǎng)、傳輸網(wǎng)到核心網(wǎng)的端到端協(xié)同，包含數(shù)以萬計(jì)的配置參數(shù)、毫秒級(jí)的信令交互以及海量的多模態(tài)日志數(shù)據(jù)。

長(zhǎng)期以來，運(yùn)營(yíng)商一直致力于通過自動(dòng)化技術(shù)降低運(yùn)維成本，提升網(wǎng)絡(luò)韌性。

具備強(qiáng)大推理與代碼生成能力的大語言模型，被視為解決這一困境的銀彈。

理論上，LLM可以閱讀數(shù)百萬頁(yè)的技術(shù)標(biāo)準(zhǔn)（3GPP、ETSI等），理解復(fù)雜的網(wǎng)絡(luò)拓?fù)洌踔料褓Y深工程師一樣進(jìn)行故障排查。

然而，現(xiàn)實(shí)與理想之間存在著巨大的「準(zhǔn)確性鴻溝」。

隨著AI向垂直領(lǐng)域縱深發(fā)展，電信行業(yè)正經(jīng)歷從網(wǎng)絡(luò)優(yōu)化到客戶服務(wù)的全方位智能化轉(zhuǎn)型。

盡管全球運(yùn)營(yíng)商已斥資數(shù)十億美元進(jìn)軍AI，但至今未出現(xiàn)一款「一騎絕塵」的殺手級(jí)應(yīng)用。

原因在于電信領(lǐng)域的高門檻與低容錯(cuò)：

知識(shí)壁壘：模型需理解復(fù)雜的協(xié)議原理、計(jì)費(fèi)結(jié)構(gòu)、網(wǎng)絡(luò)切片及擁塞控制。
風(fēng)險(xiǎn)極高：一個(gè)錯(cuò)誤的配置指令，可能導(dǎo)致地區(qū)級(jí)網(wǎng)絡(luò)癱瘓。

此前網(wǎng)絡(luò)領(lǐng)域的相關(guān)評(píng)測(cè)往往聚焦于靜態(tài)問答，忽略了智能體在真實(shí)網(wǎng)絡(luò)環(huán)境中的表現(xiàn)。

本次挑戰(zhàn)賽旨在打破這一瓶頸，依托GSMA Open-Telco LLM Benchmarks，尋找真正能「讀取日志、分析原因、生成配置、下發(fā)指令、修復(fù)網(wǎng)絡(luò)」的自主智能體。

權(quán)威標(biāo)尺

GSMA Open-Telco Benchmarks

本次大賽的底座——GSMA Open-Telco LLM Benchmarks，是由GSMA Foundry發(fā)起，AT&T、中國(guó)電信、Deutsche Telekom、Orange、Telefonica、Vodafone等全球頂級(jí)運(yùn)營(yíng)商，以及華為、Hugging Face、哈利法大學(xué)(Khalifa University)等技術(shù)伙伴共同構(gòu)建的產(chǎn)業(yè)級(jí)大模型評(píng)價(jià)基準(zhǔn)。

其目標(biāo)是建立一個(gè)透明、開源、反映真實(shí)網(wǎng)絡(luò)運(yùn)營(yíng)挑戰(zhàn)的評(píng)估框架。

它經(jīng)歷了兩大階段的迭代：

1.0階段(Proof of Concept)

集中在通用的電信知識(shí)問答上的通用能力。

驗(yàn)證通用大模型在電信行業(yè)的獨(dú)特需求下的滿足度，即在高度專業(yè)化的工業(yè)場(chǎng)景中，通用推理能力無法替代領(lǐng)域知識(shí)。

2.0階段(Operational Realism)

引入了更為嚴(yán)苛和務(wù)實(shí)的評(píng)估標(biāo)準(zhǔn)，來自12家運(yùn)營(yíng)商貢獻(xiàn)了多個(gè)具體的真實(shí)用例，涵蓋了從RAN優(yōu)化、網(wǎng)絡(luò)預(yù)測(cè)到客戶支持的八大戰(zhàn)略領(lǐng)域。

不僅關(guān)注模型「懂不懂知識(shí)」，更關(guān)注模型「能不能干活」，即在網(wǎng)絡(luò)故障定位、通信協(xié)議分析、網(wǎng)絡(luò)配置生成等生產(chǎn)環(huán)節(jié)的表現(xiàn)。

這是目前行業(yè)內(nèi)最透明、開源、反映真實(shí)網(wǎng)絡(luò)運(yùn)營(yíng)挑戰(zhàn)的評(píng)估框架。

豐厚激勵(lì)

決戰(zhàn)MWC 2026

賽程與賽制

本次挑戰(zhàn)賽官方提供算力資源供參賽隊(duì)伍部署訓(xùn)練模型，并挑選不同參數(shù)規(guī)模的模型以適配未來在端側(cè)和云端不同的消費(fèi)需求。

挑戰(zhàn)賽問題包含了網(wǎng)絡(luò)故障定位和網(wǎng)絡(luò)運(yùn)維任務(wù)，為滿足運(yùn)營(yíng)商降低網(wǎng)絡(luò)故障（無論是硬件故障還是軟件配置錯(cuò)誤）的運(yùn)營(yíng)成本訴求，參賽者需要通過微調(diào)構(gòu)建電信領(lǐng)域?qū)Ｓ心Ｐ停瑥亩诰W(wǎng)絡(luò)故障根因作業(yè)中輔助網(wǎng)絡(luò)工程師。

然而，構(gòu)建能夠泛化到未知故障、新的數(shù)據(jù)分布和全新的網(wǎng)絡(luò)環(huán)境，同時(shí)還能在資源受限的邊緣服務(wù)器上高效運(yùn)行的模型，仍然是一個(gè)巨大的挑戰(zhàn)。

根據(jù)使用的基座模型區(qū)別，參賽者將在以下三個(gè)賽道中展開角逐，每類產(chǎn)生一支冠軍隊(duì)伍：

最佳云模型（LLM）：挑戰(zhàn)大規(guī)模參數(shù)模型在復(fù)雜邏輯下的推理極限。
最佳邊緣模型（SLM）：探索輕量化模型在邊緣側(cè)的高效部署與決策。
最佳推理模型：聚焦故障定位、告警分析與自動(dòng)化修復(fù)的準(zhǔn)確性。

獲勝者不僅能獲得豐厚的現(xiàn)金獎(jiǎng)勵(lì)，更將獲得全球頂級(jí)的展示舞臺(tái)：

現(xiàn)金大獎(jiǎng)：瓜分3.5萬歐元（約合人民幣27萬元）獎(jiǎng)金池。
直通巴塞羅那：獲獎(jiǎng)團(tuán)隊(duì)代表將獲得全額資助（機(jī)票+住宿），前往MWC Barcelona 2026（世界移動(dòng)通信大會(huì)）現(xiàn)場(chǎng)領(lǐng)獎(jiǎng)！在全球數(shù)十萬行業(yè)精英面前展示你的方案。
頂會(huì)加持：冠軍方案有機(jī)會(huì)被推薦至IEEE ICMLCN 2026（阿布扎比）發(fā)表，科研KPI直接拉滿。
全球曝光：獲勝模型將登頂Hugging Face的GSMA Benchmark榜單，獲得ITU「AI for Good」項(xiàng)目的官方認(rèn)證。

5G路測(cè)日志故障定位

該任務(wù)數(shù)據(jù)集使用GSMA Open Telco Benchmark 2.0中未公開的TeleLogs特定競(jìng)賽版本，通過兩階段分別發(fā)布競(jìng)賽題，防止早期過擬合。

大模型需要在真實(shí)的5G路測(cè)日志、工參等信息中，定位配置錯(cuò)誤或網(wǎng)絡(luò)問題，重點(diǎn)考察其在電信推理任務(wù)-網(wǎng)絡(luò)故障根因分析的基礎(chǔ)能力，需要模型具備「物理世界的直覺」。

賽題設(shè)置：

通過兩階段分開分布賽題，支撐對(duì)作品模型的泛化性能力評(píng)估，預(yù)防過擬合結(jié)果：

第一階段：該階段公布一部分比賽用例，支撐參賽人員研究并查看初步結(jié)果；

第二階段：剩余問題將于挑戰(zhàn)截止日期前兩周公布，綜合評(píng)估在更廣泛網(wǎng)絡(luò)問題中模型推理能力。

核心評(píng)估指標(biāo)：

Pass@1：衡量模型在單次嘗試中得出正確答案的能力。其計(jì)算方法是分別評(píng)估生成的4個(gè)答案，然后對(duì)所有樣本的正確率取平均值；

綜合能力評(píng)估：未預(yù)防模型在專有任務(wù)的過擬合，模型的最終評(píng)估將在涵蓋保持通用知識(shí)準(zhǔn)確性的能力。即判分評(píng)測(cè)集將包含網(wǎng)絡(luò)故障數(shù)據(jù)（與公開案例不同的數(shù)據(jù)分布）以及通用知識(shí)問題。

??難度預(yù)警：

在最新的海外廠商測(cè)試中，Agent類挑戰(zhàn)任務(wù)使用閉源模型的最好表現(xiàn)不足50%，這意味著，目前的通用大模型距離成為「可靠的網(wǎng)絡(luò)工程師」，仍有很長(zhǎng)的路要走。

One More Thing

Agent挑戰(zhàn)賽即將開啟

除了面向網(wǎng)絡(luò)故障的定位任務(wù)，GSMA AI挑戰(zhàn)賽的下一跳為限時(shí)條件下的智能體任務(wù)。

在網(wǎng)絡(luò)運(yùn)維場(chǎng)景中，通過深度模擬高度還原的企業(yè)級(jí)數(shù)據(jù)中心組網(wǎng)環(huán)境，競(jìng)賽系統(tǒng)會(huì)通過動(dòng)態(tài)注入技術(shù)，隨機(jī)產(chǎn)生異常波動(dòng)與突發(fā)故障，模擬出真實(shí)生產(chǎn)環(huán)境中的各種不確定性。

開發(fā)者可以通過訓(xùn)練模型、設(shè)計(jì)并實(shí)現(xiàn)智能體完成真實(shí)網(wǎng)絡(luò)運(yùn)維業(yè)務(wù)場(chǎng)景的關(guān)鍵難題，系統(tǒng)將針對(duì)每類問題生成獨(dú)立的任務(wù)環(huán)境，涵蓋多家網(wǎng)絡(luò)服務(wù)廠商的真實(shí)問題分布，最終以步驟級(jí)推理和最終結(jié)果進(jìn)行打分，深度評(píng)估Agent在應(yīng)對(duì)復(fù)雜網(wǎng)絡(luò)問題時(shí)的邏輯推理能力與自動(dòng)化處置效能。

而將Agent置于復(fù)雜的拓?fù)浣Y(jié)構(gòu)與動(dòng)態(tài)流量之中，這種全鏈路、高壓力的場(chǎng)景設(shè)定，旨在使參賽智能體需像資深運(yùn)維專家一樣，不僅要理解深厚的網(wǎng)絡(luò)協(xié)議知識(shí)，更要在海量告警的干擾下精準(zhǔn)完成告警相關(guān)性分析，并迅速給出網(wǎng)絡(luò)還原策略，即自主完成網(wǎng)絡(luò)還原、故障定位與修復(fù)。

在效能考核上，競(jìng)賽制定了「準(zhǔn)確性（Correctness）」與「速度（Speed）」并重的雙重評(píng)價(jià)體系，旨在深度挖掘Agent在復(fù)雜網(wǎng)絡(luò)環(huán)境下發(fā)現(xiàn)并修復(fù)故障的實(shí)戰(zhàn)潛力。

相關(guān)任務(wù)敬請(qǐng)期待~

重構(gòu)運(yùn)營(yíng)模式

構(gòu)建「網(wǎng)絡(luò)生命體」

AI Telco Troubleshooting Challenge系列賽事不僅是一場(chǎng)技術(shù)競(jìng)賽，更是電信運(yùn)營(yíng)模式重構(gòu)的開始。

電信領(lǐng)域的AGI愿景，是構(gòu)建一個(gè)能夠自我感知、自我決策、乃至自我進(jìn)化的「網(wǎng)絡(luò)生命體」。

構(gòu)建電信領(lǐng)域?qū)Ｓ迷u(píng)測(cè)基準(zhǔn)不僅是技術(shù)發(fā)展的必然要求，更是推動(dòng)產(chǎn)業(yè)智能化升級(jí)的戰(zhàn)略支點(diǎn)，為破解垂直領(lǐng)域AI評(píng)估難題提供了可復(fù)制的范式。

本次挑戰(zhàn)賽預(yù)示著電信運(yùn)營(yíng)模式的根本性重構(gòu)，降低風(fēng)險(xiǎn)并加速人工智能在電信行業(yè)的應(yīng)用，形成「技術(shù)-場(chǎng)景-商業(yè)」閉環(huán)，實(shí)現(xiàn)AI從「可用」到「可信」的質(zhì)變，推動(dòng)「工程師」角色的深刻變革。

立即報(bào)名

挑戰(zhàn)SOTA

無論你是來自高校的科研狂人，還是大廠的算法大神，這場(chǎng)「電信界的究極挑戰(zhàn)」都不容錯(cuò)過。

立即訪問官網(wǎng)報(bào)名：https://telcoai-competition.bluescarf.ai/

截止時(shí)間以官網(wǎng)公布信息為準(zhǔn)。

最新挑戰(zhàn)賽的詳細(xì)安排也將在大賽官網(wǎng)陸續(xù)更新，敬請(qǐng)期待！

二維碼快速報(bào)名：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.