![]()
新智元報(bào)道
編輯:元宇 好困
【新智元導(dǎo)讀】大模型能寫代碼、聊八卦,但敢不敢讓它直接接管網(wǎng)絡(luò)運(yùn)維?一項(xiàng)最新評(píng)測(cè)顯示,面對(duì)真實(shí)網(wǎng)絡(luò)故障,頭部模型平均準(zhǔn)確率竟不足50%!為此,GSMA聯(lián)手全球巨頭開啟「地獄級(jí)」難度挑戰(zhàn)賽,通往MWC 2026的門票已備好,3.5萬歐元大獎(jiǎng)等你來拿!
大模型的效用價(jià)值正處在從「做試卷」向「干實(shí)活」轉(zhuǎn)變的深刻變革期。
當(dāng)業(yè)界目光從聊天機(jī)器人(Chatbot)轉(zhuǎn)向智能體(Agent),在現(xiàn)實(shí)網(wǎng)絡(luò)作業(yè)的復(fù)雜場(chǎng)景下,現(xiàn)有的大模型表現(xiàn)與其在基準(zhǔn)Benchmark的表現(xiàn)大相徑庭。
![]()
GSMA(全球移動(dòng)通信系統(tǒng)協(xié)會(huì))連同ITU、ETSI、IEEE、TM Forum等電信行業(yè)權(quán)威組織,正式發(fā)起AITelco Troubleshooting Challenge(全球電信AI故障排查挑戰(zhàn)賽)。
這種跨標(biāo)準(zhǔn)組織、跨地域的合作極其罕見,彰顯了該賽事的權(quán)威性。
![]()
這是一場(chǎng)邁向網(wǎng)絡(luò)智能體的終極實(shí)驗(yàn)。
截至當(dāng)前,該項(xiàng)賽事已吸引來自全球超過1000+支隊(duì)伍參賽,受到產(chǎn)學(xué)研各界的廣泛關(guān)注。
智能體能力的提升,已成為大模型在垂直領(lǐng)域大規(guī)模應(yīng)用的關(guān)鍵賽點(diǎn)。
全球精英同臺(tái)競(jìng)技,你準(zhǔn)備好了嗎?
![]()
為什么這可能是今年最「硬核」的AI賽事
![]()
范式躍遷
從「懂行」到「能干」的跨越
電信行業(yè)是人類歷史上構(gòu)建的最為復(fù)雜的工程系統(tǒng)之一。
現(xiàn)代通信網(wǎng)絡(luò)涉及從無線接入網(wǎng)、傳輸網(wǎng)到核心網(wǎng)的端到端協(xié)同,包含數(shù)以萬計(jì)的配置參數(shù)、毫秒級(jí)的信令交互以及海量的多模態(tài)日志數(shù)據(jù)。
長(zhǎng)期以來,運(yùn)營(yíng)商一直致力于通過自動(dòng)化技術(shù)降低運(yùn)維成本,提升網(wǎng)絡(luò)韌性。
具備強(qiáng)大推理與代碼生成能力的大語言模型,被視為解決這一困境的銀彈。
理論上,LLM可以閱讀數(shù)百萬頁(yè)的技術(shù)標(biāo)準(zhǔn)(3GPP、ETSI等),理解復(fù)雜的網(wǎng)絡(luò)拓?fù)洌踔料褓Y深工程師一樣進(jìn)行故障排查。
然而,現(xiàn)實(shí)與理想之間存在著巨大的「準(zhǔn)確性鴻溝」。
隨著AI向垂直領(lǐng)域縱深發(fā)展,電信行業(yè)正經(jīng)歷從網(wǎng)絡(luò)優(yōu)化到客戶服務(wù)的全方位智能化轉(zhuǎn)型。
盡管全球運(yùn)營(yíng)商已斥資數(shù)十億美元進(jìn)軍AI,但至今未出現(xiàn)一款「一騎絕塵」的殺手級(jí)應(yīng)用。
原因在于電信領(lǐng)域的高門檻與低容錯(cuò):
知識(shí)壁壘:模型需理解復(fù)雜的協(xié)議原理、計(jì)費(fèi)結(jié)構(gòu)、網(wǎng)絡(luò)切片及擁塞控制。
風(fēng)險(xiǎn)極高:一個(gè)錯(cuò)誤的配置指令,可能導(dǎo)致地區(qū)級(jí)網(wǎng)絡(luò)癱瘓。
此前網(wǎng)絡(luò)領(lǐng)域的相關(guān)評(píng)測(cè)往往聚焦于靜態(tài)問答,忽略了智能體在真實(shí)網(wǎng)絡(luò)環(huán)境中的表現(xiàn)。
本次挑戰(zhàn)賽旨在打破這一瓶頸,依托GSMA Open-Telco LLM Benchmarks,尋找真正能「讀取日志、分析原因、生成配置、下發(fā)指令、修復(fù)網(wǎng)絡(luò)」的自主智能體。
![]()
權(quán)威標(biāo)尺
GSMA Open-Telco Benchmarks
本次大賽的底座——GSMA Open-Telco LLM Benchmarks,是由GSMA Foundry發(fā)起,AT&T、中國(guó)電信、Deutsche Telekom、Orange、Telefonica、Vodafone等全球頂級(jí)運(yùn)營(yíng)商,以及華為、Hugging Face、哈利法大學(xué)(Khalifa University)等技術(shù)伙伴共同構(gòu)建的產(chǎn)業(yè)級(jí)大模型評(píng)價(jià)基準(zhǔn)。
其目標(biāo)是建立一個(gè)透明、開源、反映真實(shí)網(wǎng)絡(luò)運(yùn)營(yíng)挑戰(zhàn)的評(píng)估框架。
它經(jīng)歷了兩大階段的迭代:
1.0階段(Proof of Concept)
集中在通用的電信知識(shí)問答上的通用能力。
驗(yàn)證通用大模型在電信行業(yè)的獨(dú)特需求下的滿足度,即在高度專業(yè)化的工業(yè)場(chǎng)景中,通用推理能力無法替代領(lǐng)域知識(shí)。
2.0階段(Operational Realism)
引入了更為嚴(yán)苛和務(wù)實(shí)的評(píng)估標(biāo)準(zhǔn),來自12家運(yùn)營(yíng)商貢獻(xiàn)了多個(gè)具體的真實(shí)用例,涵蓋了從RAN優(yōu)化、網(wǎng)絡(luò)預(yù)測(cè)到客戶支持的八大戰(zhàn)略領(lǐng)域。
不僅關(guān)注模型「懂不懂知識(shí)」,更關(guān)注模型「能不能干活」,即在網(wǎng)絡(luò)故障定位、通信協(xié)議分析、網(wǎng)絡(luò)配置生成等生產(chǎn)環(huán)節(jié)的表現(xiàn)。
這是目前行業(yè)內(nèi)最透明、開源、反映真實(shí)網(wǎng)絡(luò)運(yùn)營(yíng)挑戰(zhàn)的評(píng)估框架。
豐厚激勵(lì)
決戰(zhàn)MWC 2026
![]()
賽程與賽制
本次挑戰(zhàn)賽官方提供算力資源供參賽隊(duì)伍部署訓(xùn)練模型,并挑選不同參數(shù)規(guī)模的模型以適配未來在端側(cè)和云端不同的消費(fèi)需求。
挑戰(zhàn)賽問題包含了網(wǎng)絡(luò)故障定位和網(wǎng)絡(luò)運(yùn)維任務(wù),為滿足運(yùn)營(yíng)商降低網(wǎng)絡(luò)故障(無論是硬件故障還是軟件配置錯(cuò)誤)的運(yùn)營(yíng)成本訴求,參賽者需要通過微調(diào)構(gòu)建電信領(lǐng)域?qū)S心P停瑥亩诰W(wǎng)絡(luò)故障根因作業(yè)中輔助網(wǎng)絡(luò)工程師。
然而,構(gòu)建能夠泛化到未知故障、新的數(shù)據(jù)分布和全新的網(wǎng)絡(luò)環(huán)境,同時(shí)還能在資源受限的邊緣服務(wù)器上高效運(yùn)行的模型,仍然是一個(gè)巨大的挑戰(zhàn)。
![]()
根據(jù)使用的基座模型區(qū)別,參賽者將在以下三個(gè)賽道中展開角逐,每類產(chǎn)生一支冠軍隊(duì)伍:
最佳云模型(LLM):挑戰(zhàn)大規(guī)模參數(shù)模型在復(fù)雜邏輯下的推理極限。
最佳邊緣模型(SLM):探索輕量化模型在邊緣側(cè)的高效部署與決策。
最佳推理模型:聚焦故障定位、告警分析與自動(dòng)化修復(fù)的準(zhǔn)確性。
獲勝者不僅能獲得豐厚的現(xiàn)金獎(jiǎng)勵(lì),更將獲得全球頂級(jí)的展示舞臺(tái):
現(xiàn)金大獎(jiǎng):瓜分3.5萬歐元(約合人民幣27萬元)獎(jiǎng)金池。
直通巴塞羅那:獲獎(jiǎng)團(tuán)隊(duì)代表將獲得全額資助(機(jī)票+住宿),前往MWC Barcelona 2026(世界移動(dòng)通信大會(huì))現(xiàn)場(chǎng)領(lǐng)獎(jiǎng)!在全球數(shù)十萬行業(yè)精英面前展示你的方案。
頂會(huì)加持:冠軍方案有機(jī)會(huì)被推薦至IEEE ICMLCN 2026(阿布扎比)發(fā)表,科研KPI直接拉滿。
全球曝光:獲勝模型將登頂Hugging Face的GSMA Benchmark榜單,獲得ITU「AI for Good」項(xiàng)目的官方認(rèn)證。
![]()
5G路測(cè)日志故障定位
該任務(wù)數(shù)據(jù)集使用GSMA Open Telco Benchmark 2.0中未公開的TeleLogs特定競(jìng)賽版本,通過兩階段分別發(fā)布競(jìng)賽題,防止早期過擬合。
大模型需要在真實(shí)的5G路測(cè)日志、工參等信息中,定位配置錯(cuò)誤或網(wǎng)絡(luò)問題,重點(diǎn)考察其在電信推理任務(wù)-網(wǎng)絡(luò)故障根因分析的基礎(chǔ)能力,需要模型具備「物理世界的直覺」。
賽題設(shè)置:
通過兩階段分開分布賽題,支撐對(duì)作品模型的泛化性能力評(píng)估,預(yù)防過擬合結(jié)果:
第一階段:該階段公布一部分比賽用例,支撐參賽人員研究并查看初步結(jié)果;
第二階段:剩余問題將于挑戰(zhàn)截止日期前兩周公布,綜合評(píng)估在更廣泛網(wǎng)絡(luò)問題中模型推理能力。
核心評(píng)估指標(biāo):
Pass@1:衡量模型在單次嘗試中得出正確答案的能力。其計(jì)算方法是分別評(píng)估生成的4個(gè)答案,然后對(duì)所有樣本的正確率取平均值;
綜合能力評(píng)估:未預(yù)防模型在專有任務(wù)的過擬合,模型的最終評(píng)估將在涵蓋保持通用知識(shí)準(zhǔn)確性的能力。即判分評(píng)測(cè)集將包含網(wǎng)絡(luò)故障數(shù)據(jù)(與公開案例不同的數(shù)據(jù)分布)以及通用知識(shí)問題。
??難度預(yù)警:
在最新的海外廠商測(cè)試中,Agent類挑戰(zhàn)任務(wù)使用閉源模型的最好表現(xiàn)不足50%,這意味著,目前的通用大模型距離成為「可靠的網(wǎng)絡(luò)工程師」,仍有很長(zhǎng)的路要走。
![]()
One More Thing
Agent挑戰(zhàn)賽即將開啟
除了面向網(wǎng)絡(luò)故障的定位任務(wù),GSMA AI挑戰(zhàn)賽的下一跳為限時(shí)條件下的智能體任務(wù)。
在網(wǎng)絡(luò)運(yùn)維場(chǎng)景中,通過深度模擬高度還原的企業(yè)級(jí)數(shù)據(jù)中心組網(wǎng)環(huán)境,競(jìng)賽系統(tǒng)會(huì)通過動(dòng)態(tài)注入技術(shù),隨機(jī)產(chǎn)生異常波動(dòng)與突發(fā)故障,模擬出真實(shí)生產(chǎn)環(huán)境中的各種不確定性。
開發(fā)者可以通過訓(xùn)練模型、設(shè)計(jì)并實(shí)現(xiàn)智能體完成真實(shí)網(wǎng)絡(luò)運(yùn)維業(yè)務(wù)場(chǎng)景的關(guān)鍵難題,系統(tǒng)將針對(duì)每類問題生成獨(dú)立的任務(wù)環(huán)境,涵蓋多家網(wǎng)絡(luò)服務(wù)廠商的真實(shí)問題分布,最終以步驟級(jí)推理和最終結(jié)果進(jìn)行打分,深度評(píng)估Agent在應(yīng)對(duì)復(fù)雜網(wǎng)絡(luò)問題時(shí)的邏輯推理能力與自動(dòng)化處置效能。
而將Agent置于復(fù)雜的拓?fù)浣Y(jié)構(gòu)與動(dòng)態(tài)流量之中,這種全鏈路、高壓力的場(chǎng)景設(shè)定,旨在使參賽智能體需像資深運(yùn)維專家一樣,不僅要理解深厚的網(wǎng)絡(luò)協(xié)議知識(shí),更要在海量告警的干擾下精準(zhǔn)完成告警相關(guān)性分析,并迅速給出網(wǎng)絡(luò)還原策略,即自主完成網(wǎng)絡(luò)還原、故障定位與修復(fù)。
在效能考核上,競(jìng)賽制定了「準(zhǔn)確性(Correctness)」與「速度(Speed)」并重的雙重評(píng)價(jià)體系,旨在深度挖掘Agent在復(fù)雜網(wǎng)絡(luò)環(huán)境下發(fā)現(xiàn)并修復(fù)故障的實(shí)戰(zhàn)潛力。
相關(guān)任務(wù)敬請(qǐng)期待~
![]()
重構(gòu)運(yùn)營(yíng)模式
構(gòu)建「網(wǎng)絡(luò)生命體」
AI Telco Troubleshooting Challenge系列賽事不僅是一場(chǎng)技術(shù)競(jìng)賽,更是電信運(yùn)營(yíng)模式重構(gòu)的開始。
電信領(lǐng)域的AGI愿景,是構(gòu)建一個(gè)能夠自我感知、自我決策、乃至自我進(jìn)化的「網(wǎng)絡(luò)生命體」。
構(gòu)建電信領(lǐng)域?qū)S迷u(píng)測(cè)基準(zhǔn)不僅是技術(shù)發(fā)展的必然要求,更是推動(dòng)產(chǎn)業(yè)智能化升級(jí)的戰(zhàn)略支點(diǎn),為破解垂直領(lǐng)域AI評(píng)估難題提供了可復(fù)制的范式。
本次挑戰(zhàn)賽預(yù)示著電信運(yùn)營(yíng)模式的根本性重構(gòu),降低風(fēng)險(xiǎn)并加速人工智能在電信行業(yè)的應(yīng)用,形成「技術(shù)-場(chǎng)景-商業(yè)」閉環(huán),實(shí)現(xiàn)AI從「可用」到「可信」的質(zhì)變,推動(dòng)「工程師」角色的深刻變革。
立即報(bào)名
挑戰(zhàn)SOTA
無論你是來自高校的科研狂人,還是大廠的算法大神,這場(chǎng)「電信界的究極挑戰(zhàn)」都不容錯(cuò)過。
立即訪問官網(wǎng)報(bào)名:https://telcoai-competition.bluescarf.ai/
截止時(shí)間以官網(wǎng)公布信息為準(zhǔn)。
最新挑戰(zhàn)賽的詳細(xì)安排也將在大賽官網(wǎng)陸續(xù)更新,敬請(qǐng)期待!
二維碼快速報(bào)名:
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.