<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      獨家實錄|唐杰、楊植麟、林俊旸、姚順雨...All Star 對話上,大家聊了啥?

      0
      分享至


      中國 AI 全明星

      今天下午,AGI-Next 閉門峰會,匯集了中國 AI 行業全明星陣容

      三場報告,分別來自智譜唐杰Kimi 楊植麟Qwen 林俊旸

      開源四大天王,三缺一
      DeepSeek 由于眾所周知的原因,無法出席

      一場圓桌,參與者包括:楊強唐杰林俊旸姚順雨(遠程連入)

      最終的收尾,來自德高望重的張鈸院士


      活動日程

      AGI-Next 活動,由唐杰老師召集,獨一檔的號召力

      我在現場,給大家帶來了這份獨家實錄,共計4萬余字


      讓機器像人一樣思考

      演講人:唐杰(智譜首席科學家、清華大學教授)

      今天這個活動更多的是個學術活動,所以我們沒有前面太多的環節,咱們直接進入報告環節。

      我自己這次要求大家、要求我們的團隊沒有主持人,不需要主持人。未來都是AI時代了,用AI主持,現在AI還沒有做到,我先自我主持。第二個報告Kimi直接上來就行了,俊旸也直接上來,接下來是Panel,我開始我的報告。

      我的報告題目,一方面是匯報我們這個基礎實驗室現在做的一些工作,另外一方面再給大家探討一些想法和對未來的一些看法。我的題目是「讓機器像人一樣思考」,為什么這么說?其實我這個題目,當年我第一次提出來的時候,張鈸院士是反對我的,說你不能老說讓機器像人一樣思考。但是我加了一個引號,所以現在可能允許我加引號說了。

      智譜的起源與精神

      我們從2019年開始在思考,我們能不能做到讓機器像人一樣真正在有可能的一點點的思考。所以2019年我們從清華成果轉化,當時在學校的大力支持下,我們成立了智譜這么一家公司,我現在在智譜做首席科學家。我們也開源了很多,大家可以看到這里有開源的很多項目,左邊還有很多關于大模型API調用的一些東西。

      我在清華大概有20年,我2006年畢業,到今年正好20年。其實我一直在做的事情,我總結了一下也就兩個事:第一,當年做了AMiner系統;第二,現在在做的大模型。

      我一直有一個觀點,我自己受影響也比較大,我把它叫做像咖啡一樣的精神來做事情。其實那個事情跟今天在座的一位嘉賓非常相關,就是楊強教授。我記得我剛畢業的時候去港科大,去過的人都知道港科大就是一棟樓,會議室在里面、教室在里面、實驗室也在里面、咖啡廳也在里面,吃飯的、打籃球的,都在這一棟樓里面。當時我們老能碰到,有一次在咖啡廳碰到以后,我就說這兩天咖啡喝的非常多,是不是要戒一戒,要不然對身體不好。楊老師第一句話是說「對,應該戒一戒」,然后他說也不對,如果我們做研究能像你喝咖啡上癮,是不是我們研究就做的非常好了?

      當時喝咖啡上癮這個事情一下子對我觸動非常大,而且從2008年影響我到現在,也就是做事情可能就是要專注,一直做下去。這一次正好有幸碰到AGI這個事情,正好是需要長期投入、長期做的一件事,它不是短平快,今天我做了,明天就能開花結果,后天就結束了,它非常長期,恰恰值得來投入。

      我們實驗室2019年的時候在圖神經網絡、知識圖譜方面,其實我們在國際上做的還行,但當時我們堅定地把這兩個方向暫停了,暫時不做了,所有的人都轉向做大模型,所有的人開始啟動了大模型相關的研究。到今天做了一點點事情。

      大模型智能水平的演進

      大家也知道全球化,其實這張圖是在2025年2月份,在整個大模型發展史上,我們把它叫智能水平,這個智能水平已經大大提高了。

      從早期的2020年,其實我們看到一些很簡單的像MMU和QA的一些問題,當時已經很不錯了,到今天基本可以做到非常滿分的程度。慢慢地,從最早期一些簡單的問題,到了2021、2022年開始做一些數學題、一些需要推理——也就是加減乘除才能做對的問題,這時候我們可以看到模型通過后訓練,慢慢地,現在也把這些問題補齊了,而且能力也大大提高。

      再到2023、2024年,大家看到模型的發展從原來的只是一些知識記憶,到簡單的數學推理,到更復雜的,甚至可以做一些研究生的問題,甚至開始回答一些我們真實世界的問題。比如說SWE Bench里面,其實已經做了很多真實世界的編程問題。這時候我們可以看到模型的能力,智能水平越來越復雜,就像人成長一樣——一開始我們在小學里面多看書,慢慢地做數學題,慢慢到了初高中,我們回答一些研究生的復雜推理問題。再到畢業之后,我們開始完成工作上的一些問題,更難的一些問題。

      到今年大家可以看到,HLE(人類終極測試)這個任務里面特別難,如果大家去看HLE里面,甚至有些問題連谷歌也找不到,比如說世界上某一個鳥的某一個恥骨的某一個什么,連谷歌也找不到這個頁面,所以需要這個模型泛化出來。這時候該怎么做?現在也沒有答案,但大家可以看到,它的能力在2025年快速得到提升。

      從Scaling到泛化

      另外一方面,我們可以看到這個模型,什么叫從Scaling到泛化?我們人一直都希望機器有泛化能力,我教它一點點,它就能舉一反三,其實就和人一樣。我們在教一個小孩子的時候,我們總希望教小孩子三個問題,他就會第四個、會第十個,甚至連原來沒教過的也會,這時候我們怎么來做?

      直到今天,我們的目標是希望通過Scaling讓它有更強的泛化能力,但是直到今天它的泛化能力還有待大大的提高,我們在不同的層面在提高它。

      最早期的時候我們用Transformer訓一個模型,把所有的知識記憶下來。我們訓的數據越多,我們訓的算力越多,它的長時知識的記憶能力越強,也就是說它把世界上所有的知識都背下來了,并且有一定的泛化能力,可以抽象,可以做簡單的推理。于是你要問一個問題,中國的首都是什么?這時候模型不需要推理,它只是從知識庫里拿出來。

      第二層是把這個模型進行對齊和推理,讓這個模型有更復雜的推理能力以及理解我們的意圖。我們需要持續的Scaling SFT,甚至強化學習。通過人類大量的數據反饋,我們在Scaling反饋數據,讓這個模型可以變的更聰明、變的更準確。

      今年是RLVR(可驗證獎勵強化學習)爆發年。今年我們通過可驗證的強化學習,原來為什么這個事情很難做呢?因為原來我們通過人類反饋,我們只能通過人類反饋數據來做,但人類反饋的數據里面噪音也非常多,而且場景也非常單一。但如果我們有一個可驗證的環境,這時候我們可以讓機器自己去探索、自己去發現這個反饋數據,自己來成長。

      這里面難題的難題,大家一聽就知道,說可驗證是什么意思?比如說可驗證,數學也許可以驗證、編程可能可以驗證,但更廣泛的,比如我們說做了一個網頁,這個網頁好不好看,這時候可能就不大好驗證了,它需要人來判斷。于是,我們現在可驗證的RLVR面臨的問題是什么?原來可驗證的場景也許逐漸地不夠用了,我們能不能到一些半自動可以驗證,甚至不可驗證的一些場景里面,讓這個模型變的更加通用,這是我們面臨的一個挑戰。

      未來機器慢慢地開始在物理世界做一些真實的任務,這些真實的任務,我們怎么來構建智能體的環境?這是面臨的更多的一些挑戰。大家可以看到這幾年AI在沿著這幾個方面,不僅僅是簡單的Transformer,其實整個AI已經變成了一個大的系統、一個智能化的系統。

      從Chat到做事:新范式的開啟

      從原來更多的是數理化的一些推理,從簡單的小學、初中、高中到更復雜的GPQA理化生的復雜問題,到更難的甚至是一些奧賽金牌的問題,到今年大家可以看到HLE非常高難度的智能評測基準,現在在開始進行快速的提升。

      另外一方面在真實的環境下,像今天很多人都在說代碼能力特別強,而且能完成很多真實的代碼。但事實上在2021年代碼模型也存在,當時還跟俊旸、Kimi植麟有很多合作,當時也做出了很多這種模型。其實當時的Coding模型也可以編程,但當時的編程能力遠遠不如現在,甚至當時編十個程序也許對一個,但現在可能編一個程序,很多時候能自然的跑通,而且是一個非常復雜的任務,到今天我們現在已經開始用代碼來幫助高級的工程師完成更復雜的一些任務。

      大家可能會問,是不是智能越來越強,我們直接把模型不停地訓就行了?其實也不是。大家知道2025年初發生了什么,2025年初DeepSeek出來,很多時候叫橫空出世,我覺得這個詞用的挺好的,真是叫橫空出世。可能對我們研究界、對產業界,甚至對很多人都是,因為大家原來在這個學術界、產業界都沒有料到DeepSeek會突然出來,而且確實性能很強,而且一下子讓很多人感到很震撼。

      后來我們在2025年初的時候當時在想一個問題,也許在DeepSeek這種范式下,把這種Chat時代基本上差不多算是解決了,也就是說我們做的再好,也許在Chat的問題上可能做到最后跟DeepSeek差不多,或許我們在上面再個性化一點,變成有情感的Chat,或者再復雜一點。但是總的來講,這個范式可能基本上到這快到頭了,剩下更多的反而是工程和技術上的問題。

      當時我們面臨這么一個選擇,我們怎么讓這個AI下一步朝向哪個方向發展?我們當時的想法也許新的范式是讓每個人能夠用AI做一件事情,這可能是下一個范式,原來是Chat,現在是真的做事了,所以新的范式開啟了。

      技術路線的選擇:Thinking + Agentic + Coding

      還面臨的選擇,因為這個范式開啟,有很多種開啟方法。大家還記得年初的時候,我記得有兩個問題:一個是簡單的編程,做Coding、做Agent;第二是我們可以用AI來幫我們做研究,類似于DeepResearch,甚至寫一個復雜的研究報告。這兩條思路可能還不大一樣,這也是一個選擇的結果。一方面是做Thinking,我們加上一些Coding的場景;另外一方面可能要跟環境交互,讓這個模型變的更加交互、更加生動,怎么來做?

      后來我們選了左邊這條路,我們讓它有Thinking能力。但是我們也沒有放棄右邊,我們大概在7月28號做了一件事情,相對來講還比較成功的,把Coding、Agentic、Reasoning能力整合在一起了。整合在一起可能也沒那么容易,原來一般來講大家做模型的時候,Coding相對來講可能單獨拿出去做,Coding變成Coding,推理變成推理,甚至有時候會數學變成數學,但這種做法往往會損失掉其他的能力。所以我們當時是把這三個能力基本上合在一起,讓三個能力都相對比較平衡,在7月28號我們發布了4.5版本,這個版本在當時用12個Benchmark,我們在智能體、推理、代碼上,基本上跑出來還算比較不錯的一個結果。所有的模型,我們在國內,包括今天千問和Kimi,其實都是你追我趕,有時候這個在前面,有時候那個在前面,在當時那一天,我們排在前面。

      真實環境下的挑戰與突破

      但是很快我們就把這個4.5開放出來讓大家用,大家拿去編程吧,我們現在這個能力還挺不錯的。既然我們選擇了Coding和Agent,它就能做很多編程任務,我們就讓它來編這種非常復雜的一些場景。結果發現用戶跟我們反饋說,比如說我們要編一個植物大戰僵尸,這個模型編不出來。

      因為真實的環境下往往非常復雜,這個游戲是用一個Prompt自動生成的,包括整個游戲就可以玩,用戶可以點擊怎么來得分,選擇什么樣的植物以及怎么來打僵尸,僵尸從右邊走過來,包括界面、包括后臺的邏輯,全部是用這個程序自動一句話寫出來的。這時候4.5在這個場景下做不出來,出了很多Bug,怎么回事?

      后來我們發現在真實的編程環境下,它里面有很多問題,比如說在上面這種編輯環境下有很多問題需要解決,這時候恰恰利用到RLVR可驗證的強化學習環境。于是我們在這里面搜集到大量的編程環境,通過編程環境作為強化,再加上一些SFT數據,使得這一塊可以兩方交互,把這個模型的效果提高。另外一方面,我們在Web方面也做了一些工作,把Web的一些能力也利用Web環境,加上一些反饋,加上環境可驗證。總的來講是通過可驗證來探索,于是我們當時在SWE Bench上得到了很不錯的分,包括最近我們也得到了很不錯的分。

      但這個模型的跑分是跑分,進入主模型又是一個非常大的挑戰。很多人都有一個Benchmark,說我這個Benchmark分很高,但是真正這個能力進入主模型的還面臨更多的一些挑戰,而且在真實的體感中,用戶體感還不一定效果好。

      另外一個挑戰,既然有這么多大量的RL任務,怎么把它全部統一訓練在一起?因為不同的任務的長度都不一樣,時間長度也不一樣。所以我們當時開發了一個全異步的訓練強化學習框架,怎樣使得它異步的開始跑起來,這是我們在今年開源的另外一個框架里面的一個工作。這也使得Agent和Coding能力得到了很多的提升,最終的結果,我們最近發布的4.7,相比原來的4.6和4.5在Agent和Coding方面大大提升。

      在體感方面更重要,為什么?因為你真的把Coding模型開放出去以后,用戶用的跟你的跑分還不完全一樣。今天可能是他自己的程序,我這個程序可能在我這個數據上做一個排序算法,效果好不好,體感好不好,他用的是這個結果,用的不是分值有多高。所以在真實的跑分下,我們也進行了詳細的評測,這個評測完全是人工來做的,找了非常多編程高手來做評測。當然這里面還沒有解決,還面臨很多問題要解決。

      最后我們把這些能力整合到一起,2025年底我們在Artificial Analysis榜單上跑出了一個還不錯的分,得到了還可以的分。

      Device Use:從編程到操控設備

      另一方面,我們又隨著進一步發展,你要把這個問題在Agent環境下真的讓它大規模用起來。大家可以看作Agent最基礎的能力,什么叫最基礎的能力?編程嘛,計算機編完程以后,它就可以執行,相當于Agent里面的一個action或者兩個action。但如果你要做的更復雜,左邊是Claude發布的computer use,中間是豆包手機,右邊是Manus做的異步超長的任務。

      假如你要讓這個機器幫你做幾十步、上百步的任務,甚至你說「請幫我搜集一下今天關于清華大學在小紅書上所有的討論,討論完以后,關于某某的全部整理出來,給我生成相關的文檔」,這時候AI得在一天監控小紅書。它是自動的、完全異步,你不可能把手機打開盯著它,它是異步的,它是個非常復雜的任務。這樣非常復雜的任務,總而言之,可以把剛才的問題變成一個Device Use,也就是在整個設備上我們怎么來做。

      這里面更大的一個挑戰,有些人說是不是更多的是采數據?其實更大的問題是很多應用根本就沒有數據,全部是代碼,全部是冷啟動,這時候該怎么辦?當然我們更希望我們通過這些數據能夠一下子泛化出去。

      所以最早的確實是我們采了大量的數據,上千個數據,我們來進行整合,包括SFT,包括在特定領域的強化,使得它在某些領域上可以把效果做的不錯。但是更多的時候你會發現原來的iPhone use都是點按鈕,但是更多的時候AI交互不是人。我們原來都把AI當作一個人,說AI能不能幫我們操作手機,但是你要想一下,其實這個AI不需要操作手機,更多的是API。但是現在你又不可能把手機變成純API的系統,沒有這個按鈕了,所以這時候該怎么辦?

      我們采用混合的方式,把API跟GUI兩個混在一起,對AI比較友好的時候采用API的方式,有時候對人友好的時候,讓AI模擬人來做GUI的操作方式。于是把這兩個整合在一起,我們在大量的環境里面抽取到大量的數據,并進行全異步的強化學習,這樣就把整個東西給整合在一起,使得這個AI有一定的泛化能力。我剛剛說有一定的泛化能力,原因是說直到今天這個泛化能力都還差的很多、都還差的很遠,但是它有一定的泛化能力了。

      更重要的是我們怎么克服冷啟動帶來的一些問題,比如如果說我們的數據不夠,我們通過強化學習有可能把它帶入一個陷阱。這個強化學習到最后,它整個學到以后,這個模型就像鉆牛角尖一樣,它就認死理,說我就要這樣,效果一下就跑偏了。這時候怎么把它拉回來?于是我們把SFT在中間穿插了一步,也就使得這個模型強化一段時間,再做一些SFT,再強化一點,變成一個交替的,使得它有一定的容錯能力和有一定把它拉回來的能力,變成可擴展的訓練算法。在移動環境下,我們使得效果在安卓里面取得不錯的提升。

      另外在多任務的大模型強化學習上,我們也做了一定的工作,在算法上主要采用多輪的強化學習,工程上本質上就是Scaling,讓它更大規模的往下。

      AutoGLM開源

      今年我們大概在12月份的時候開源了AutoGLM,把里面所有的東西都開源。大家注意我們開源的這個模型是9B模型,不是一個超級大的模型,原因是9B可以在人機交互里面動作特別快,執行速度特別快,如果特別大的話,它的執行速度就會很慢。所以我們開源了一個9B的模型,這個模型一開源,當時一下子就獲得了兩萬多個star,而且三天就拿了一萬多個star,還算不錯。

      這是一個例子,比如說我們下周要去長春玩,幫我們總結一下當前頁面推薦的一些景點,然后到高德地圖上收藏這幾個景點,包括查看票價,再去12306訂一張10點鐘從北京去長春的高鐵票,把相關信息整理好給我。這個模型在后臺會執行40步,它會調用不同的APP,把不同的APP打開,然后輸入相關的信息,相關查詢、執行,整個操作40步執行完之后,把所有的東西全部給你。相當于這個AI做了一個類似于你的秘書的事情,整個全部執行下來。

      更重要的是在所有的Device-use里面有幾個榜單,包括OSWorld、Browser use、Mobile use相關的一些Bench,我們都取得了很不錯的效果。其實你可以把這個模型想象成用了很多Agent數據在訓,我們在9B的模型上用了很多Agent數據在訓,其實它把原來的很多語言能力、推理能力可能會降低,也就是說它不再是純通用的模型,它可能在Agent方面能力比較強,但是在其他方面可能會減弱。于是給我們帶來一個新的問題,在未來這種超大規模的Agent模型上怎么來使得它不要降低,這變成一個新的問題。

      2025年:GLM開源年與中國開源模型的貢獻

      我們2025年也是GLM的開源年,我們大概從1月份到12月份開源了很多模型,包括語言模型、智能體模型,還有我們多模態的模型,GLM-4.6、4.6V、4.5V等相關的一些模型。

      而且更重要的是我們可以看到中國開源模型在2025年做的貢獻,這里藍色的是開源的模型,黑色的是閉源的模型。我們可以看到Artificial Analysis上面,藍色的前五基本上全部是中國的模型,也就是我們中國在開源大模型上做出了很多貢獻。我們可以看到相比2025年初,也就是2024年的時候,美國這邊開源,包括Meta LLaMA還占了絕對的優勢。隨著一年的發展,中國慢慢地在前五,基本上現在變成中國的模型。右邊的這個圖是大模型的盲測榜單,也就是通過人工評測的結果,我把它截屏了過來。

      清醒認識:差距可能還在拉大

      下面一個問題,下一步我們還能繼續Scaling嗎?我們下一個AGI范式是什么?我們面臨更多的一些挑戰。

      我們剛才做了一些開源,可能有些人會覺得很興奮,覺得中國的大模型好像已經超過美國了。其實可能真正的答案是我們差距也許還在拉大,因為美國那邊的大模型更多的還在閉源,我們是在開源上面玩了讓自己感到高興的,我們的差距并沒有像我們想象的那樣好像在縮小。有些地方我們可能做的還不錯,我們還要承認自己面臨的一些挑戰和差距。

      未來思考:參考人腦認知的學習過程

      下一步我們應該怎么做?我這里有一些簡單的思考。我覺得從大模型整個發展史來講,其實就是參考人腦認知的學習過程。從大模型最早的,要把世界長時知識全部背下來,就像小孩子,從小先看書,把所有的知識先背下來,然后慢慢地學會推理,學會數學題,學會更多的演繹、抽象。

      對于未來來講,也是同理,對于人腦的認知學習來講,未來有哪些能力,現在大模型還沒有,但是人遠遠超過我們:

      第一,2025年可能是多模態的適應年。 為什么這么講?可能全球除了少量的幾個模型,一下子吸引了很多關注,包括我們在內的很多多模態的模型都沒有引起很多人的關注。更多的大家在做文本的智能提升。對于大模型來講,怎么把多模態的信息收集起來,并且能夠統一感知起來,也就是我們經常說的原生多模態模型。后來我想了想原生多模態模型和人的「感統」很相似,人的感統是我這邊收集到一些視覺信息,還收集到一些聲音的信息,還收集到一些觸感的信息,我怎么把這些信息感統到一起,來感知一個東西。像我們人有些時候大腦會有些問題,很多時候是感統不夠,感統失調會出現的問題。對于模型來講,下一個多模態的感統能力怎么來做?

      第二,模型現在的記憶能力和可持續性學習能力還不夠。 人有幾級記憶系統,我們有短期記憶、工作記憶、長期記憶,甚至我之前跟我們的同學、跟我們實驗室的人聊天,我說好像一個人的長期記憶也并不代表知識,為什么?因為我們人類只有真的把這個知識記錄下來,比如說對于我來講,如果我的知識不能被記錄在維基百科上,可能100年之后我也消亡了,我對這個世界也沒有什么貢獻,好像也不叫知識,好像在未來訓人類大模型的時候,我的知識也沒用,都變成噪音了。咱們怎么把我們整個記憶系統從單個人的三級到整個人類的第四級記錄下來,整個記憶系統是我們人類未來要給大模型構建起來的。

      最后,反思和自我認知。 其實現在模型已經有一定的反思能力,但未來自我認知是很難的問題,很多人在懷疑大模型有沒有自我認知的能力。在座的也有很多基礎模型實驗室的專家,有些人是支持的,有些人是反對的,我是有一些支持的,我覺得這是有可能的,我們值得探索。

      系統一與系統二

      人類認知是雙系統,系統一和系統二

      系統一完成了95%的任務,比如說人類問一個問題,中國的首都是什么?大家的回答是系統一,因為你背下來了。或者你說你今晚晚上吃飯嗎?你說吃,也是系統一,這些全部是系統一背下來了。只有更復雜的推理問題,比如說我今天晚上要請一個來自四川的朋友大吃一頓,去哪吃?這時候就變成系統二了,它就得琢磨這個四川的朋友是哪里來的,我們去哪大吃一頓,那就是系統二做的事情。系統二在我們日常中只占5%。

      對于大模型來講同樣的道理,在2020年我們畫了這么一個圖,我們當時是說參考人類的AI系統應該長什么樣子,有人類的系統一、有人類的系統二,還有一個自學習

      當時為什么想了一個自學習呢?當時我是這么想的:首先系統一可以構建一個大模型,讓它基于匹配就能回答,解決系統一的問題;系統二是可以加上一些知識融合,比如指令微調和思維鏈;第三是如果有些學過認知的,人腦在晚上睡覺的時候會無意識的自學習,如果人沒有晚上睡覺不會變的更聰明。當時我們2020年的時候就說未來一定有AI的自學習機制、自學習思維鏈,但我們不知道怎么學習,就是先把問題拋出來。

      對于系統一來講,我們在不斷地Scaling。如果我們在不停地Scaling數據,這帶來了智能上界的提升。同時我們還在Scaling推理,使得機器思考的時間越長,用更多的計算和更多的搜索來找到更準確的解。第三方面是我們在Scaling自學習環境,讓這個機器有更多的機會跟外界交互,拿到更多的反饋。

      所以通過這三個Scaling,我們可以讓機器來參考人的學習范式,得到更多的學習機會。

      Transformer的挑戰與新型架構

      對于系統一來講,如果已經有Transformer了,是不是意味著我們只要加數據就完了,加更大的參數就完了?原來30T不夠,是不是50T?50T不夠就100T,到最后再加上參數從100B到1T到3T到5T甚至更大。

      但我們現在面臨另外一個問題,什么問題?Transformer的計算復雜度是一個O(N2),使得我們在增大context的時候,顯存的增大和推理效率能力會越來越低,這里面臨很多問題。最近有一些新型模型,包括一些線性模型試圖在用線性的方法,參考人腦是我用更小的腦容量能存更大的知識。甚至更本質的一個問題是有沒有可能,因為原來Transformer越訓越大,包括最早的時候,我們探討的時候沒有說我們非得把模型弄小,越來越大比較早。

      但最近我也在反思,我們能不能找到更好的知識壓縮的方法,把知識壓縮到更小的空間里面,這是一個新的問題。

      這里面面臨兩個問題:第一個問題,工程上有沒有辦法?第二個問題,方法論有沒有辦法?所以最近包括很多人在探討,我們大模型可能要回歸到研究上來,不能像原來單純的Scaling。Scaling是一個很好的辦法,但Scaling可能是最輕松的辦法,是我們人類偷懶的一個辦法,我們直接把Scaling Up上去,它就是一個偷懶的辦法。但是更本質的方法,可能我們要找到新的東西。

      第二個是新的Scaling范式。Scaling可能是一個非常重要的路徑,但我們怎么找到一個新的范式,讓這個機器可以Scaling的機會。讀書是一個機會,跟人交流也是一種機會,我們要找到一種新的,讓這個機器可以獨立Scaling的方式。有些人會說我們加大數據,加大數據是我們人強加給它的,這個機器必須找到自己能通過、自己來定義一些獎勵函數,自己來定義一些交互方法甚至訓練任務來做Scaling,這是系統二來做的事情。

      更重要的是我們有了剛才兩個以后,還要完成更多真實場景下超長的任務,這塊怎么來做?要讓這個機器有像人一樣PLAN規劃,做一下,檢查一下,再反饋一下,人是這樣來工作的,機器有沒有可能這么做?一個超長任務怎么完成?

      舉個例子,我們今年已經有一點點文章出來,年初的時候跟我們團隊的小伙伴說,年底你必須給我寫一篇文章,但是沒實現,最后也沒做出來。反正到現在,大家知道在網上已經有一些文章開始嘗試,這個idea也是模型生成的,實驗也是模型做的,報告也是模型做的,最后可以做一個Workshop,但事實上還沒有做出來,這里給出一個真實的超長環境下的任務例子。我們希望在這個基礎上來定義未來AI會長什么樣子,這是我們的一些思考。

      智能的五個層級

      早期在這個大模型之前,大部分機器學習都是F(X)到Y的映射,我學習一個函數,使得X樣本可以映射到Y。大模型來了之后,我們把這個問題變成F(X)到X的映射,可能映射的也不是嚴格的X,但我們是讓它完全用自監督的學習來做多任務的自學習。

      另外第二層,我們加上這些數據之后,讓這些模型學習如何推理,如何激活底層的智能。

      再往后,我們在教這個機器有自反思、自學習的能力,通過這個機器能夠不斷地自我批評,能夠學習到哪些東西我應該做,哪些東西可以更優的來做。

      到未來,我們還要教這個機器能學習到更多,比如說能學習到自我認知,讓這個機器能對自己的行為,比如說AI生成了大量的內容可以自我解釋,我為什么要生成這個內容,我是什么,我的目標是什么。在終極上也許有一天,AI也有意識

      我們大概有這么定義五層的思考。

      計算機的三個核心能力

      從計算機的角度上,計算機不會定義這么復雜。在我看來計算機有三個能力:

      第一,計算機的表示和計算。 把數據表示出來,它可以做計算。

      第二,編程。 計算機只有編程是計算機跟外界的交互。

      第三,本質上是搜索。

      但是這幾個能力疊加在一起:第一是有了表示和計算,可以使存儲能力遠超于人。第二是編程可以做出人類更復雜的一些邏輯。第三,搜索可以比人做的更快。這是計算機這三個能力疊加在一起,可能能帶來所謂的「超級智能」,也許能超過人類的一些能力。

      AGI-Next 30:未來30年的愿景

      我突然想起2019年,這個PPT原來真的是跟阿里巴巴合作的時候,當時讓我給出一頁PPT,我當時給出了這一頁PPT,就是AGI-Next 30,未來30年我們應該做什么。

      這個圖是我截屏下來的,Next AI,我們說在2019年的時候,未來30年,我們應該做讓機器有推理能力、有記憶能力、有意識。我們現在差不多在這里面做了一定的推理能力,大家應該都有一點點共識。記憶能力有一部分,但意識還沒有,這是我們在努力的。

      未來我們也在反思,如果用參考人腦認知,未來的AI可能會有什么是我、為什么是我,以及給這個模型構建意義系統,還有單個智能體的目標,以及整個智能體群體的目標,這樣我們實現對未知的探索。

      有些人可能會說這個完全不可能,但是大家記住,我們人類的終極意義是我們在不斷地探索未知的知識,我們越是覺得不可能的,恰恰也許就是我們未來AGI上路上要去探索的。

      2026年展望

      2026年對我來說更重要的是要專注和做一些比較新的東西。

      第一,我們要Scaling可能還會繼續做下去,但Scaling已知的是我們不斷加數據、不斷探索上限。還有Scaling未知,就是我們不知道的新的范式是什么。

      第二,技術創新。 我們會做全新的模型架構創新,解決超長上下文,還有更高效的知識壓縮問題,以及我們會實現知識記憶和持續學習,這兩個方面加在一起,可能是未來實現讓機器比人能力還強一點點的一個機會。

      第三,多模態感統,今年是一個熱點和重點。因為有了這個能力,我們才使得AI可以實現進入像機器里面的長任務、長時效任務,在我們人的工作環境里面,比如說手機里面、電腦里面,它可以完成我們的長任務。當完成我們的長任務,AI就實現了一個工種,AI變成跟我們人一樣,可以幫助我們實現。只有這樣,AI才能實現具身,才能進入物理世界。

      我相信今年可能是AI for Science的一個爆發年,因為很多能力大大提升,我們可以做更多的事情。

      以上就是我的匯報,感謝大家!


      Scaling Law、模型架構與Agent智能

      演講人:楊植麟(月之暗面創始人、Kimi)

      楊植麟的分享,充滿了技術與公式,這里簡單總結下:
      通過Token EfficiencyLong Context兩個維度優化,最終能實現更強的Agent智能。

      他指出Transformer優于LSTM的關鍵不在短序列,而在長上下文場景下Loss顯著更低——這正是Agent時代的核心需求。團隊采用MUON二階優化器實現2倍Token效率提升,并通過QK-Clip解決訓練不穩定問題,成功在萬億參數的Kimi K2上完成穩定訓練。

      下一代架構Kimi Linear采用Delta Attention線性注意力機制,首次在長程任務上超越全注意力,同時速度提升6-10倍。K2已成為中國首個Agent模型,可完成兩三百步工具調用,在HLE等核心評測上超越OpenAI。

      楊植麟強調,接下來的模型需要更多Taste(品位),因為智能不像電力可等價交換,每個模型產生的Token本質上是不同的。他引用與Kimi的對話:繼續開發AGI是因為放棄它意味著放棄人類文明上限,不能因恐懼而停滯


      Towards a Generalist Agent

      演講人:林俊旸(阿里通義千問)

      大家好,非常感謝唐老師的邀請,唐老師跟我說這是清華、北大聯合實驗室第一次辦的活動。唐老師和植麟都是清華,我代表北大來一下。我很久沒有回海淀區了,我是朝陽區的。

      今天整體介紹一下千問2025年的進展,有些東西相對舊一些,最近幾個月我們在憋著下一代的東西,我盡量講一些我能講的東西。

      Towards a Generalist Agent這個標題我其實換了很多輪,原來叫Towards a Generalist Model,后來覺得model是比什么都大的東西,后來想想agent也許是更大的概念,像人一樣你可以自主的使用工具,人和動物很大的差別是可以自主使用工具。所以就變成了Towards a Generalist Agent。

      而且今天訓練的范式發生了很大變化,過往我們不管做什么事情,都會有輸入和輸出把它標注出來,你可以認為是我們傳統的標注。今天有了這個新的技術以后,我只要解決了這個推理,解決了這個評估,這個東西就可以訓,干什么都可以,我就可以發揮想象力。比如說今天數據智能、模型智能都可能,這也是我一個干語言模型的人最近敢斗膽揚言我要做VLA和機器人的一個小小的原因。

      開源與產品

      大家如果想用上我們的模型的話,最容易體驗到我們開源模型和閉源模型。我覺得很有意思,之前我們一直做開源,大家比較清楚,不贅述和吹牛了。但是網友們一直在罵我們,你們那個東西很難用,每次都得去你們的模型上面找。我們就把OpenWebUI拖下來之后就把它變成了一個聚合器,看起來就像是ChatGPT一樣。本來算法的同學產品意識并沒有那么強,做著做著就有這種感覺了,模型即產品,就有很好玩的東西出來,所以我們都會放到這上面。一般我們會在qwen.ai里面就可以很好的搜到,發博客對于我們來說比較簡單,最近我們火的新的模型架構Qwen Next,很多同學沒有辦法引用,原諒一下我們。

      我們做開源做的比較久,2023年8月3日開始做開源,很多人問我們為什么做開源這一件事情?很多事情都有機緣巧合的成分在這里,反正開源一路做下來之后做了很多,至少還是比較工業的事情。東西不多,基本是一些腳本大家在上面看就可以。我們的模型是比較多的,為什么相對比較多?以前有很多人不理解我們為什么做小模型,但是今天大家都明白小模型還是挺有價值

      小模型最終起源于我們內部用來做實驗的1.8B模型,我們做預訓練,資源畢竟有限,你做實驗的話不能通通用7B的實驗來驗,就拿1.8B的來驗。當時我的師弟跟我說我們要把這個模型開源出去,我非常不理解。我說這個模型在2023年幾乎是一個不可用的狀態,為什么要開源出去?他跟我說7B很消耗機器資源,很多碩士生和博士生沒有機器資源做實驗,如果1.8B開源出去的話,很多同學就有機會畢業了,這是很好的初心。

      干著干著手機廠商跑來跟我們說7B太大,1.8B太小,能不能給我們干一個3到4B的,這個容易,沒有什么很難的事情。一路干下來型號類型越來越多,跟服務大家多多少少有一點關系。

      Multimodal Foundation Agent:我們的追求

      但是我們自己的內心追求的不僅僅是服務開發者或者服務科研人員,我們看一看能不能做一個Multimodal Foundation Agent,我特別相信這件事情。如果追溯到更遠的話,剛才唐老師說我們當年還在合作的時候,當時就在大干多模態,現在想想這是一個激情歲月。2023年的時候大模型是一個大家都不要的東西,多多少少有那么幾分大煉鋼鐵的成分,多模態是我們延續下來一直想做的事情。

      為什么呢?我們覺得如果你想做一個智能的東西,天然的應該是Multimodal,當然帶有不同看法,各個學者都有一些看法,多模態能不能驅動智力的問題。我懶得吵這個架,人有眼睛和耳朵可以做更多的事情,我更多的考慮是Foundation有更多的生產力,能不能更好的幫助人類,毫無疑問我們應該做視覺,我們應該做語音。

      理想的情況下,當年我記得我們2022年的時候,當時設計的一個系統是中間有一個大腦,我們不知道那個大腦是什么東西,但是我們知道不同的模態和任務都應該進入到這個大腦,從這個大腦輸出去,這個才是真正的想象當中的AGI。今天看起來很有可能,因為我不知道大家做的研究方向有沒有做統一理解生成這件事情,這件事情還挺復雜的。目前谷歌也沒有做到統一理解互相生成,但是我還挺相信這些事情。如果看GPT的話,今天把很多東西統一了之后,看起來更加完美一些,當年還在爭論他們到底是哪個好。

      Qwen3:今年最大的進展

      今年最大的進展是Qwen3,這個是吉祥物,有點像熊,但它是一只卡皮巴拉。做的時候我覺得我們同學太辛苦了,不想他們太辛苦,今天這么卷的時代佛系一點不是說不行。我們做的方向相對比較多一些,但是你可以看到每一個方向都有它自洽的邏輯在這里面。比如說我們做Text和VL、Omni,做的時間比較長,做視覺、文本、語音生成。我們做的過程當中,可能因為我們比較特殊的地方是我們背后是阿里云支持,我們有很多業務和阿里云的客戶比較相關。云的業務很多客戶是非常多樣的,包括Embedding、Guard都會給大家提供服務。

      今天圍繞相對比較主線的Text、VL,包括Omni會給大家做介紹,Coder會放在Text里和大家做相應的介紹。

      Text:Qwen3系列

      Text今年主要是Qwen3系列,現在已經做到3.5,3做的時間比較長一些。因為上一代2.5用了非常長的時間,一個最大的特點是總體能力提升。今年比較有意思的是reasoning的能力要提升,我補充介紹一下我個人的理解,reasoning和現在的單純的Instruct模型有一點不太一樣。

      第二個是我們支持的語言及方言,語言沒有那么多,加上方言一共有119種。為什么會做多語言這件事情呢?其實也有些機緣巧合的事情,2023年的時候,當時我們覺得只要把中文和英文做好就可以服務好我們需要的人群,但是有一回我遇到韓國朋友,他們在做Solar模型的時候,為什么不用我們的模型做呢?他說你們的模型根本就不懂任何的韓語,我感到非常的受傷,我就去看了一下,后來發現這個事情很簡單,順手就把它做了。后來發現我們全球的用戶越來越多,我記得一些巴基斯坦的朋友不斷的跟我說你快點支持烏爾都語,我們真的沒有大模型可以用了,這個事情我覺得確實挺好,于是我們支持了更多的語言。

      我們現在還沒有做完,非洲的數據確實有點難以收集,非洲的語言沒有覆蓋。今天我跟一些手機廠商聊了一下,非洲還有很多人使用功能機,我們今天已經進入智能機的時代,他們還在做這個事情,所以要幫助全人類的話,確實是任重道遠。如果你的想法不是幫助全人類的話,我覺得不如不做,所以就繼續干。

      第三個是今天的長文本、長視頻可能都是其中一個例子。但是我覺得這件事情很有意思,如果你真的想形成一個具有自我認知的模型,首先上下文得足夠長,之前還有人討論一個問題,你沒有必要把很多垃圾放到長上下文里面,但是有了這個以后才能做到下面的理解。所以我們現在一路做到1M以上,實際上我們內部已經做到好幾個M,可能還不夠。今天為什么還想說這是非常非常長的事情。

      Reasoning能力的提升

      回到剛才的問題,我們這一代模型可能和2024年相比,很大的一個區別是reasoning的能力要提升,廣義的reasoning是做問題推理,讓問題得到更好的解決。雖然不得不做相關的研究,怎么讓reasoning更加native一些。Qwen3的時候,我們4月份發的版本,當時有些做的不太好,數據方面沒有做的太好,合并起來有一些問題。

      當時,我們發現一個很有意思的現象,我們自己有超過90%的客戶不再使用Thinking模型,大量使用我們QwQ系列的很重要的原因是他們的用戶喜歡看機器和自己進行聊天。但是很快大家就回到Instruct,這里主要看一下黃色和藍色的部分,藍色是4月份版本,紅色是7月份版本。除了把數據做的更好以外,一件很重要的事情是AIME可以干到70分,你做Thinking可以做到90分,但是這個能力加進去之后,客戶很明顯的反饋是模型比以前聰明了很多。只有20多分,基本上什么題可能都做不了,比如說在教育領域做一點數學題可能都干不明白,這是我們挺驕傲的模型,這個模型也不是很大,很多人在用我們系列的模型。

      但是還有一個遺憾,這個模型還有很多東西沒有做完,這里是一個取舍的問題。比如說Coding和Agent能力怎么把它集成進去,做起來很難。考慮到自己的技術實力和狀況,包括自己一直做Coder系列,我們推出了這個模型。

      Coding:從競賽題到Software Engineer

      今天的Coder和過往的不太一樣。比如說去年和前年都在解單純的競賽題,給一道題看一看能不能把答案做出來。今天我們做什么事情呢?Software Engineer,2024年的時候大家非常驚訝,第一個AI能不能像一個程序員,今天我就維護一個項目這件事情挺難的,你把它做了就好了。

      實際做的過程中,這個事情人做起來步驟挺復雜,最簡單的是至少我可以打開這些文件夾,看了這些文件的名字知道我可以點開哪一個,其實是多輪交互的過程。今天做Agent一個很重要的點,為什么大家提多輪環境交互,說白了打開文件夾看一眼,這個其實也是一個跟環境交互的方式。這件事情很重要,并且非常有意思,讓我們非常激動,真的能產生產力。我們想做今天的Coding的模型可以有生產力,很多代碼可以寫出來,這是很驚訝的。

      當然這個中美是不一樣的,剛剛從灣區回來,我感受到兩邊不太一樣。這個是非常夸張的,但是今天是不是模型做的不夠好,還是說Web Coding還沒有做的更好,我覺得是大家認知上面有差異,我們想做的事情是殊途同歸,都是想讓它產生生產力。

      當時我們就特別關注兩個Benchmark,一個是SWE-bench,你能不能提一個PR把它解掉,70算是比較高的門檻,當然現在可以感到75以上,這是7月份的時候,當時我們做到67和69分覺得可以。Terminal-Bench也挺難,今天大家都在用這系列的產品,大家會發現這個東西確實會和你的生產力接在一起,和以前不一樣,今天我們做的是貼近實際的任務。也許今天我們只是一兩個Benchmark而已,有沒有可能讓它更加符合真實的環境和真實的生產任務是我們想做的事情。

      當時剛出的時候挺火的,但是現在競爭太過激烈,Token Coder量一直干到第二名,小小吹噓一下。

      Agent Scaffolds:算法與工程的聯合

      最有意思的是這一套東西,以前從來沒有做過,今天模型訓練我有一個Scaling,就是今天Agent Scaffolds的東西,所謂的腳手架你再簡單理解一點就是這個東西。它就能夠在機器里面跟阿里云的ECS的這些機器在這里面一個個起來,不僅是算法的挑戰,在里面干完活就把它消除掉。真真實實的存在,Infra挑戰也很多,右上角的東西我自己可以感受,左上角就得需要拉其他的伙伴一起,算法和Infra今天聯合的事情是真真實實存在的,今天我們要做這么難的任務,需要很多Infra的支持。

      這個是當時做Coding的事情,我們更想做的是把Coding的能力是否可以集成在我們很大的模型上。比較抱歉的一件事情是最大的這個模型,大于1T的模型,我確實沒有推動將其開源出來,雖然我也很想開源。但是就是這么回事,我們終于把這些能力集成進來,大家可以看到我們的SWE-bench可以做到70分,之前你沒有很好的把它集成進來,其實很難做到一個比較高的分數。這也說明一個問題,做到很強的時候,你也可以集成一個很強的模型,需要進行相應的積累。

      Qwen3-Max也是排在前五,Overall。當然,它體現的是人類的偏好,未來評測會不會是動態的?讓它放到人類的生產環境里面,比如說就讓它炒股票。最后有一個公司做炒股這件事情,雖然有很多隨機性,但是開了一個好頭,讓大家在人類的真實世界中看AI做的好還是不好。

      Visual Understanding:給模型裝上眼睛

      做語言模型其實還要想一個問題,它能不能有眼睛看到這個世界,舉個例子。我們剛才提到想做Coding Agent提升生產力,我總得讓它操控電腦,看電腦屏幕,沒有眼睛就看不到,所以我們毫不猶豫的去做,這是巨大的差異,Visual Understanding就去做可以了。

      但是今天很多的模型比人看東西看的更明白,比如說我又近視又散光,基本上不太好使,看不明白。但是上下左右我總歸分的很清楚,但是AI很有意思,很細節的東西它看很清楚。比如說問前后左右這個問題,居然分不出來。我們很長時間評估一個案例,叫活體的方向,當時我還問我們的評測人員什么是活體,分不清楚東西在左邊還是右邊,我覺得蠻奇怪的,但是這是我們要解的問題。

      但是不僅僅如此,我們還要做一件事情是讓它的intelligence不要降低,我們沒有期待它真的能夠大幅度提高智商,但是至少不要變笨,因為很多時候做VL模型是變笨的。我們這一次終于讓它不再變笨,大概和我們的235B的語言模型達到一個持平的狀態。

      這里講一下我們這次主要的提升,簡略的說一下:

      第一,我們大家都在做一件事情,讓它操作手機、操控電腦的能力進一步提升。

      第二,是它的語言的智力,VL模型能不能當LLM來用,這樣才可以追上原生多模態的模型,至少做到技術上讓語言的智力能夠達到持平狀態。

      第三,Coding這件事情很重要,但是Coding的輸入也可以是圖像或者是視頻。比如說今天我想做一個APP,想做一個網頁,我可以畫出來。不一定我用文字寫,因為這個很考驗人類的表達能力。很多時候大家表達的不一定很清楚,你可以畫一個圖。

      還有對視頻的理解,也許是VL下一代的機會。視頻是更廣義的表達,圖片可以理解為是單幀的視頻,理解很長的視頻是很有意思的一個事情。

      我一直在想如果我們有了智能眼鏡,每天接收更多東西的時候,能不能構建我們的記憶。這個眼鏡是第一人稱視角的東西,一般來說我們在網上搜羅的視頻是第三人稱視角,對第一人稱視角理解很少,我們一般談論的是它對這個物理世界能不能構建一些好的理解。我們做的時候,就發現真的需要知道它是不是能理解這個空間的東西。這個東西激勵我們做一件事情,我們能不能去做VLA,可能得把這些數據都集合進來,有沒有可能接入硬件做VLA的模型,能不能讓它獲得一些泛化。

      另外是基礎能力的提升,比如說今天大家在使用OCR的時候,有很多東西的用例,都在檢測一些很褶皺的東西。但是我們的圖像很多時候檢測不到,紙張非常的褶皺,能不能讓它看的懂都是我們自己要解的問題。另外是印章,字體非常特別,非常的小,圖片分辨率低,能不能識別出來是很特別的事情。

      Multimodal模型能不能做Reasoning,能不能對圖片進行理解。比如說今天我們看到一個數學問題做分析,不斷的一步一步去推,和圖片結合起來看能不能看到圖片上更小的點。舉個更小的例子,一張照片有50個人它能不能數的出來呢?數不出來,但是配上Reasoning我就可以一點點的去看,一點點的去打這個點,有可能我能把這個數字給數出來。今天結合具體的應用,能做的空間其實非常多。

      我們現在基本上可以達到2.5 Pro的水平,但是讓我開心的是語言的智力沒有那么降智了,也算是第一次解決了這個問題。

      圖像生成:理解之外還要會創造

      更進一步我們想做什么呢?除了理解圖像和視頻以外,有沒有可能同時生成圖像和視頻?我們甚至有一個更大的想象,如果我們今天在思考有沒有可能把我們的基礎模型實現想象這些事情。我腦海里有一些畫面,這個想象對我來說是有意義的,這些事情都可以通過圖像生成和視頻生成進行相應的實現,這個也會和今年的世界模型聯系在一起。

      今年我們剛開始做生成的事情,花了幾個月時間做了Qwen-Image系列,12月份剛剛更新了一個。這是我們內部人員進行盲測,排名還是可以,基本上比最好的開源模型和閉源模型,比相較還是稍微差一點點。但是我看到一些實際的圖的時候,我其實比較興奮。比如說和其他模型比較沒有什么感覺,但是可以看一下8月份和12月份的版本,8月份生成的圖AI感還是非常重的,但是12月份生成的已經接近離譜了,雖然沒有那么美和好看,但是已經接近真人了。其實還有一張我們博客里面宿舍女生拍照,真的很像宿舍女生剛睡醒拍照,放在這里不是很好,我放了更好看一點的。還有更自然的東西,比如說燈塔,水花特別夸張,但是右面的水可以達到非常自然的狀態。

      另外一個是生成圖像文字要很準確,能夠把文字生成到圖片上面來。分鏡不是拼出來的,其實是12張圖合起來的一張圖,包括文字都是一次性生成出來。今天模型有一些威力超出了我們的想象,有時候我們自己訓練模型都沒有想到會變的這么強。

      圖像編輯:比生成更大的需求

      但是除了生成以外的話,我們還要做更重要的事情。我們做了生成之后,用戶告訴我們才知道編輯是更大的需求,因為大家都需要P圖,讓自己變的更好看。Image-edit版本也有,接下來會把edit和生成合在一起。我自己每天用這個東西,最近出去旅游的時候,我想拍出美國往事的感覺,下面有很多人,我就把很多人P掉,調整一下風格,就可以把這個東西做出來,這是每天干的事情。

      我想給大家分享一個更有意思的案例,也是今天大家會問我,開源社區究竟怎么幫助我們研發這個模型,如果不是開源社區告訴我們,這輩子都想不到有這個問題。有一張圖片我們想對它進行編輯,讓它放下圖像中右邊的人,你會發現它放下來之后,兩張圖重疊在一起的時候你會發現糊了,它有點移動了,不在原位,偏移了。對于很多搞PS的同學來說,這個東西要非常精確,你不能隨便移動,所以2511這個版本很重點的是在解這個問題。在2511這個版本,我把兩張合在一起的時候,基本上人在原來的位置上,我覺得是開發者給我們很好的用例,原來可以做出真的可以幫助到他們東西。

      編輯可以做很多事情,比如說我調整光線讓它變成更柔和的光線。我們的用戶和產品跟我們說這個光線合理不合理是很重要的,我們做算法的同學很多時候沒有感受,但是有些時候大家對圖的要求比想象的更高。所以,大家談世界模型的時候,是不是真的能構建出符合物理規律或者真實世界的東西其實還是很重要的東西。

      還有一些例子,比如平移一些鏡頭,旋轉30度這些都是很常見東西。今天這個模型甚至可以和推理結合在一起,我們一直有一件事情非常想做,教小朋友家長們很痛苦,很多時候AI去教有一些題教不了,畫輔助線的東西是教不了的,真的需要生成模型才能做。我真的能夠把一道數學題做好,比如說畫輔助線這件事情我可能要通過生成推動更好的理解。

      Omni:讓模型能聽能說

      接下來是更進一步的,如果今天看圖像的問題解的差不多了,甚至自己可以把東西生成出來,有沒有讓它像人一樣聽和說呢?因為語音交互也是很重要的事情。今天大家在使用各類的APP的時候,大家發現有語音交互真的是很方便的一件事情。

      Omni也是很大的方向,并且我愿意相信一些事情,今天對事件的環境音理解,人講的話不是單純的使用ASR就可以解決的。所以我們就做一個Talker的東西,這個模型做了很久,讓它既能聽又能說,能夠保證它的效果是穩定的。Omni是沿著這個方向持續做的,大概的進展稍微有一點降智,但是降智的已經不多。我們這個模型可以達到2.5文本的水平,對于語音基本可以對標2.5 Pro的水平,這里面有挺多好玩的東西,時間關系沒有辦法和大家分享。

      今天TTS可以換各種聲音,包括自己定制你自己的聲音,只要描述這個聲音長的什么樣子,就可以讓AI以這個形式把東西講出來。我覺得還有很好玩的事情,基礎模型和基礎Agent是不是真的可以跟人類的真實世界,也包括虛擬世界進行更好的交互。

      下一步:全模態模型與新架構

      下一步要做什么樣的事情呢?我們做了這么多,當然希望集合在一起,全模態模型是要做的。有一個很重要的,我覺得也是殊途同歸的事情,跟Kimi團隊做類似的事情。我們同時做各種各樣的實驗的時候,最后選擇了用Linear Context,當然也是以三層Linear配合它的。下一代的模型也會沿著新的架構進行相應的實現,其實我們這里想做的事情是新一代的架構能不能解決我們剛才提到的問題,能夠省下很多步驟。也許還會有更多的威力在里面。下一代的模型,其實也會沿著新的架構進行相應的實現。

      更進一步我們要做什么東西呢?Omni的模型不僅僅是我能夠理解文本、視覺、音頻,我們可能還讓它生成文本、音頻,今天我們已經做到了,但是我們還沒有做到把視覺生成結合在一起。如果做到三進三出,我覺得會是至少我個人喜歡的東西。

      訓練范式的變化:Multi-turn RL

      第二個是今天的范式發生了一個很大的變化,今天不是像以前那樣訓模型,有標注的數據,有一條輸入和輸出訓練就可以,我們今天要把更多的數據放到實驗中去訓練。如果大家關注xAI的宣傳,RL的數據我雖然覺得他們有點浪費,但是另一方面也意味著RL有很多的想象空間。當然并不是說自己跟自己對話,我其實沒有那么關心我們的模型能不能做成為最強的數學大腦,我更關心的是像日常真實的人,為這個社會做貢獻。如果它能夠做到這一點,我覺得還挺好。

      所以Multi-turn RL with environment feedback towards long-horizon reasoning,因為很多時候做很多事情需要很長的時間,你得一步步去做。但是AI可以加速很多,比如說人類花兩個月的時間做的東西,AI可以花兩天的時間。雖然有很多Token在里面,但是兩天確實能夠節省我們很多的時間在這里面。

      Agent:走向虛擬世界和物理世界

      Agent其實可以走向虛擬世界和物理世界,所以有了Embodied Reasoning的這種方式。我們內部討論了一個方式,就算你是做VLA,做Coding的模型,說白了也是把語言轉化成Embodied的模型,從這個角度上來看就非常的振奮人心,于是我們就覺得大干一場,看一看能不能走向Digital Agent,GUI操作,同時能夠使用API,這個就是非常完美的Digital Agent。

      如果走向物理世界,是不是能夠把話筒拿起來,今天能夠斟茶倒水,這是我們今天很想做的事情。

      非常感謝大家!


      圓桌對話:中國AI的下一步

      主持人:李廣密
      嘉賓:楊強、唐杰、林俊旸、姚順雨

      開場

      李廣密: 我是接下來Panel的主持人廣密。我剛才在臺下聽有幾個感受,第一是唐老師的號召力很強,清華的人才非常好,不僅是國內包括海外,清華人的比例非常高,感覺這一撥好像跟國內學校在AI這一撥拉開差距了。第二是我剛才聽幾個Talk的感受是不止follow、不止開源,不只是Coding,都在探索自己的產品形態。

      2025年是中國開源模型大放異彩的一年,是開源四杰在全球大放異彩的一年,而且是Coding過去一年有10-20倍增長的一年,包括海外也在提Scaling到底走到哪一步了,有沒有新范式出來了,接下來這個Panel是到底接下來怎么走,是特別有意思的。接下來邀請幾位嘉賓:楊強教授、唐杰老師、俊旸和順雨。

      我們先從第一個比較有意思的話題聊起,硅谷幾家明顯做分化,可以從分化這個主題先聊起來。Spec其實是對中國模型有一個非常大的啟發,硅谷的競爭那么激烈,它沒有完全Follow全都做,而是專注到了企業,專注到了Coding,專注到了Agent。我也在想接下來中國的模型會分化成自己想要的哪些方向?我覺得分化這個主題蠻有意思的。順雨上線了,順雨開場給大家講一講,包括你最近在干什么。

      姚順雨: 大家好,我現在是不是一個巨大的臉在會場?不好意思,今天沒法親自來北京,但是很高興參加這個活動。最近忙著做模型、做產品、做AI,是一個很正常的狀態。回國的感覺還是挺好的,吃得好很多。

      話題一:模型分化

      李廣密: 順雨,你能展開聊聊你對模型分化這個主題的想法嗎?硅谷也都在分化,包括說Spec做了Coding,中國很多模型做了開源,過去Coding提的也很快,包括谷歌也沒有全都做,它現在把全模態這個做好,你的老東家重點做To C是橫跨中美的體感,可以講講你的體感,接下來不管是自己也好,各家也好,分化這個點,你是怎么思考的?

      姚順雨: 我覺得有兩個大的感受,一個感受是To C和To B發生了明顯的分化,另外一個感受是垂直整合這條路,以及模型和應用分層這條路,也開始出現了分化

      我先說第一點,我覺得很明顯的是當大家想到AI就是兩個,ChatGPT,另外一個Claude Code,是做To C和To B的典范。非常有意思的一點是我們今天用ChatGPT和去年相比的話,感受差別不是太大。但是相反,Coding夸張一點來講,已經在重塑整個計算機行業做事的方式,人已經不再寫代碼,而是用英語和電腦去交流

      我覺得很核心的一點,對于To C來說,大部分人大部分時候不需要用到這么強的智能,可能今天用ChatGPT和去年相比,寫抽象代數和伽羅瓦理論的能力變強了,但是大部分人大部分時候感受不到。大部分人尤其是在中國更多像是搜索引擎的加強版,很多時候也不知道該怎么去用,把它的智能給激發出來。

      但對于To B來說,很明顯的一點是智能越高,代表生產力越高,值錢的也越來越多,這些東西都是相關的。

      對于To B來講,還有一個很明顯的點,大部分時候很多人就愿意用最強的模型。一個模型是200美元/月,第二強或者差一些的模型是50美元/月、20美元/月,我們今天發現很多美國的人愿意花溢價用最好的模型。可能他的年薪是20萬美元,每天要做10個任務,一個非常強的模型可能10個任務中八九個做對了,差的是做對五六個,問題是你不知道這五六個是哪五六個的情況下,需要花額外精力去監控這個事情。

      我覺得無論是人還是模型,在To B這個市場上發現了一個很有意思的現象,強的模型和稍微差點或者弱的模型它的分化會越來越明顯。我覺得這是第一點觀察。

      第二點觀察,垂直整合這條路和模型應用分層這條路的區別。我覺得一個比較好的例子,比如ChatGPT Agent,相比于用Claude或者Gemini加上Manus這樣的應用層產品,過去大家會認為當你有垂直整合能力肯定會做的更好,但起碼今天來看并不一定。首先模型層和應用層需要的能力還是挺不一樣的,尤其是對于To B或者生產力這樣的場景來說,可能更大的預訓練還是一個非常關鍵的事情,這個事情對于產品公司確實很難做,但是想要把這么一個特別好的模型用好,或者這樣的模型有它的溢出能力,也需要在應用側或者環境這一側做很多相應的事情。

      我們會發現其實在To C的應用上垂直整合還是成立的,無論是ChatGPT還是豆包,模型和產品是非常強耦合去緊密迭代的。但是對于To B來說這個趨勢似乎是相反的,模型在變得越來越強、越來越好,但同樣會有很多應用層的東西應用好的模型在不同的生產力環節。

      這是我的兩個觀察。

      李廣密: 因為順雨有一個新的身份,在中國的市場下順雨接下來想的是什么,有哪些鮮明的特點或者關鍵詞嗎?現在能給大家分享嗎?

      姚順雨: 我覺得騰訊肯定還是To C基因更強的公司,我覺得我們會思考怎么樣能夠讓今天的大模型或者說AI的發展能夠給用戶提供更多價值。很核心的思考是我們發現很多時候我們的環境來講,或者更強的模型,很多時候需要的是額外的Context

      我最近經常舉一個例子,比如我想問我今天該去吃什么?其實你今天問ChatGPT和你去年問或者明天問都會差很多。這個事情想要變好,不是說你需要更大的模型、更強的預訓練、更強的強化學習、更強的Agent環境或者更強的搜索引擎,這個問題可能需要更多額外的輸入,或者我們叫Context。如果它知道我今天特別冷,我需要吃些暖和的,我在今天這樣的范圍活動,可能我老婆在另一個地方吃什么等各種各樣的事情。其實回答這樣的問題,更多的是額外的輸入。比如我和老婆聊了很多天,我們可以把聊天記錄轉發給元寶,或者把額外的輸入用好,反而會給用戶帶來很多額外的價值。這是我們對To C上的思考。

      在To B在中國確實是很難的事情,生產力的革命,包括我們今天很多中國的公司做Coding Agent需要打很多海外市場。我們會思考怎么把自己先服務好,像創業公司做Coding這個事情和大公司做Coding這個事情,一個區別是作為大公司本身就已經有各種各樣的應用場景、各種各樣需要生產力變得更好的地方。如果我們的模型能夠在這個地方做得更好,不僅這個模型會有自己獨特的優勢,不僅我們公司本身能得到很好的發展,很重要的一點是對于真實世界場景的數據捕捉會是一個很有意思的事情。比如說Claude這些創業公司,他們想要去做更多的Coding Agent的數據,需要找數據廠商去標注這個數據,他們需要利用各種各樣的軟件工程師去想我要去標什么樣的數據。這個事情是數據公司一共就這么幾家,一共招了這么多人,最終你會受限。但如果你是一個10萬人的公司,可能會有一些有意思的嘗試,怎么把真實世界的數據利用好,而不是僅僅依賴于標注商或者協議。

      李廣密: 多謝順雨。接下來Cue一下俊旸,你怎么看接下來千問未來的生態位或者分化的考慮?之前你講了多模態,阿里云在To B很強,接下來你也提了全模態可能更多的是To C的,這方面是怎么思考的?

      林俊旸: 理論上我是不能評論公司的,但我覺得公司也不一定有那么多基因之分,一代一代的人可能就塑造了這些公司,比如說今天順雨到騰訊之后,可能騰訊變成一個有著順雨基因的公司。

      接下來這一句,我也想注入我們自己對AGI的理解。我覺得今天To B也好,To C也好,我們在服務真實的問題,我們想的問題是怎么把人類世界變得更好。你就算做To C的產品也會分化,今天OpenAI更像一個平臺了,但是To C最終要服務真實的這批用戶究竟是誰。今天可能有很多AI會更偏向medical和law,今天我覺得Coding真的很厲害,我就拜訪它,因為我知道他們跟客戶交流非常多,這個是我們還不夠好的一個點。雖然我們擁有巨大的優勢,也可能中國SaaS市場跟美國確實不太一樣,他們確實非常頻繁地跟客戶進行交流,很容易發現很大的機會。今天我跟美國的很多API廠商聊起來,他們沒有想到Coding消耗量那么大,在中國真的沒有那么大,至少從我這邊來看,但是在美國,基本上全都是Coding,我覺得這個事情不是所有人都能Get到的。

      今天做的一些相關的東西,我覺得也是他們自己在跟客戶看到這個機會。我覺得可能大家的分化是自然的分化,我更愿意相信AGI,做AGI該做的事情,順其自然,這是我們該做的事情。

      李廣密: 多謝俊旸。有請楊強老師談談分化的問題。

      楊強: 分化的問題其實我更想聊一下工業界和學術界的分化,這個可能是橫跨美國和中國的。一直以來,學術界是一個觀望者,工業界在領頭往前瘋跑,搞得很多學術界的人也在做工業界的事情,像唐杰老師。這是一個好事,就好像天體物理學剛剛開始的時候是以觀測為主,伽利略的望遠鏡,然后才出現牛頓。所以我覺得后面一個階段,當我們有了眾多的穩定大模型,進入一個穩態的時候,我們學術界應該跟上來。

      學術界跟上來要解決什么問題呢?工業界可能還沒來得及解決的一些問題,這也是我一直在考慮的問題,就是說智能上界在哪里,比如說給你一定的資源,計算資源或者能源資源,你能做到多好?可以更細一點,比方說我們把這個資源怎么分配,哪些分配在訓練上、哪些分配在推理上?其實我很早就在做AI,90年代初就做過一個小實驗,如果我們有一定的投入在記憶上,那么這個記憶能夠幫助推理多少,這個幫助會不會變成一個反向的,就是說你記的太多了,反而記的噪音會干擾你的推理,有沒有一個平衡點,我覺得這些問題今天還是適用的。

      我最近也在想另外一個問題,大家學計算機的都必定上計算機理論課,里面有一個重要的定理叫哥德爾不完備定理,大概意思是說一個大模型不能自證清白,必定有一些幻覺不可能消滅掉,可能你給更多的資源,它會消滅得更多。所以科學問題就來了,你多少資源能夠換取多少幻覺的降低或者錯誤率的降低,這是有一個平衡點的,這個平衡點特別像經濟學,經濟學的風險和收益的一種平衡,所以我們叫這叫無免費午餐定理。像這些東西,我覺得今天就特別適合數學界、算法界和學術界和工業界一起做研究,這孕育著一個巨大的突破。

      剛才唐杰老師也提到持續學習,我覺得持續學習是一個特別好的問題,它里面有個時間的概念,你在持續地不斷地學的過程當中,但是你會發現,比方說你把不同的Agent給串聯起來,每一個Agent都不能做到百分之百的話,你在N個以后它的能力是按指數下降的,你怎么樣能夠保證它不下降。人類是用一個方法做這個事,第一天是學習,第二天會在第一天噪音的基礎上學習,這樣你的能力就類似大模型會下降。但是人類有一個方法就是睡覺、睡眠,我建議大家看一本書叫《我們為什么睡覺》,是MIT的兩個教授寫的,非常好玩,它說每天晚上睡覺是在清理噪音,使得第二天你可以把準確率持續地提升,不至于是兩個錯誤率的疊加。像這些理論的研究孕育著一種新的計算模式。我們今天可能比較關注Transformer,但是我覺得有必要做一些新的探索,這是工業界和學術界要拉齊。

      李廣密: 唐老師,我們從Web的感受上,智譜走了Coding非常強,榜單上非常靠前,包括長程的Agent,您對分化這個主題怎么看?

      唐杰: 我倒覺得回到了最本質的問題,早期的時候還是基座模型。2023年那個時候我們第一個做出Chat的,當時第一個想法是趕緊把Chat扔在網上上線,當時國家有規定,八九月份一起上。當時我的第一感受是十來個大模型都上來了,而且每一家用戶都沒有那么多,當然今天分化得非常嚴重。

      后來我經過一年的思考,我覺得其實這個已經不是真的解決問題,我的第一個預判是說它會替代搜索,我相信今天很多人在用這個模型替代搜索,到今天我相信大家很多人在開始用這個模型替代搜索,但是并沒有替代谷歌,谷歌反而把自己的搜索革命了,谷歌自己做了搜索的改進。從這個角度上,我覺得這一仗從DeepSeek出來之后,已經沒有了,已經結束了。DeepSeek之后我們應該想的是下一仗是什么東西?我們團隊爭論了很久,下一仗肯定要讓AI做一件事情,做這件事情是什么可以討論一下。那個時候廣密還到我們那跟我們交流,廣密的知識特別淵博,他思考問題很深邃,和他的交流對我的啟發非常大,原來我沒有想到,那一次讓我啟發非常大。后來我們團隊爭論了很多晚上,爭論到最后,可以叫我們的運氣,另一方面我們也是把所有的精力放在了Coding上。

      李廣密: 我覺得大家有了自己的best,不僅大家在追求通用能力,大家都有自己的資源稟賦把自己擅長的點做。

      話題二:下一個范式

      李廣密: 接下來第二個比較有意思的問題,今天這個時間點特別特殊,一個是預訓練過去走了3年,大家都說可能今天走到了七八成的收益,強化學習也都成為共識,做到了四五十的空間,后面的數據、環境空間很大,接下來一個新的范式,唐老師也談到了自主學習、自我學習,因為今天這個會的主題是接下來的展望Next,我覺得這是一個特別值得去聊的話題。

      我們先從順雨開始,你從領先的OpenAI待過,對于下一個范式是怎么思考的?因為OpenAI是為人類推進了前兩個范式的一家公司,對第三個范式,從你的觀察來講,能給大家帶來一些分享嗎?

      姚順雨: 現在自主學習是一個非常熱門的詞,在硅谷大街小巷咖啡館里面,大家都在談論,形成了一個共識。根據我的觀察,每個人對這個東西的定義和看法都不一樣,我講兩點:

      第一,這個事情不是方法論,而是數據或者任務。 當我們在談論自主學習的時候,它到底在什么樣的場景下基于什么樣的獎勵函數去做,你在聊天的時候變得越來越個性化是一種自主學習,在寫代碼的時候越來越熟悉每個公司獨特的環境或者文檔是一種自主學習,你去探索新的科學,在這個過程中像一個博士一樣,從原來不了解有機化學是什么,到成為這個領域的專家,這也是一種自主學習。每一種自主學習的挑戰或者說方法論都不太一樣。

      第二,我不知道這是不是非共識的,這個事情其實已經在發生了。 很明顯的,ChatGPT在利用用戶的數據不斷彌合人聊天的風格是什么,使得能感覺到它的好,這是不是一種自我學習?

      今天Claude已經寫了Claude這個項目95%的代碼,它在幫助它自己變得更好,這是不是一種自我學習?我們當時2022年、2023年的時候,我去硅谷宣傳這個工作,我當時寫了第一頁是說ASI最重要的點是自主學習。今天的AI系統本質上都有兩部分,首先它是一個模型,其次它有個代碼庫,你怎么去用這個模型,是用來做推理,還是做Agent,有相應的代碼庫。我們今天看Claude這個系統本質上有兩部分,一部分是部署環境的一大堆相應的代碼,另一部分是怎么樣去使用它,有一大堆相應的代碼,無論是GPU的,或者說它的前端還是環境是什么樣的。我們做Switch方面大家意識不到,這些自主學習的例子可能還局限在每一個特定的場景下,沒有讓人感覺到非常大的威力。

      這個事情已經在發生了,可能效率或者受限制的限制,有各種各樣的問題。可能這個事情我個人的看法它更像是一個漸變,不是突變,這是我的看法。

      李廣密: 我再Follow順雨一個問題,有一些人對自主學習比較樂觀,2026年可以看到一些信號,你覺得自主學習看到信號,還有哪些實際的問題要突破?比如說Long Context也好,模型并行采樣也好,你感覺接下來還有哪些關鍵條件具備了,這些信號才會發生?

      姚順雨: 很多人說2026年看到信號,我覺得2025年就看到信號了。Cursor他們做的每幾個小時都會用最新的用戶數據去進行學習,包括新的模型,也在使用這些真實環境下的數據去訓練。大家覺得這個東西可能還沒有特別石破天驚,是因為受限于他們沒有預訓練能力,他們模型效果確實還不如OpenAI,但顯然這是一個信號。

      最大的問題是想象力,我們很容易想象強化學習或者推理這個范式,如果實現大概是什么樣,我們可以想象O1,在數學題上本來是10分,現在變成了80分,通過這個強化學習有非常強的思維鏈做這個事情。如果2026年或者2027年我們有一個范式的發生,我宣布了一個新的模型或者新的系統實現了自我學習,我們應該用什么樣的任務,它應該是什么樣的效果,你會相信它實現了?它是一個賺錢的交易系統,它可以賺很多錢,它真的解決了人類之前沒法解決的科學問題還是別的。我覺得可能需要先想象到它長什么樣。

      李廣密: 順雨,OpenAI已經立了兩次范式革新,如果2027年有新的范式出來,全球范圍內的哪家公司繼續立的范式創新的概率最大?如果說一家公司。

      姚順雨: 可能OpenAI的概率還是更大,因為它商業化等各種各樣的變化,它創新的基因已經被削弱了,但我覺得它還是最有可能誕生新范式的地方。

      李廣密: 多謝順雨。俊旸對2026年新的范式還有什么要聚焦的?

      林俊旸: 如果從更實際一點來講的話,剛才講的這個范式在比較早期階段,RL這個事情,實際上我們還沒有做得那么充分,很多潛力沒有打出來。今天我們也看到很多問題在這里面發生,我覺得全球范圍內類似的問題還存在。

      如果要說下一代范式的話,一個自主學習,之前跟一個朋友聊到說人類不能讓AI變得更厲害,比如說你跟AI不斷地交互,只會讓它上下文變得越來越長,AI變得越來越笨,這是很煩人的事情。

      這件事情是不是真的能夠發生?這還是挺值得思考的,你能吐更多Token讓你變得更強,至少O系列一定程度上實現。有沒有可能,就像我真的干30個小時真的能夠干出很難的任務,今天大家做超長的事情很難,有沒有可能通過Coding去實現。

      從這個角度來說,AI肯定需要自主進化,但究竟你是不是要更新參數,我覺得見仁見智,大家都有不同的技術手段去實現這個事情。

      第二點是AI有沒有可能實現更強的主動性,環境是我的輸入信號,我現在的AI必須得有人類幫助它才能啟動,但是有沒有可能自己能自主思考,去做一些事情。這引發了一個新的問題,就是安全的問題,我非常擔心安全的問題,不是擔心它今天講一些不該說的話,最擔心的是它做一些不該做的事情。比如說今天主動產生一些想法,往會場里面扔一顆炸彈,我們肯定不希望不安全的事情發生。就像培養小孩一樣,我們要給它注入一些正確的方向,但主動學習是一個挺重要的范式。

      李廣密: 俊旸提了主動性,自主學習看到信號,你感覺可能是在哪些任務上做什么樣的任務會先看到?是訓練模型,最強的模型可以提升自己,還是自動化的AI研究員?你有期待在哪些地方先看到嗎?

      林俊旸: 我覺得自動化的AI研究員甚至都不是那么需要自主學習,可能很快訓AI這件事情就可以實現,我看我們同學每天干這個事情,我覺得很快就被替代掉。我覺得可能更持續的理解用戶這件事情還挺重要的,比如說過往我們在做推薦系統的時候,用戶這個信息是持續輸入,讓這個系統變得更強,它的算法變得更簡單。在AI這個時代它是不是能更懂你,這些信息的輸入能不能真正成為幫助我們的工具。

      我覺得如果說自主學習的話,可能會是跟人的交互上就能做到...

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      除夕當天,牢記1不洗、2不倒、3不回、4不空、5要吃,吉祥過大年

      除夕當天,牢記1不洗、2不倒、3不回、4不空、5要吃,吉祥過大年

      秀廚娘
      2026-02-15 08:45:25
      吃著中國,想著日本?哈薩克斯坦距離烏克蘭第二,到底還有多遠?

      吃著中國,想著日本?哈薩克斯坦距離烏克蘭第二,到底還有多遠?

      靜夜史君
      2026-02-15 23:47:18
      米蘭冬奧會速滑男子500米!前三名均破奧運紀錄!高亭宇獲第七

      米蘭冬奧會速滑男子500米!前三名均破奧運紀錄!高亭宇獲第七

      小蘭看體育
      2026-02-15 17:21:27
      是國米球迷!意大利參議院議長:國米在主場贏尤文會感到雙倍快樂

      是國米球迷!意大利參議院議長:國米在主場贏尤文會感到雙倍快樂

      硯底沉香
      2026-02-16 02:03:14
      美媒:美司法部致函國會議員的愛潑斯坦案名單竟出現夢露等人,美議員質疑“故意混淆視聽”

      美媒:美司法部致函國會議員的愛潑斯坦案名單竟出現夢露等人,美議員質疑“故意混淆視聽”

      環球網資訊
      2026-02-15 19:38:08
      馬筱梅情人節曬幸福!汪小菲去臺北過節,小玥兒和箖箖跟后外婆睡

      馬筱梅情人節曬幸福!汪小菲去臺北過節,小玥兒和箖箖跟后外婆睡

      離離言幾許
      2026-02-14 23:12:38
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      網紅幼虎去世后被“替身”直播,死亡7天后飼養員稱“正曬太陽”;區政府成立調查組,信息上報、跨園轉運真相成謎

      網紅幼虎去世后被“替身”直播,死亡7天后飼養員稱“正曬太陽”;區政府成立調查組,信息上報、跨園轉運真相成謎

      大風新聞
      2026-02-15 18:00:11
      體壇名將放棄中國國籍,轉為美國國籍,14歲時在亞運會創造歷史

      體壇名將放棄中國國籍,轉為美國國籍,14歲時在亞運會創造歷史

      米修體育
      2026-01-24 12:47:31
      應急管理部派出工作組趕赴江蘇東海事故現場指導工作

      應急管理部派出工作組趕赴江蘇東海事故現場指導工作

      國際在線
      2026-02-16 02:55:03
      今年沒有年三十,什么時候貼春聯最好?2個黃金時段定好

      今年沒有年三十,什么時候貼春聯最好?2個黃金時段定好

      白淺娛樂聊
      2026-02-15 12:49:58
      佘詩曼辛苦一年終于放假游泰國,偷拍媽媽挑水果背面照充滿幸福

      佘詩曼辛苦一年終于放假游泰國,偷拍媽媽挑水果背面照充滿幸福

      老頭的傳奇色彩
      2026-02-14 19:05:06
      美國歷史上第一位二百五總統即將誕生,就是當今美國總統特朗普…

      美國歷史上第一位二百五總統即將誕生,就是當今美國總統特朗普…

      福建平子
      2026-02-08 13:17:52
      偷雞摸狗,好賭成性?離過年僅四天,何慶魁的體面被兒子撕得粉碎

      偷雞摸狗,好賭成性?離過年僅四天,何慶魁的體面被兒子撕得粉碎

      筆墨V
      2026-02-14 18:34:18
      房子里有“不干凈”的東西,會有以下3種特征,占一樣也不得了

      房子里有“不干凈”的東西,會有以下3種特征,占一樣也不得了

      神奇故事
      2026-01-05 23:24:05
      古巴已進入倒計時。

      古巴已進入倒計時。

      素顏為誰傾城人
      2026-02-15 05:04:46
      原來iPhone信號差是沒開對,這個隱藏設置一開,信號直接滿格

      原來iPhone信號差是沒開對,這個隱藏設置一開,信號直接滿格

      小柱解說游戲
      2026-02-13 12:20:15
      谷愛凌再遭美國網友網暴:沒收她的財產!回美國是非法滯留 魯比奧查她

      谷愛凌再遭美國網友網暴:沒收她的財產!回美國是非法滯留 魯比奧查她

      小椰的奶奶
      2026-02-13 08:02:35
      福特號突然出動了,伊朗這下是真難了!

      福特號突然出動了,伊朗這下是真難了!

      Ck的蜜糖
      2026-02-16 02:51:46
      2026春晚第五次彩排完成,趙本山宋丹丹回歸懸疑終揭曉

      2026春晚第五次彩排完成,趙本山宋丹丹回歸懸疑終揭曉

      丁羂解說
      2026-02-15 14:12:01
      2026-02-16 05:08:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數 36關注度
      往期回顧 全部

      科技要聞

      發春節紅包的大廠都被約談了

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      頭條要聞

      大學生寒假為媽媽店鋪當中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態度原創

      本地
      時尚
      藝術
      房產
      公開課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      多巴胺失寵了?過年這樣穿彩色時髦又減齡

      藝術要聞

      168米!廣州“翠竹”摩天大樓復工?

      房產要聞

      三亞新機場,又傳出新消息!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版