<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      GPT-5之后,奧特曼向左,梁文鋒向右

      0
      分享至

        

        GPT-5正式發(fā)布,雖然在測試集上登頂,但用戶反饋卻褒貶不一,不少用戶希望能保留GPT-4o。OpenAI希望通過增加模型路由功能,以不同模型,不同算力成本滿足不同用戶需求的目標(biāo)。

        就目前的體驗(yàn)來看,OpenAI想要的“統(tǒng)一模型”的努力還任重道遠(yuǎn)。而GPT-5沒有出現(xiàn)模型能力的顯著突破和技術(shù)范式的更新,OpenAI做的更多是產(chǎn)品化創(chuàng)新——GPT-5是一個(gè)幻覺更少,更易用,能幫用戶解決更多具體問題的模型,但是沒有新能力,也沒有徹底解決大模型的某個(gè)結(jié)構(gòu)性缺陷。

        而近日,有外媒報(bào)道DeepSeek正在用國產(chǎn)芯片訓(xùn)練最新的模型,但是新模型的發(fā)布日期依然不定。

        GPT-5的發(fā)布似乎表明,大模型能力上限疑似撞墻。在這堵“Transformer能力邊界之墻”面前,OpenAI選擇了將現(xiàn)有能力產(chǎn)品化到極致,將“超級APP”的敘事進(jìn)行到底。而DeepSeek在追求模型上限的競爭壓力變緩時(shí),正在開啟“自給自足”的支線任務(wù)。

        一心要用AGI將人類社會(huì)帶入“極度富足”狀態(tài)的OpenAI在做超級APP的路上漸行漸遠(yuǎn),營收和估值一路飆升;而希望探索AI能力上限,搭建開源生態(tài)推進(jìn)技術(shù)普惠的DeepSeek,需要解的可能是不同的題目。

        也許多年后,當(dāng)人們回顧大模型行業(yè)發(fā)展的時(shí)間線時(shí)會(huì)發(fā)現(xiàn),多條線路相交于DeepSeek R1和GPT-4o發(fā)布,分化于GPT-5之后。

        01

        性能霸榜卻未達(dá)預(yù)期的GPT-5,加速產(chǎn)品化

        市場期待的是一次范式轉(zhuǎn)移,一次足以重新定義人機(jī)交互的時(shí)刻。但最終的結(jié)果,更像是一次常規(guī)的升級。它的模型參數(shù)更多,訓(xùn)練數(shù)據(jù)更廣,在一些基準(zhǔn)測試中得分更高,但它在核心的智能層面,并未展現(xiàn)出革命性的進(jìn)步。紐約大學(xué)名譽(yù)教授加里·馬庫斯曾用三個(gè)詞來概括GPT-5的表現(xiàn):“姍姍來遲、過度炒作、平庸無奇”。

        他的分析指出,GPT-5未能根除大型語言模型固有的缺陷。它仍然會(huì)在某些時(shí)候編造事實(shí),即所謂的“幻覺”問題。在面對需要多步邏輯推理的任務(wù)時(shí),它仍然會(huì)犯錯(cuò)。在提供現(xiàn)實(shí)世界的理解的多模態(tài)性能上,也沒有什么質(zhì)的提升。

        這些問題在GPT-4時(shí)代就存在,業(yè)界曾希望GPT-5能提供解決方案,但現(xiàn)實(shí)是OpenAI選擇了對現(xiàn)有框架進(jìn)行修補(bǔ)和優(yōu)化。然后在此能力基礎(chǔ)之上提供一個(gè)產(chǎn)品化更好,更加易用的模型工具。

        

        如果說核心智能的停滯是技術(shù)專家和深度用戶的感受,那么其在多模態(tài)能力上有限的進(jìn)步,則讓技術(shù)愛好者感到失望。在GPT-5發(fā)布之前,一個(gè)普遍的共識是,下一代人工智能的決勝場將是多模態(tài)。人們想象中的GPT-5應(yīng)該能像人類一樣,無縫地接收、理解和融合處理來自文本、圖像、音頻、視頻等多種渠道的信息。然而,現(xiàn)實(shí)中的GPT-5在多模態(tài)交互上的表現(xiàn),更像是一個(gè)經(jīng)過優(yōu)化的GPT-4V。它能精準(zhǔn)地完成描述性任務(wù),比如識別照片中的物體,但一旦任務(wù)轉(zhuǎn)向理解,它的能力邊界就顯現(xiàn)出來。

        作為將Transformer算法能力和語言最早進(jìn)行結(jié)合,用ChatGPT開創(chuàng)了大模型時(shí)代,又將強(qiáng)化學(xué)習(xí)有機(jī)地融入大模型的訓(xùn)練過程中,捅破了大模型推理能力天花板的OpenAI,一直以來都是業(yè)界的標(biāo)桿。但是GPT-5發(fā)布之后,除去性能上的“未達(dá)預(yù)期”之外,獲得獲得外界關(guān)注的特性似乎都是產(chǎn)品級別的變化。

        OpenAI希望通過“模型路由”功能來讓用戶避免在眾多模型中進(jìn)行選擇,降低新用戶的使用門檻,同時(shí)也能合理化算力分配,使得OpenAI能夠在有限的算力資源下為更多的用戶提供更加高質(zhì)量的服務(wù)。

        按照OpenAI的說法,雖然GPT-5大幅降低了模型的幻覺,但是對于一些基礎(chǔ)的數(shù)理問題和對現(xiàn)實(shí)世界的理解上,表現(xiàn)難以說得上令人滿意,依然會(huì)出現(xiàn)很多明顯的錯(cuò)誤。相反,可能由于訓(xùn)練數(shù)據(jù)中用了更多的生產(chǎn)力相關(guān)內(nèi)容,在情商上還有很大的退步,引得普通聊天用戶用取關(guān)來威脅GPT-4o的“返場”。

        GPT-5表現(xiàn)出OpenAI在大模型能力突破的“躺平”,幾乎間接宣布了“大模型能力墻”已經(jīng)到來,或者至少是大模型技術(shù)突破暫時(shí)進(jìn)入了平緩期。未來模型能力能否重新回到“GPT-3到GPT-4o”這樣的“蒙眼狂奔”的快車道,依賴于研究人員在底層技術(shù)上的突破和創(chuàng)新。

        OpenAI前首席科學(xué)家Ilya曾經(jīng)在2023年底的“Why next-token prediction is enough for AGI”訪談中對于AI技術(shù)發(fā)展趨勢的總結(jié)似乎某種程度上預(yù)言了這一刻的到來。

        

        “不同的研究人員和項(xiàng)目會(huì)在一個(gè)時(shí)間段內(nèi)有不同的方向,然后當(dāng)人們發(fā)現(xiàn)了一個(gè)技術(shù)有效之后,研究會(huì)向那個(gè)方向快速收斂,之后可能又會(huì)回歸到之前百花爭鳴的狀態(tài)”

        02

        梁文鋒能否抓住時(shí)機(jī),完成國產(chǎn)大模型的“自給自足”

        如果Transformer技術(shù)墻真的已經(jīng)到來,我們對DeepSeek還能有什么合理的期待?縱觀DeepSeek的產(chǎn)品發(fā)布?xì)v史,每一個(gè)重量級的發(fā)布,都在它自己的時(shí)間線上解決了大模型技術(shù)上某個(gè)重要問題。

        2024年5月的DeepSeek-V2系列則革命性地處理了長上下文處理的效率問題,首創(chuàng)多頭潛注意力(MLA)機(jī)制,支持高達(dá)128K token的處理,同時(shí)以極低的API定價(jià)(每百萬token 2元人民幣)引發(fā)了中國AI巨頭的價(jià)格戰(zhàn),顯著提升了大模型的可負(fù)擔(dān)性和實(shí)際部署潛力。

        2024年12月的DeepSeek-V3以671B參數(shù)的MoE架構(gòu)登場,針對推理速度的痛點(diǎn)實(shí)現(xiàn)了每秒60token的3倍加速,性能達(dá)到GPT-4o的同時(shí)保持資源高效,以一己之力幾乎拉平了開源模型和閉源模型性能上的差距。

        2025年1月的DeepSeek-R1專注于推理能力的提升,在AIME和MATH任務(wù)上匹敵或超越OpenAI的o1模型,成本遠(yuǎn)遠(yuǎn)低于當(dāng)時(shí)的所有模型,通過App登頂美國App Store,解決了高端AI的訪問壁壘問題,加速了開源AI的全球普及與民主化。

        而在V3和R1讓DeepSeek徹底出圈之后,它似乎也從一家發(fā)源于量化,成名于大模型,變成了一家肩負(fù)起了更多使命的科技公司。

        根據(jù)外媒報(bào)道,DeepSeek目前正在將最先進(jìn)大模型的訓(xùn)練轉(zhuǎn)移到國產(chǎn)芯片之上。大模型的國產(chǎn)化之路,遠(yuǎn)比普通人想象的要困難。但是在不穩(wěn)定的地緣政治等各種因素的影響之下,如果沒有辦法擺脫對英偉達(dá)GPU的依賴,所有中國AI公司的頭上,永遠(yuǎn)懸掛著一把達(dá)摩克里斯之劍。

        而此時(shí)OpenAI發(fā)布的GPT-5,暗示了以Transformer為核心的大模型技術(shù),發(fā)展曲線暫時(shí)變緩。這給了包括DeepSeek在內(nèi)的所有科技公司一個(gè)信號——可以在不斷穩(wěn)定提升模型性能的主線任務(wù)之外,放心地點(diǎn)開其他支線了。

        而要實(shí)現(xiàn)前沿性能大模型從訓(xùn)練到推理的國產(chǎn)化,即便對于一家已經(jīng)將大模型研發(fā)從“原子彈變成茶葉蛋”的頂尖AI公司來說,難度不亞于再研發(fā)一種全新的原子彈。這個(gè)過程中需要解決的技術(shù)問題,可能比訓(xùn)練DeepSeek之前發(fā)布的所有模型需要攻克的難題加起來還要多得多。

        首先是國產(chǎn)GPU本身性能和英偉達(dá)的GPU的單卡性能相比依然還有接近代際的差距。即便是國產(chǎn)GPU已經(jīng)能通過更密集的互聯(lián)技術(shù)將單卡的性能差距盡力彌補(bǔ)。但是要和硅谷大模型采用的英偉達(dá)“10萬卡集群”競爭,采用國產(chǎn)GPU訓(xùn)練性能最頂尖的模型,需要面對難以想象的工程難題。

        
      大模型研發(fā)離不開像PyTorch或TensorFlow這樣的開源框架,這些框架原本是為國際主流硬件優(yōu)化的。如果DeepSeek要國產(chǎn)化,就得把整個(gè)軟件棧遷移到本土硬件上,這意味著要重寫或修改大量的代碼來兼容本土的計(jì)算架構(gòu)。和發(fā)展了多年的成熟主流開源框架和CUDA生態(tài)相比,重構(gòu)的國產(chǎn)軟件棧要在性能和穩(wěn)定性上接近已經(jīng)發(fā)展近10年的主流解決方案,難度也相當(dāng)大。

        但如果DeepSeek能和國產(chǎn)硬件廠商持續(xù)密切配合,像DeepSeek將大模型的研發(fā)一樣,從零開始一步步行至行業(yè)最前沿,才有希望徹底解下頭頂那柄達(dá)摩克里斯之劍。

        在持續(xù)改進(jìn)大模型訓(xùn)練和推理效率這個(gè)方向上,DeepSeek也依然在持續(xù)探索,取得了令人矚目的成績。

        今年7月底,由DeepSeek團(tuán)隊(duì)和北京大學(xué)等機(jī)構(gòu)發(fā)表,梁文鋒作為通訊作者的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》獲得ACL 2025最佳論文獎(jiǎng)。

        

        https://arxiv.org/abs/2502.11089

        這篇論文首次將稀疏注意力從理論推理帶進(jìn)了完整訓(xùn)練流程,在保持模型性能,提高訓(xùn)練效率的同時(shí),還帶來了高達(dá) 11 倍的推理加速。在自然語言處理頂會(huì)ACL上獲得最佳論文獎(jiǎng),足以說明業(yè)界對于這項(xiàng)技術(shù)含金量的認(rèn)可。

        愿意將這樣在商業(yè)競爭中起到關(guān)鍵作用的創(chuàng)新公開,也體現(xiàn)了DeepSeek不斷推進(jìn)大模型技術(shù)普惠的決心和能力。

        讓我們拭目以待,融合了更多像“原生稀疏注意力”這樣的DeepSeek新模型將會(huì)在能力和效率上帶給業(yè)界多大驚喜,又能將大模型研發(fā)的國產(chǎn)化程度,推動(dòng)到哪里。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      雷軍高調(diào)發(fā)文:“近50小時(shí)手工打磨”紫水晶車漆,網(wǎng)友炸了

      雷軍高調(diào)發(fā)文:“近50小時(shí)手工打磨”紫水晶車漆,網(wǎng)友炸了

      吃瓜局
      2025-12-15 16:01:07
      高市早苗宣布:自2026年起正式取消中國留學(xué)生打工收入免稅政策

      高市早苗宣布:自2026年起正式取消中國留學(xué)生打工收入免稅政策

      百態(tài)人間
      2025-12-15 16:12:20
      窮鬼套餐漲價(jià)登熱搜第一!網(wǎng)友:外賣大戰(zhàn)薅的羊毛要還回去了……

      窮鬼套餐漲價(jià)登熱搜第一!網(wǎng)友:外賣大戰(zhàn)薅的羊毛要還回去了……

      柴狗夫斯基
      2025-12-15 21:12:56
      朝鮮據(jù)稱拒絕俄羅斯再向俄烏戰(zhàn)場派遣士兵的請求,只因錢沒到位?

      朝鮮據(jù)稱拒絕俄羅斯再向俄烏戰(zhàn)場派遣士兵的請求,只因錢沒到位?

      之乎者也小魚兒
      2025-12-15 15:18:45
      沖突第八天!泰方拿下制空權(quán)后又封了泰國灣,洪森父子只無能狂怒

      沖突第八天!泰方拿下制空權(quán)后又封了泰國灣,洪森父子只無能狂怒

      科普100克克
      2025-12-15 12:45:29
      廣東江門發(fā)布情況通報(bào)

      廣東江門發(fā)布情況通報(bào)

      新京報(bào)政事兒
      2025-12-15 11:31:15
      全國“交警”集體改名!背后深意很多人沒看懂

      全國“交警”集體改名!背后深意很多人沒看懂

      李云飛Afey
      2025-12-15 20:15:17
      馬斯克大半夜在網(wǎng)上發(fā)文預(yù)測戰(zhàn)爭,這次可不是鬧著玩的!

      馬斯克大半夜在網(wǎng)上發(fā)文預(yù)測戰(zhàn)爭,這次可不是鬧著玩的!

      安安說
      2025-12-15 09:44:27
      女子全裸做SPA被安排男技師,拒絕后被嘲諷:孤陋寡聞!店家回應(yīng)

      女子全裸做SPA被安排男技師,拒絕后被嘲諷:孤陋寡聞!店家回應(yīng)

      瀟湘晨報(bào)
      2025-12-15 22:47:04
      笑了!柬泰沖突后,泰國駐華大使館微博下面,全是一樣的評論

      笑了!柬泰沖突后,泰國駐華大使館微博下面,全是一樣的評論

      消失的電波
      2025-12-15 14:10:23
      馬興全與他的深圳生意

      馬興全與他的深圳生意

      法經(jīng)網(wǎng)
      2025-12-15 17:52:35
      我國首批L3級自動(dòng)駕駛車型產(chǎn)品獲得準(zhǔn)入許可

      我國首批L3級自動(dòng)駕駛車型產(chǎn)品獲得準(zhǔn)入許可

      財(cái)聯(lián)社
      2025-12-15 15:37:04
      新娘跳樓曝更多內(nèi)幕:每月給500,工資卡被媽媽控制,彩禮給弟弟

      新娘跳樓曝更多內(nèi)幕:每月給500,工資卡被媽媽控制,彩禮給弟弟

      奇思妙想草葉君
      2025-12-15 19:39:32
      網(wǎng)紅馮提莫直播間換裝被封,有網(wǎng)友質(zhì)疑系直播“擦邊”,工作人員回應(yīng):封禁10分鐘后又再播了

      網(wǎng)紅馮提莫直播間換裝被封,有網(wǎng)友質(zhì)疑系直播“擦邊”,工作人員回應(yīng):封禁10分鐘后又再播了

      揚(yáng)子晚報(bào)
      2025-12-15 22:48:32
      亂了!江蘇天氣又亂了!最新預(yù)測:冬春連旱

      亂了!江蘇天氣又亂了!最新預(yù)測:冬春連旱

      江南晚報(bào)
      2025-12-16 03:33:39
      多市黨委主要領(lǐng)導(dǎo)調(diào)整

      多市黨委主要領(lǐng)導(dǎo)調(diào)整

      上觀新聞
      2025-12-15 14:57:22
      楊瀚森18+10+4背后暖心一幕!克林根認(rèn)真指導(dǎo) 球迷期待激發(fā)潛力

      楊瀚森18+10+4背后暖心一幕!克林根認(rèn)真指導(dǎo) 球迷期待激發(fā)潛力

      羅說NBA
      2025-12-16 05:59:50
      湖北鄖西通報(bào)3名員工聚餐飲酒中毒:食堂誤將工業(yè)酒精當(dāng)白酒,1人死亡2人救治中

      湖北鄖西通報(bào)3名員工聚餐飲酒中毒:食堂誤將工業(yè)酒精當(dāng)白酒,1人死亡2人救治中

      界面新聞
      2025-12-15 21:56:31
      日本韓國西班牙的地產(chǎn)怎么崩盤的? 日本跌了18年、韓國跌了10年才見底

      日本韓國西班牙的地產(chǎn)怎么崩盤的? 日本跌了18年、韓國跌了10年才見底

      爆角追蹤
      2025-12-15 19:02:28
      何晴告別式現(xiàn)場,前夫許亞軍疑似現(xiàn)身雙眼泛紅,大量群眾自發(fā)悼念

      何晴告別式現(xiàn)場,前夫許亞軍疑似現(xiàn)身雙眼泛紅,大量群眾自發(fā)悼念

      萌神木木
      2025-12-15 11:18:27
      2025-12-16 08:12:49
      直面派 incentive-icons
      直面派
      講述值得講述的真實(shí)故事
      239文章數(shù) 236關(guān)注度
      往期回顧 全部

      科技要聞

      L3車型可以上路了!重慶北京兩款車獲批

      頭條要聞

      天津警察學(xué)院兩干部論文查重率超70% 校方:官方?jīng)]認(rèn)定

      頭條要聞

      天津警察學(xué)院兩干部論文查重率超70% 校方:官方?jīng)]認(rèn)定

      體育要聞

      戰(zhàn)勝完全體雷霆,馬刺“瘋狂動(dòng)物城”只是半成品

      娛樂要聞

      何晴告別式現(xiàn)場,前夫許亞軍雙眼泛紅?

      財(cái)經(jīng)要聞

      新農(nóng)合漲到400元 農(nóng)民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態(tài)度原創(chuàng)

      本地
      旅游
      家居
      教育
      房產(chǎn)

      本地新聞

      云游安徽|阜陽三朝風(fēng)骨,傳承千年墨香

      旅游要聞

      免簽、直航助力中俄旅游雙向升溫

      家居要聞

      溫暖色調(diào) 大空間不冷清

      教育要聞

      年薪30萬+!數(shù)據(jù)工程師必學(xué)3大專業(yè)

      房產(chǎn)要聞

      6.66億摘地,海南封關(guān)大動(dòng)作,千畝海澄新城震撼登場

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 91成人社区| 人妻?综合?无码?另类| 中文人妻无码| 国产午夜福利精品久久不卡| 日本黄页网站免费观看| 精品少妇无码av无码专区 | 日韩一区精品视频一区二区| 久久老司机视频| 少妇被躁爽到高潮| 故城县| 天天摸天天做天天爽水多| 天天干天天日三级| 久草精彩视频| 真实国产精品视频400部| 人妖网址| 久久精品国产一区二区蜜芽| 精品亚洲国产成人| 亚洲无码久久| 午夜福利视频| 平利县| 国产色综合网| 免费又黄又裸乳的视频| wwwwxxxx欧美| 性欧美老人牲交xxxxx视频| 国产精品77777| 少妇高潮太爽了在线视频| 激情自拍校园春色中文| 邢台市| 国产精品无码dvd在线观看| 干日本少妇| 91日本视频| 韩国三级大全久久网站| 华安县| 亚洲男人的天堂久久香蕉| 三级色网| 国语自产少妇精品视频蜜桃| 亚洲中文字幕日产乱码| 亚洲国产一区二区三区| 丰满熟妇乱又伦在线无码视频| 狠狠干狠狠肏| jizzjizz欧美|