<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      深度求索第一性原理:從DeepSeek中激活的4個(gè)深度反思

      0
      分享至

      用第一性原理,而不是類比思維去思考問題

      ——埃隆·馬斯克

      大家春節(jié)好!初五迎財(cái)神,拜個(gè)晚年,祝朋友們都能財(cái)源廣進(jìn)~

      也順便借這個(gè)好日子,重啟本年度公眾號首文。

      假期這幾天,我朋友圈就2件事:過年和DeepSeek。潑天的流量,把“深度求索”這家公司推到了風(fēng)口浪尖。

      關(guān)于DeepSeek的文章,網(wǎng)上已數(shù)不勝數(shù),歸了一下類,大概分這么幾種:

      • 技術(shù)流:講模型原理、算法創(chuàng)新、性能突破的。

      • 商業(yè)分析流:講創(chuàng)始人背景、企業(yè)成長史、行業(yè)影響力的。

      • 應(yīng)用探索流:講提示詞寫法、本地部署方法,以及怎么用DeepSeek搞錢的。

      • 國際格局流:講國內(nèi)外反應(yīng)、講對抗霸權(quán)的。

      當(dāng)然,還有很多聲音在質(zhì)疑、唱衰和傳播假消息,面對這些海量信息的轟炸,要說不FOMO肯定是假的。

      因此在這篇文章中,我希望嘗試用第一性原理,回答兩個(gè)問題:

      這次破圈,DeepSeek做對了什么?

      他們的經(jīng)驗(yàn),對我們有什么啟發(fā)?

      我會(huì)從多個(gè)角度嘗試拆分這兩個(gè)問題,希望借助一些觀察和思考,幫助大家跳出焦慮、抓住本質(zhì)。

      引言

      馬斯克認(rèn)為,第一性原理的思考方式,是用物理學(xué)角度看世界。也就是說,要回歸事物最基本的條件,再層層撥開表象,解構(gòu)成各種要素分析,從而找到實(shí)現(xiàn)最優(yōu)路徑的方法。

      • 交通的第一性原理是速度與安全,不是四個(gè)輪子加兩張沙發(fā);

      • 供應(yīng)鏈的第一性原理是效率,不是倉儲(chǔ)和物流;

      • 互聯(lián)網(wǎng)的第一性原理是流量,不是網(wǎng)站或App;

      • 網(wǎng)紅的第一性原理是影響力,不是粉絲數(shù)和閱讀量;

      那么,對深度求索而言,他們所遵循的,對大模型的第一性原理是什么?

      答案很明顯,不是參數(shù)量,不是評估分?jǐn)?shù),也不是用戶數(shù),是成本,是用極致的計(jì)算成本逼近通用問題解決能力的邊界!

      馬斯克曾說過,他的成功得益于自己養(yǎng)成了一種很絕的心態(tài),叫做10%目標(biāo)定律。也就是無論你在生活中想要什么,都要做10次嘗試。

      但實(shí)際上,大多數(shù)人都不會(huì)嘗試10次,甚至連一次都不想嘗試。

      從2023年發(fā)布首個(gè)開源模型DeepSeek Coder,到后來的DeepSeek LLM、DeepSeek-V2,再到如今的V3、R1,每一步DeepSeek都走的很扎實(shí),但這并不代表中間不會(huì)出錯(cuò),就算這家公司的員工都是萬里挑一的天才,他們在模型訓(xùn)練上的嘗試,肯定不止十次、百次。

      那什么樣的事,會(huì)讓他們失敗9次,還愿意做第10次呢?一定不是風(fēng)口上的熱鬧事。力出一孔,把所有資源都投入在一件事上,是保持專注、緩解FOMO的不二法門

      那么,在DeepSeek對成本的極致追求下,哪些過程會(huì)對我們有啟發(fā)呢?

      DeepSeek與創(chuàng)新思維

      想探求一款大模型產(chǎn)品的本質(zhì),最直接的方法是看論文。

      于是春節(jié)這兩天除了陪家人,就是研究《DeepSeek-V3 Technical Report》和《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

      具體這2篇論文講了什么,很多文章都有解析,這里不再贅述,我也不是算法研究員,不敢瞎講。

      但我仍舊想從第一性原理的角度來和你分享,從論文中,我看到的DeepSeek做工程創(chuàng)新的基本原則。

      舉2個(gè)例子吧,第一個(gè)是MTP架構(gòu)的創(chuàng)新。

      MTP(Multi-Token Prediction),也叫多token預(yù)測技術(shù),這是一種并行優(yōu)化機(jī)制,可以讓模型在訓(xùn)練時(shí)同時(shí)預(yù)測多個(gè)連續(xù)位置的token。從而提升整體性能和推理速度。

      有人說這項(xiàng)技術(shù)Meta早在24年4月就提出來了,DeepSeek就是直接拿過來用而已。但仔細(xì)讀過論文后,你會(huì)發(fā)現(xiàn)它們長得并不一樣:


      因?yàn)槌薓eta,MTP的背后還有《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》和《Fast Inference from Transformers via Speculative Decoding》這2篇論文在起作用。

      Meta提出的MTP,對每個(gè)輸入的token,會(huì)同時(shí)并行輸出4個(gè)targets token,但實(shí)際上大模型的內(nèi)容輸出是遵循自回歸方式一個(gè)個(gè)輸出,是有前后關(guān)系的,這種用并行heads去預(yù)測token的方式會(huì)和自回歸邏輯沖突。

      而解決思路,就來自另一篇叫《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》的論文,它在Medusa算法的基礎(chǔ)上,提出用自回歸heads取代并行heads的策略。

      這里有個(gè)很有趣的細(xì)節(jié),《EAGLE》這篇論文,其實(shí)要解決的是大模型推理耗時(shí)問題,其參考了Google的論文《Fast Inference from Transformers via Speculative Decoding》,在該論文“先起草、后驗(yàn)證”方法的基礎(chǔ)上,讓模型“打草稿”的結(jié)果更準(zhǔn)。其方法之一,就是將前一步的token序列(包含采樣結(jié)果)作為輸入的一部分來進(jìn)行預(yù)測。


      看到這張圖,你有沒有似曾相識的感覺?

      是的,和DeepSeek的MTP架構(gòu)非常相似。盡管EAGLE的初衷是提升大模型推理效率,但抽象出來看,其本質(zhì)上也是在預(yù)測token,既然這如此,這種思路同樣可以用來做模型訓(xùn)練。這就是MTP方法的創(chuàng)新邏輯之一:廣泛參考,抽象本質(zhì),相互借鑒。

      第二個(gè)例子,來自DeepSeekMoE架構(gòu)。

      要了解清楚DeepSeekMoE,只看V3論文是不夠的,要上到源頭《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》,這篇論文中,DeepSeek對傳統(tǒng)MoE架構(gòu)做出了三項(xiàng)改進(jìn):拆分、共享和平衡。


      • 拆分,是把專家變得更小、數(shù)量變得更多,從而實(shí)現(xiàn)“三個(gè)臭皮匠頂個(gè)諸葛亮”的效果;

      • 共享,即設(shè)立一個(gè)能力一般的“通才”,所有回答先經(jīng)過通才,再選擇3個(gè)專才回復(fù),最后加權(quán)平均。通才可能有小錯(cuò)誤,但專才可以進(jìn)行改正。

      • 平衡,即平衡各個(gè)專家被訓(xùn)練的次數(shù)。

      抽象出來看,這種“從量變到質(zhì)變”的思想,本質(zhì)上是一種資源最優(yōu)分配的策略,即:如何在有限資源下,在時(shí)間、空間、數(shù)量、質(zhì)量之間做權(quán)衡和互換,從而以提高系統(tǒng)整體性能和效率,而這個(gè)策略延展到極致,本質(zhì)上這就是“Scaling Law”。

      類似的原理,可以在城市規(guī)劃中看到:將綜合商場拆分為店鋪集群(如電子產(chǎn)品一條街),提升交易效率;也可以在社會(huì)組織中看到:設(shè)立公共行政部門(如稅務(wù)局)處理通用事務(wù),讓企業(yè)專注專業(yè)領(lǐng)域;同樣可以在項(xiàng)目管理中看到:通過合理分配開發(fā)資源,優(yōu)化產(chǎn)品開發(fā)的流程和質(zhì)量。

      綜合上面2個(gè)例子可以看出,支撐DeepSeek做創(chuàng)新的關(guān)鍵,正是對事物極強(qiáng)的抽象和整合能力。

      延展思考一下,這項(xiàng)能力,對我們做產(chǎn)品會(huì)有什么啟發(fā)呢?

      • 對需求的極致抽象,可以更合理地分配實(shí)現(xiàn)資源;

      • 對功能的極致抽象,可以更合理地設(shè)計(jì)產(chǎn)品模塊;

      • 對市場變化的極致抽象,可以更及時(shí)地調(diào)整產(chǎn)品策略;

      舉個(gè)例子,小貓補(bǔ)光燈,就是對“補(bǔ)光”這一核心需求的抽象;之前在360做的小爆款“時(shí)光日記”,是對“情緒表達(dá)”的抽象。我覺得從DeepSeek模型訓(xùn)練經(jīng)驗(yàn)中學(xué)到的這種解題思路,尤其適合資源和時(shí)間有限的獨(dú)立開發(fā)者,幫助他們拓寬視野、探尋本質(zhì),以更高效的分配方式滿足用戶需求。

      DeepSeek與提示詞使用

      這是對R1論文研讀后的思考。DeepSeek火爆后,最讓人樂此不疲的,是它的深度思考模式。

      很快,網(wǎng)上就流傳開一個(gè)共識:和DeepSeek對話,不能用傳統(tǒng)的“角色-指令”提示詞框架,而要采用“場景-需求”的表達(dá)方式。典型格式就是:我要xx,要給xx用,希望達(dá)到xx效果,但擔(dān)心xx問題……

      另一個(gè)現(xiàn)象是,很多時(shí)候DeepSeek的輸出過于“抽象”,充斥著大量難以理解的高大上名詞,什么“參數(shù)正交、生命系統(tǒng)、元認(rèn)知、數(shù)據(jù)混沌”,但加上一句“說人話”,表達(dá)就會(huì)“接地氣兒”的多。


      另一個(gè)DeepSeek的神奇之處,是它模仿名人風(fēng)格寫出的作品,和原作者文筆的相似度極高,效果遠(yuǎn)超其他模型。

      這又引起了我的好奇。

      • 為什么要有這種提示詞寫法的轉(zhuǎn)變?

      • 為什么有時(shí)候DeepSeek的輸出太“學(xué)術(shù)”,要讓它“說人話”?

      • 為什么讓DeepSeek模仿一個(gè)人的風(fēng)格,能模仿的這么像?

      • 為什么在數(shù)學(xué)推理、編程運(yùn)算上表現(xiàn)出色的DeepSeek,在創(chuàng)意寫作上也令人驚艷?

      從R1的論文中也許能窺探一二.

      首先,DeepSeek-R1-Zero的訓(xùn)練過程中,使用了格式獎(jiǎng)勵(lì)模型,要求模型將思考過程放在‘ ’和‘ ’標(biāo)簽之間。

      這種做法強(qiáng)化了模型的指令遵循能力,而這項(xiàng)能力,很可能泛化到其他格式敏感的任務(wù)中。當(dāng)用戶提出“用某個(gè)名人的風(fēng)格寫文章”時(shí),模型會(huì)把風(fēng)格指令看做類似 的格式約束,從而做到精準(zhǔn)響應(yīng)。

      第二,在強(qiáng)化學(xué)習(xí)的過程中,模型被要求學(xué)會(huì)“驗(yàn)證步驟合理性”,而這種能力不僅被用來驗(yàn)證解數(shù)學(xué)和編程問題,遷移到寫作中,也能讓寫作的每一步更有條理。

      此外,猜測在多階段訓(xùn)練的冷啟動(dòng)階段,DeepSeek的研究員也為模型注入了大量長鏈思維數(shù)據(jù),其中就包含著高質(zhì)量的寫作樣本。

      第三,為了訓(xùn)練出一個(gè)用戶友好的模型,除了格式獎(jiǎng)勵(lì),DeepSeek-R1的訓(xùn)練過程中還引入了語言一致性獎(jiǎng)勵(lì)(Language Consistency Reward),這使模型更擅長理解“任務(wù)目標(biāo)+約束條件”,而不是抽象角色定義。

      舉個(gè)例子,如果輸入這樣的提示詞:

      我要向?qū)W生解釋微積分概念,希望步驟清晰但避免術(shù)語堆砌,擔(dān)心他們難理解

      其中的“希望xxx”部分,會(huì)觸發(fā)格式獎(jiǎng)勵(lì),因?yàn)槠潆[含了讓模型分步解釋的要求,類似加上了 的限制條件。而“避免xxx,擔(dān)心xxx”部分,則激活了語言一致性獎(jiǎng)勵(lì),對應(yīng)著模型訓(xùn)練中可讀性優(yōu)化的目標(biāo)。

      也就是說,在DeepSeek的強(qiáng)化學(xué)習(xí)過程中,訓(xùn)練數(shù)據(jù)通常會(huì)遵循“問題描述→約束條件→輸出結(jié)構(gòu)”的分布,而如果我們在提示詞中也遵循這樣的寫法,就會(huì)觸發(fā)模型自動(dòng)生成帶 風(fēng)格的分步解答。

      從另一個(gè)角度理解,讓模型扮演一個(gè)角色,本質(zhì)上是給模型設(shè)定一個(gè)System Prompt(系統(tǒng)提示詞),讓它具備某項(xiàng)能力。而DeepSeek-R1的訓(xùn)練過程中,并沒有顯式使用System Prompt(系統(tǒng)提示詞),而是完全依賴User Prompt(用戶提問)和結(jié)構(gòu)化響應(yīng)模板(如 和 標(biāo)簽)來引導(dǎo)模型行為。即:

      User: [問題描述]

      Assistant: [推理過程] [最終答案]

      在論文第5章(Limitations)中也提到,建議用戶在使用時(shí)直接描述問題,并使用零樣本設(shè)置指定輸出格式以獲得最佳結(jié)果。如果強(qiáng)制添加角色指令,模型很可能因?yàn)橛?xùn)練數(shù)據(jù)缺乏此類模型而表現(xiàn)不穩(wěn)定。

      如果你對產(chǎn)品思維足夠敏感,會(huì)發(fā)現(xiàn)一件事:


      DeepSeek-R1所推薦的提示詞寫法,和描述需求的方式是一樣的,即:

      不要講用戶需要什么,而是還原場景,站在用戶視角,強(qiáng)調(diào):我希望達(dá)成一個(gè)什么目標(biāo),但在達(dá)成過程中遇到了什么問題,我希望解決它,但面臨著一些困難,不知道該怎么做才好。

      而DeepSeek做深度思考的過程,就可以看做產(chǎn)品經(jīng)理思考產(chǎn)品解決方案的過程。

      這也是為什么我之前在「AI見識群」里和大家建議,相比輸出結(jié)果,更應(yīng)該學(xué)習(xí)R1的思考過程


      再延展思考一下,除了直接描述目標(biāo)、場景和要解決的問題外,從論文中還可以衍生出哪些提示詞優(yōu)化技巧?核心思路就是想辦法激活模型在RL訓(xùn)練中學(xué)習(xí)到的獎(jiǎng)勵(lì)機(jī)制和鏈?zhǔn)酵评砟芰?/strong>。比如說:

      1、分步式結(jié)構(gòu):任務(wù)分解+邏輯鏈路

      舉例:

      需求:我需要寫一篇關(guān)于氣候變化對農(nóng)業(yè)影響的科普文章。
      步驟:
      先解釋氣候變化的基本原理(控制在200字內(nèi));
      再按“問題→技術(shù)解決方案→案例”結(jié)構(gòu)展開(需包含數(shù)據(jù)支撐);
      最后進(jìn)行總結(jié)(避免專業(yè)術(shù)語)。
      注意:每一步的結(jié)論要自然銜接,讀者是高中生。

      原理:

      通過分步描述,匹配冷啟動(dòng)數(shù)據(jù)中的長鏈思維模式;要求“自然銜接”來觸發(fā)RL訓(xùn)練中的格式獎(jiǎng)勵(lì)。

      2、對比式結(jié)構(gòu):目標(biāo)+對比優(yōu)化方向

      舉例:

      目標(biāo):生成一段吸引Z世代用戶的短視頻文案。
      優(yōu)秀案例特點(diǎn):
      1.多用梗圖和網(wǎng)絡(luò)熱詞
      2.節(jié)奏快,每句話不超過10個(gè)字
      3.高頻使用表情符號(每句1個(gè))
      需避免的問題:
      1.說教式口吻
      2.復(fù)雜長句
      3.與當(dāng)前流行文化脫節(jié)

      原理:

      使用"避免"類指令,直接關(guān)聯(lián)RL訓(xùn)練中的語言一致性獎(jiǎng)勵(lì);通過正負(fù)樣本對比,強(qiáng)化模型對偏好分布的判斷,類似論文中的拒絕采樣邏輯。

      3、反思式結(jié)構(gòu):觀點(diǎn)+反思推演

      舉例:

      觀點(diǎn):新能源車補(bǔ)貼退下降會(huì)導(dǎo)致銷量下滑
      1.請列舉支持該觀點(diǎn)的3個(gè)經(jīng)濟(jì)學(xué)理論
      2.請找出3個(gè)可能推翻該觀點(diǎn)的因素
      3.請同時(shí)對你的支持和反對回答復(fù)盤10次
      4.綜合判斷觀點(diǎn)成立的概率和理由

      原理:

      這種"驗(yàn)證-反駁"流程,會(huì)激活模型在數(shù)學(xué)推理任務(wù)中訓(xùn)練的反思行為;概率量化要求會(huì)觸發(fā)RL訓(xùn)練中的數(shù)值精確性獎(jiǎng)勵(lì)。

      上述方法提出的本質(zhì),就是遵循R1訓(xùn)練的基本原則:

      1. 通過明確步驟流程觸發(fā)獎(jiǎng)勵(lì)格式最大化

      2. 通過明確禁止條款讓懲罰機(jī)制顯性化

      3. 在復(fù)雜任務(wù)中加入自檢步驟,激活模型的反思能力

      DeepSeek與AI應(yīng)用

      DeepSeek再強(qiáng)大,也只是基礎(chǔ)模型,簡單和它對對話,體驗(yàn)一下推理反思帶來的震撼效果,對普通人而言也就足夠了。

      但對業(yè)內(nèi)人士而言,這項(xiàng)技術(shù)能否順利落地,產(chǎn)生商業(yè)價(jià)值,才是最值得關(guān)注的。

      那么,刨除成本優(yōu)勢和蒸餾能力不談(其價(jià)值顯而易見),DeepSeek這類更強(qiáng)調(diào)強(qiáng)推理能力,尤其在長CoT、數(shù)學(xué)和編碼能力表現(xiàn)突出的模型,可以讓哪些AI落地場景更受益呢?

      首先能想到的,是對AI Agent智能的強(qiáng)化,尤其是在規(guī)劃能力上。

      我們都知道,當(dāng)下很多智能體開發(fā)平臺(tái),實(shí)現(xiàn)智能的方式主要是工作流配上一些模型節(jié)點(diǎn),本質(zhì)上這還是一種低代碼編程,開發(fā)出的Agent,并不具備真正的智能。


      如上圖所示,智能體的規(guī)劃能力,在于能否清晰拆解目標(biāo),并根據(jù)環(huán)境反饋?zhàn)晕曳此肌?/p>

      而類似DeepSeek R1這樣具備深度推理能力的模型,能使AI Agent在規(guī)劃階段更好地理解任務(wù)的整體結(jié)構(gòu)和各組成部分之間的關(guān)系。又由于其會(huì)自我反思,從中找到最優(yōu)答案,也可以讓Agent在進(jìn)行子目標(biāo)拆解時(shí),自行評估不同方案的優(yōu)缺點(diǎn),從而選擇最符合需求和資源限制的方案,提高執(zhí)行效率和效果。

      更進(jìn)一步地想,這種基于深度強(qiáng)化學(xué)習(xí)的規(guī)劃方式,甚至可以使AI自主發(fā)現(xiàn)人類沒有預(yù)設(shè)到的優(yōu)化策略,從而反過來幫助人類優(yōu)化任務(wù)執(zhí)行方法,實(shí)現(xiàn)雙贏

      除此之外,推理過程中的反思內(nèi)容可視化,可以讓AI的輸出結(jié)果具備可解釋性,進(jìn)而提升用戶對AI產(chǎn)品的信任度。

      大模型最令人詬病的,就是它的生成結(jié)果不可控,要么是泛泛而談,要么是天馬行空,其生成過程對用戶而言是黑盒,這明顯違背了尼爾森的十大可用性原則中的狀態(tài)可見原則,即:系統(tǒng)應(yīng)讓用戶時(shí)刻清楚當(dāng)前發(fā)生了什么事,也就是快速的讓用戶了解自己處于何種狀態(tài)、對過去發(fā)生、當(dāng)前目標(biāo)、以及對未來去向有所了解

      很多時(shí)候用戶對模型的回答不滿意,本質(zhì)上就是這四種原因:

      • 我知道你知道:你給的我早就知道,沒什么厲害的。

      • 我不知道你知道:你說的是什么意思啊,看不懂。

      • 我知道你不知道:你是在瞎說吧,這明顯是錯(cuò)的。

      • 我不知道你不知道:這回答貌似很厲害的樣子,但真的是這樣么?

      而將反思過程可視化,就能針對性緩解上述用戶困惑:

      1、針對“我知道你知道”(用戶認(rèn)為回答無新意)

      這個(gè)問題的本質(zhì),是用戶覺得AI的回答停留在常識層面,缺乏獨(dú)特價(jià)值。但如果將隱藏的推理層次以“深度分析”的面板呈現(xiàn)出來,就會(huì)提升決策深度,幫助用戶打開思路,發(fā)現(xiàn)非常規(guī)解法的可能。

      2、針對"我不知道你知道"(用戶看不懂回答)

      導(dǎo)致這類問題的原因,是AI呈現(xiàn)信息的方式不符合用戶認(rèn)知水平。那如果在多輪反思中,包含專業(yè)術(shù)語的解釋、推理步驟的示意,實(shí)際案例的呈現(xiàn),全方位展示答案的產(chǎn)出過程,也就能更好幫助用戶理解。

      3、針對"我知道你不知道"(用戶質(zhì)疑回答錯(cuò)誤)

      這類問題是推理步驟外化可以解決的典型代表,由于缺乏驗(yàn)證路徑,用戶會(huì)對AI結(jié)果缺失可信度,那完全可以基于此標(biāo)注每個(gè)結(jié)論的事實(shí)依據(jù)和推測概率,從正向和反向多個(gè)層次展示答案的輸出過程,再高亮AI都覺得難以判斷的部分(如"當(dāng)前結(jié)論未考慮2023年新修訂的XX法規(guī),建議補(bǔ)充以下信息..."),就會(huì)全方位提升答案的信任感和可用性。

      4、針對"我不知道你不知道"(用戶懷疑潛在錯(cuò)誤)

      當(dāng)缺乏判斷依據(jù)時(shí),呈現(xiàn)更豐富的信息,尤其是推理失誤部分,反而能讓用戶感知到AI給出信息的嚴(yán)謹(jǐn)性,甚至有助于啟發(fā)對未知部分的探索欲,從而給AI提供進(jìn)一步補(bǔ)充信息,讓接下來的反饋效果更好,達(dá)到人機(jī)互補(bǔ)的效果。

      總結(jié)下來,讓反思過程可視化,目的是暴露AI思考的范圍和局限,一方面緩解對不確定性的焦慮,另一方面也能啟發(fā)一部分對未知的探索欲,是一種新型人機(jī)協(xié)作方式,我覺得特別適合用在教學(xué)場景中。

      DeepSeek的邊界與局限性

      最后再來聊一點(diǎn)我對DeepSeek的一些擔(dān)憂。

      直覺上講,如果DeepSeek遵循的第一性原理是成本,那性能只是極度榨干算力下的涌現(xiàn),并不是最終他們要達(dá)到的目標(biāo)。如果這個(gè)邏輯成立,相比那些不計(jì)成本只追求模型效果的公司而言,他的發(fā)展會(huì)不會(huì)更慢?

      當(dāng)然,從另一個(gè)角度看,追求性價(jià)比的核心,在于提升“單位算力下的智能”,這反而需要更強(qiáng)的技術(shù)突破,這會(huì)形成“深度求索”這家公司的護(hù)城河,從而讓他們更有余力帶來更強(qiáng)大的模型效果。

      再進(jìn)一步想,DeepSeek這一波秀的,可能并不是模型本身,而是他們的工程優(yōu)化能力,從更本質(zhì)看,這才是決定商業(yè)化成敗的關(guān)鍵。

      從大模型行業(yè)的技術(shù)演進(jìn)規(guī)律看,相比盲目堆算力,DeepSeek展現(xiàn)的"技術(shù)降本"路徑,實(shí)際上代表著行業(yè)前沿方向。因?yàn)榈统杀居?xùn)練可以讓模型的迭代頻率更高,其過程中產(chǎn)生的中間成果(優(yōu)化算法、訓(xùn)練框架等),能衍生出比大模型本身更有商業(yè)價(jià)值的產(chǎn)品。當(dāng)然,這對突破“算力管制”肯定也是利好。

      第二點(diǎn)擔(dān)心是,DeepSeek R1所采取的純強(qiáng)化學(xué)習(xí)進(jìn)行Post-Training的方法,更適合訓(xùn)練數(shù)學(xué)推理和代碼編寫模型,因?yàn)樗鼈兌加忻鞔_的獎(jiǎng)勵(lì)信號、推導(dǎo)流程和可驗(yàn)證的中間結(jié)果。那面對偏創(chuàng)意類的生成任務(wù),是不是效果會(huì)差很多

      雖然我們看到的是,無論寫文章、寫詩還是模仿說話,DeepSeek的效果也都超預(yù)期,但這些是基于對R1-Zero進(jìn)一步微調(diào)得來的(高質(zhì)量的冷啟動(dòng)數(shù)據(jù)、多階段訓(xùn)練),這種“打補(bǔ)丁”式的優(yōu)化方法,會(huì)不會(huì)存在瓶頸?

      • 也許借助蒸餾技術(shù),可以把推理能力遷移到更多樣的模型中,讓別的模型幫助解決這類問題?

      • 也許可以把這項(xiàng)任務(wù)交給預(yù)訓(xùn)練模型,借助預(yù)訓(xùn)練模型的語言能力,為后訓(xùn)練提供良好起點(diǎn):

      • 也許可以把監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來,讓創(chuàng)意任務(wù)用監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,再通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型生成能力?

      具體解法我不清楚,但相信已經(jīng)有很多人在這條路上在持續(xù)探索著?;蛟S我的擔(dān)心本身就是錯(cuò)的,也歡迎你給我留言,幫忙解惑~

      總結(jié)一下

      DeepSeek為我們帶來的,不只是性價(jià)比超高的模型,更是一種在有限條件下追求極致的態(tài)度,也是一種從本質(zhì)出發(fā)思考問題的解題思路

      那這和我們每個(gè)人有什么關(guān)系呢?

      我覺得除了一個(gè)更好用的AI產(chǎn)品外,AI的普適性進(jìn)一步提升,進(jìn)化思路進(jìn)一步清晰,由此可見的是:

      • 未來會(huì)有更多企業(yè)嘗試低成本訓(xùn)練自己的小模型;

      • 未來會(huì)有更多人希望將模型應(yīng)用在自己的業(yè)務(wù)場景中;

      • 未來會(huì)有更多產(chǎn)品經(jīng)理和開發(fā)者下場提供更好用的產(chǎn)品;

      AI在進(jìn)化,人類也在成長,2025,與你共勉!

      參考資料

      DeepSeek-V3 Technical Report

      DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

      DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

      EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

      Better & Faster Large Language Models via Multi-token Prediction

      https://space.bilibili.com/3546829121652889

      我是申悅,前360產(chǎn)品總監(jiān)、36氪產(chǎn)品負(fù)責(zé)人,目前AII in AI,瘋狂鉆研中。歡迎加我好友互相交流

      回復(fù)“ 微信 ”,加我 個(gè)人微信

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      軟肋——靈魂的后臺(tái)密碼,我只給過你

      軟肋——靈魂的后臺(tái)密碼,我只給過你

      青蘋果sht
      2025-12-23 05:12:43
      騰訊與特斯拉共同升級座艙體驗(yàn),覆蓋中國市場超百萬輛Model 3、Model Y車型

      騰訊與特斯拉共同升級座艙體驗(yàn),覆蓋中國市場超百萬輛Model 3、Model Y車型

      財(cái)聞
      2026-02-11 14:28:39
      從排隊(duì)3000桌到閉店80%!文和友的敗局,給網(wǎng)紅餐飲上了一課

      從排隊(duì)3000桌到閉店80%!文和友的敗局,給網(wǎng)紅餐飲上了一課

      青眼財(cái)經(jīng)
      2026-02-07 22:22:53
      早上七點(diǎn)起床錯(cuò)了?醫(yī)生建議:過了70歲,起床要盡量做到這7點(diǎn)

      早上七點(diǎn)起床錯(cuò)了?醫(yī)生建議:過了70歲,起床要盡量做到這7點(diǎn)

      泠泠說史
      2025-10-23 16:41:51
      古代的上九流、中九流、下九流,指的都是哪些職業(yè)?看完漲知識了

      古代的上九流、中九流、下九流,指的都是哪些職業(yè)?看完漲知識了

      千秋文化
      2026-02-07 17:19:02
      向太向華強(qiáng)郭碧婷在新加坡被偶遇,向太不像闊太,郭碧婷成黃臉婆

      向太向華強(qiáng)郭碧婷在新加坡被偶遇,向太不像闊太,郭碧婷成黃臉婆

      小娛樂悠悠
      2026-02-13 07:00:45
      為什么領(lǐng)導(dǎo)很少生病請假,總是精力充沛?主要有這4點(diǎn)

      為什么領(lǐng)導(dǎo)很少生病請假,總是精力充沛?主要有這4點(diǎn)

      細(xì)說職場
      2026-02-11 17:27:08
      史詩級更新!iPhone18 Pro首發(fā)C2基帶,蘋果終于告別高通

      史詩級更新!iPhone18 Pro首發(fā)C2基帶,蘋果終于告別高通

      數(shù)碼八叔
      2026-02-12 14:26:37
      中方已做好最壞打算!黃巖島發(fā)生激烈對峙,美媒:轟6和055都到了

      中方已做好最壞打算!黃巖島發(fā)生激烈對峙,美媒:轟6和055都到了

      現(xiàn)代小青青慕慕
      2026-02-11 09:17:22
      加起來142歲!林子祥葉倩文演唱會(huì)廣州站官宣

      加起來142歲!林子祥葉倩文演唱會(huì)廣州站官宣

      大象新聞
      2026-02-13 19:43:05
      為什么過年越來越?jīng)]年味了?細(xì)究深層次原因,讓人恍然大悟

      為什么過年越來越?jīng)]年味了?細(xì)究深層次原因,讓人恍然大悟

      愛下廚的阿釃
      2026-02-14 02:07:53
      CBA拿到10000分有多難?31年來歷史僅5人,王治郅差312分,姚易呢

      CBA拿到10000分有多難?31年來歷史僅5人,王治郅差312分,姚易呢

      兵哥籃球故事
      2026-01-07 11:09:47
      張本智和徹底翻臉!拒交四成獎(jiǎng)金,自掏腰包組建六人“對抗軍”

      張本智和徹底翻臉!拒交四成獎(jiǎng)金,自掏腰包組建六人“對抗軍”

      破鏡難圓
      2025-12-29 22:38:09
      出大事了,被俘烏克蘭特工終于開口,兩大秘密曝光,普京不再手軟

      出大事了,被俘烏克蘭特工終于開口,兩大秘密曝光,普京不再手軟

      超喜歡我
      2026-02-11 19:24:26
      張馨予一句話沖上熱搜,風(fēng)評逆轉(zhuǎn)真相曝光

      張馨予一句話沖上熱搜,風(fēng)評逆轉(zhuǎn)真相曝光

      橙星文娛
      2026-02-13 19:15:13
      大連重工印度項(xiàng)目踩雷,直接被阿三黑1.4個(gè)億,吃足了啞巴虧

      大連重工印度項(xiàng)目踩雷,直接被阿三黑1.4個(gè)億,吃足了啞巴虧

      我心縱橫天地間
      2026-02-13 13:06:21
      上海女子帶2只帝王蟹讓飯店加工,防止被掉包便做了記號,上菜后

      上海女子帶2只帝王蟹讓飯店加工,防止被掉包便做了記號,上菜后

      明智家庭教育
      2026-02-10 15:49:03
      崔永熙回家鄉(xiāng)!做公益走進(jìn)校園,打野球身體狀況變好,即將復(fù)出了

      崔永熙回家鄉(xiāng)!做公益走進(jìn)校園,打野球身體狀況變好,即將復(fù)出了

      籃球資訊達(dá)人
      2026-02-13 22:30:44
      重慶一村莊六戶村民合建樓房,網(wǎng)友直呼“是建了所學(xué)校”,鎮(zhèn)政府工作人員:將老屋推翻后重建,手續(xù)合規(guī)

      重慶一村莊六戶村民合建樓房,網(wǎng)友直呼“是建了所學(xué)?!?,鎮(zhèn)政府工作人員:將老屋推翻后重建,手續(xù)合規(guī)

      極目新聞
      2026-02-12 14:40:07
      現(xiàn)貨白銀漲超5%

      現(xiàn)貨白銀漲超5%

      證券時(shí)報(bào)
      2026-02-13 16:51:03
      2026-02-14 03:31:02
      互聯(lián)網(wǎng)悅讀筆記 incentive-icons
      互聯(lián)網(wǎng)悅讀筆記
      12年產(chǎn)品經(jīng)驗(yàn),前360產(chǎn)品總監(jiān),36氪產(chǎn)品負(fù)責(zé)人。長期發(fā)表對AI、產(chǎn)品、運(yùn)營、職業(yè)發(fā)展的觀察和思考
      15文章數(shù) 13關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      8千元的迷你小馬一夜爆火 馬主:1天排泄次數(shù)達(dá)十幾次

      頭條要聞

      8千元的迷你小馬一夜爆火 馬主:1天排泄次數(shù)達(dá)十幾次

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      大衣哥女兒風(fēng)光出嫁,農(nóng)村婚禮超樸素

      財(cái)經(jīng)要聞

      華萊士母公司退市 瘋狂擴(kuò)張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個(gè)畫風(fēng)!

      態(tài)度原創(chuàng)

      旅游
      本地
      家居
      公開課
      軍事航空

      旅游要聞

      土耳其自駕行記(八)地中海邊的慢時(shí)光——卡什小鎮(zhèn)

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準(zhǔn)備

      家居要聞

      中古雅韻 樂韻伴日常

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      多次成功應(yīng)對外艦、外機(jī)挑釁 太原艦展示052D硬核實(shí)力

      無障礙瀏覽 進(jìn)入關(guān)懷版