大家在使用DeepSeek R1的時(shí)候,估計(jì)會注意到,它在思考的時(shí)候通常會有類似于“嗯”這樣的開頭。
![]()
它的作用簡而言之,它是為了:
為了降低開頭時(shí)的語言生成不確定性。
因?yàn)榇竽P驮谏傻臅r(shí)候是一個字一個字的,也就是下一個字的生成是基于上一個字的,如果你要生成一篇作文,那么前面的字就決定了后面字生成的大致走向。
這里我們來舉個小例子。
比如有一個續(xù)寫的作業(yè),要求我們根據(jù)「好久不見,你好」來進(jìn)行續(xù)寫,在你好后面補(bǔ)充一個字。我們可以想一下有哪些可能,可能是你好嗎,你好高或者你好美。
其實(shí)對于AI來說也是一樣的,它的輸出也不是確定的,而是會根據(jù)上文來推測出下文。
對于這個例子,顯而易見,后面跟的是“嗎“,這就引申出了大模型的基本原理——它是一個概率模型,會根據(jù)上文來預(yù)測下文。
同樣我們舉例「小時(shí)候你就一小點(diǎn),現(xiàn)在你好__」這個時(shí)候后面大概率跟的就是你好高。
![]()
我們來看DeepSeek的輸出是否符合我們剛剛講的這個基本原理。
當(dāng)我們輸入同樣的上文時(shí),可以看到它印證了我們的推測,說的是“你好高”。這就是AI大模型的思考方式。
![]()
它的思考過程也遵循類似的原理,所以開篇很重要,因?yàn)樗_定了基調(diào)。“嗯”就代表了我收到了,等它幾秒鐘回復(fù)也符合常理,還有其他類似的回復(fù),比如“嘖”,“唔”,等等,都是先給反應(yīng)。
我們可以把這個邏輯再往前推一步:
當(dāng)用戶提出一個復(fù)雜、開放式的問題時(shí),比如“請解釋一下黑洞的熵”,模型在生成第一個字時(shí),面臨的“可能性空間”是巨大的。它可以回答“當(dāng)然”,也可以說“黑洞的熵是一個復(fù)雜的概念”,或者“根據(jù)廣義相對論...”,每一個開頭的有效選擇都有很多。
這就在技術(shù)上造成了開局的高熵狀態(tài)(HighEntropy),即高度的不確定性。模型需要從無數(shù)個貌似都合理的選項(xiàng)中,選擇一個概率最高的來啟動。
但“嗯”這種詞不一樣,它太靈活了。
嗯出來之后,可以有很多種選擇,不管是會還是不會,都能圓回來。
![]()
“嗯”這個字,在這種場景下就成了一個絕佳的“概率錨點(diǎn)”。
高概率,低信息:在海量的對話訓(xùn)練數(shù)據(jù)中,人類在開始解釋一個復(fù)雜問題前,說“嗯”的頻率極高。因此,模型學(xué)到這是一個非常安全、高概率的起始選項(xiàng)。同時(shí),“嗯”本身不攜帶任何具體的知識信息,它不承諾接下來要講物理、歷史還是哲學(xué),這給了模型極大的靈活性。
降低后續(xù)生成難度:一旦“嗯”被生成出來,上下文就從 [用戶的問題] 變成了 [用戶的問題] 嗯,。對于模型來說,在 嗯, 之后接著生成“這個問題可以從...”或者“好的,我們來談?wù)?..”的概率,要遠(yuǎn)大于在沒有任何鋪墊的情況下直接生成它們。它成功地將一個不確定性極高的“冷啟動”問題,轉(zhuǎn)化成了一個路徑更清晰的“續(xù)寫”問題。
所以,“嗯”不僅僅是一個模擬人類的語氣詞,它更是一種技術(shù)上的策略,用來打破初始生成的僵局,鎖定一個高概率的生成路徑,從而讓后續(xù)的文本能夠更流暢、更穩(wěn)定地組織起來。
它像是一個離合器,平穩(wěn)地將“接收指令”狀態(tài)切換到“生成內(nèi)容”狀態(tài),有效規(guī)避了開局時(shí)因可能性過多而導(dǎo)致的“選擇困難”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.