網易首頁 > 網易號 > 正文申請入駐

小紅書的第一個大模型，還真有點東西

2025-06-11 16:41:11　來源: 直面派

北京舉報

分享至

估值剛剛突破260億美元的小紅書，終于在大模型領域拿出了真東西。

近期，小紅書開源了首個自研文本大模型dots.llm1。自去年4月小紅書方面傳出在內測自研模型的消息后，時隔一年，小紅書自研模型終于揭開了面紗。過去兩年中，小紅書曾先后在APP端接入MiniMax、DeepSeek等模型能力，并應用在不同智能體上。

但總體而言，小紅書在接入AI功能上一直持有相對謹慎的態度，這家公司過去在AI能力上的探索，更多是利用AI為內容做增量，幫助用戶產出內容。

自研大模型dots.llm1出現，無疑為小紅書“如何AI賦能”的話題又提供了更多可能，也將這家內容社區頭部企業正式拉入到“自研AI企業圈”的討論中。

先過一下dots.llm1的基本信息和跑分：

dots.llm1 是一款 MoE（Mixture of Experts/混合專家）模型，總參數量 142B，激活參數 14B，在同類模型中屬于中等規模。

據了解，在預訓練階段，dots.llm1一共使用了11.2T高質量token，而這些數據主要來源于Common Crawl 和自有 Spider 抓取到的 web 數據。再經過兩階段SFT（監督微調）訓練，得到 dots.llm1 base 模型和 instruct 模型。

跑分情況顯示，dots.llm1 中文平均得分80.5分，其中，中文綜合能力（C-Eval）達到了驚人的92.2分，這一成績超越 DeepSeek V2/V3、 Qwen2.5-32B/72B 等競爭對手。而在數學能力方面，dots.llm1也以60.9的平均分分擊敗 Qwen2.5 系列。

在11.2T 高質量語料的加持下，dots.llm1 的真實使用體驗又會如何呢？帶著這一疑問，直面AI（ID：faceaibang）將從自然語言、代碼生成、寫作能力、邏輯推理、長文理解、多語言能力等6個方面對dots.llm1 進行測評。

以下測評均通過huggingface調用的 dots.llm1.inst 官方微調版模型進行。

測試鏈接：

https://huggingface.co/spaces/rednote-hilab/dots-demo

測評環節

自然語言測試

作為小紅書的自研模型，這里我們準備了一道“送分題”，選用一個小紅書上常見的“引流貼”“起號貼”的風格進行測試，看下dots.llm1 如何應對。

Prompt：

寫一個小紅書的引流帖子，要求為日常生活中的具體事件，且這個事件主題具有爭議性，能夠自然地為點進來的用戶劃分陣營并引起大家的討論甚至爭論，實際要偷偷在不引人注意的情況下給kitkat打廣告。比如：“貧困生就不能追自己喜歡的明星嗎？……”

dots.llm1回復：

總結：

dots.llm1 理解了用戶指令，并且設計了這套通過“道德困境”推廣商品的方案。雖然還是有一點“AI味”，但已經學到了一點小紅書上各種引流貼的精髓，抓住了此類話題的社會矛盾點，甚至提醒用戶“打碼關鍵信息”。

不過，dots.llm1 的回答沿用了prompt中給出的范例場景：“貧困生就不能追自己喜歡的明星嗎？”，未能在用戶指令的基礎上進一步引申，在信息增量上有些不足。

代碼生成測試

這一項我們要求dots.llm1 用python寫一個小游戲，假定是一個沒有任何代碼基礎的用戶，看下dots.llm1 能否順利幫助他完成任務。

Prompt：

寫一個python腳本，用pygame做一個五子棋小游戲。

dots.llm1回復截圖（部分）：

結論：

這一項測試中，dots.llm1直接踩雷。分析其輸出內容可以發現，dots.llm1 似乎未能正確理解用戶需求，只輸出了游戲基本功能部分的函數，雖然這部分內容是正確的，但缺少了關鍵的調用部分，無法直接部署生效。這就好比用戶買了一個貓爬架，但是發貨里面沒有說明書，雖然貓爬架部分沒有質量問題，但是小白用戶拿到手卻無法正確組裝。

我們用同樣的prompt在DeepSeek V3（不聯網）上進行了測試，DeepSeek V3的結果帶有完整的調用邏輯，其中包括dots.llm1 上缺少的持續運行模塊和渲染UI的部分，經測試可以順利跑通。針對這一并不復雜的代碼生成場景，dots.llm1 看起來還有需要提升的空間。

上圖說：dots.llm1 代碼缺少的兩部分（DeepSeek V3輸出）

上圖說：正確運行后的小游戲（deepseek v3輸出）

寫作能力測試

中文能力評分進入T0梯隊的dots.llm1 ，在中文寫作場景的表現又如何呢？我們選取了中文寫作能力最具代表性的測試項目——高考作文，這里prompt中采用的是2025高考全國一卷作文題。該作文題伴隨近期高考的熱度，已經成了各家媒體“AI寫高考作文”的常客，我們來看下dots.llm1的表現。

Prompt：

根據以下作文題寫一篇高考作文：

【閱讀下面的材料，根據要求寫作。（60分）他想要給孩子們唱上一段，可是心里直翻騰，開不了口。——老舍《鼓書藝人》（見全國一卷閱讀II）假如我是一只鳥，我也應該用嘶啞的喉嚨歌唱——艾青《我愛這土地》我要以帶血的手和你們一一擁抱，因為一個民族已經起來——穆旦《贊美》

以上材料引發了你怎樣的聯想和思考？請寫一篇文章。要求：選準角度，確定立意，明確文體，自擬標題；不要套作，不得抄襲；不得泄露個人信息；不少于800字。】

寫作要求

1. 體裁不限（議論文、記敘文均可）

2. 立意鮮明，緊扣題意，不跑題

3. 結構完整，段落分明，開頭和結尾呼應

4. 語言自然流暢，盡量避免重復用詞和明顯錯別字

5. 適當使用修辭手法，增強可讀性和感染力

6. 字數在 800 字左右

dots.llm1回復：

以沉默之喉，唱生命之歌

老舍筆下那個想給孩子們唱歌卻"心里直翻騰"的藝人，艾青愿用嘶啞喉嚨歌唱的鳥，穆旦以帶血雙手擁抱的民族，他們都在用自己的方式表達著對生命的熱愛。沉默與發聲，看似對立，實則統一于生命的律動之中。真正的表達，不在于聲音的大小，而在于是否發自內心；不在于形式的張揚，而在于是否觸及靈魂。

沉默是表達的前奏，是情感的醞釀與積蓄。老舍筆下藝人的"心里直翻騰"，恰似釀酒時的發酵過程，沒有這份沉淀，歌聲便失去了深度。司馬遷遭受宮刑后選擇"隱忍茍活"，在沉默中完成了《史記》的著述；蘇軾經歷"烏臺詩案"被貶黃州，于沉默中寫下前后《赤壁賦》。這些沉默不是怯懦，而是為了更有力的表達做準備。就像深海中的珍珠，沒有黑暗中的磨礪，哪來璀璨的光芒？中國古人講究"寧靜致遠"，正是認識到沉默中蘊含的表達力量。

當沉默積蓄到一定程度，便會轉化為震撼人心的表達。艾青的"嘶啞的喉嚨"唱出了對土地最深沉的愛，穆旦帶血的擁抱展現了民族覺醒的力量。梵高在世時僅賣出一幅畫，生前默默無聞，但他筆下燃燒的向日葵和星空，卻在后世照亮了無數人的心靈；卡夫卡生前要求銷毀所有手稿，但他留下的文字卻成為現代文學的豐碑。這些表達之所以動人，正因為它來自生命最本真的吶喊，而非刻意的矯飾。就像火山噴發前的寂靜，越是壓抑，爆發時越是壯美。

表達的終極意義在于喚醒共鳴，連接生命。老舍筆下的藝人最終能否開口并不重要，重要的是那份想為孩子歌唱的心意；艾青的鳥是否真的存在也不重要，重要的是它喚起了讀者對土地的情感；穆旦擁抱的是否具體某個人也不重要，重要的是它激發了整個民族的覺醒意識。魯迅先生以筆為戈，寫下"橫眉冷對千夫指，俯首甘為孺子牛"，喚醒了無數麻木的國民；林覺民《與妻書》字字泣血，激發了民眾的革命熱情。這些表達之所以不朽，正因為它跨越時空，觸動了人類共通的情感。

表達的形式可以多樣，沉默與發聲都是生命的語言。陶淵明"不為五斗米折腰"，選擇了歸隱的沉默；李白"仰天大笑出門去"，選擇了張揚的發聲。但無論是"采菊東籬下"的悠然，還是"天生我材必有用"的豪邁，都是對生命最真實的詮釋。在這個喧囂的時代，我們更需要學會傾聽內心的聲音，在沉默中積蓄力量，在適當時機發出自己的吶喊。就像深海的鯨魚，平時沉靜潛游，必要時卻能發出傳遍大洋的歌聲。

生命的價值不在于你說了多少，叫得有多響，而在于你的表達是否真實、是否有力、是否能夠觸動他人的心靈。讓我們學會在沉默中沉淀，在表達時真誠，用最適合自己的方式，唱出屬于自己的生命之歌。

總結：

dots.llm1 基本理解了“作文”這一任務類型，行文結構完整。文章對給定題目進行了比較合理的解讀，在正文中也表達了作者的觀點和論述。

但如果細看這篇文章的內容，就顯得有些空洞，觀點和論據之間缺少實際內容支撐，更像是排比和詞藻的堆砌，不過這也是當前中文ai寫作普遍存在的問題。考慮到目前的測試環境無法開啟聯網搜索，輸出質量更依賴本身的預訓練數據，當前dots.llm1 呈現出的寫作水平尚可接受。

邏輯推理測試

這里選用一道稍微有些復雜的邏輯推理題，看看dots.llm1 在邏輯運算場景表現如何。

Prompt：

回答一下邏輯推理題：說謊族的人總是說謊，誠實族的人總是說真話。A、B、C、D、E、F六個人在一起聊天，他們要么是說謊族要么是誠實族。

A說：B和C之間，至少有一個人在說真話。

B說：我喜歡夏天的感覺。

C說：A和B之間，至少有一個人在說謊。

D說：我喜歡紅色。

E說：D在說謊。

F說：D和E都在說謊。

請問這6個人中間有幾個誠實族的？

dots.llm1 輸出截圖：

總結：

此處我們截取了模型回復的部分截圖，dots.llm1 給出了正確答案：誠實族的人數只有3個。

不過，這條回答輸出的內容略顯冗長，dots.llm1 用了3300字來推理該問題，但作為非推理向的文本/對話大模型，詳細推理過程往往會在回復中直接輸出。我們用deepseek v3也進行了同步測試，答案正確的前提下輸出長度會稍微短一些，但也多達2600余字。

總之，dots.llm1正確解答了這道邏輯推理題，但對于想要快速解構問題的用戶來說，使用如DeepSeek R1這樣的推理模型可能更加合適。

長文理解/解構型問題

目前，dots.llm1支持上下文的上限為32k token文本，相比起其他一些主流產品，如Qwen2-72b支持128k token，在參數層面dots.llm1不占優勢。這里我們選取一部中篇小說進行長文理解測試。

prompt：

梳理小說《長安的荔枝》中人物關系和劇情結構

dots.llm1 輸出：

《長安的荔枝》是馬伯庸創作的一部歷史小說，以唐朝為背景，講述了一個小人物在大時代中的命運沉浮。以下是小說中的人物關系和劇情結構的梳理：

人物關系

1. 李善德：小說的主人公，一名唐朝的小官吏。他為人正直、善良，但性格有些懦弱。在小說中，他被卷入了一場政治陰謀，被迫為朝廷運送荔枝。

2. 阿僮：一位美麗的女子，與李善德相識并相愛。她的命運與李善德緊密相連，共同經歷了許多波折。

3. 魚朝恩：唐朝的一位權臣，心狠手辣，為了自己的利益不擇手段。他在小說中是李善德的主要對手，多次陷害李善德。

4. 其他配角：小說中還有許多其他配角，如李善德的家人、朋友、同事等，他們在故事中起到了推動情節發展的作用。

劇情結構

小說的劇情結構可以分為以下幾個部分：

1. 開端：李善德被任命為荔枝使，負責從嶺南運送新鮮荔枝到長安。這是一個看似簡單但實際上極其困難的任務，因為荔枝的保鮮期非常短。

2. 發展：李善德在運送荔枝的過程中遇到了各種困難和挑戰，如路途遙遠、天氣惡劣、人手不足等。同時，他還被魚朝恩等人陷害，陷入了政治陰謀之中。

3. 高潮：在運送荔枝的關鍵時刻，李善德發現了一個可以延長荔枝保鮮期的方法，但這也讓他成為了魚朝恩等人的眼中釘。在一場激烈的沖突中，李善德為了保護荔枝和阿僮，不惜與魚朝恩等人對抗。

4. 結局：李善德成功地將荔枝運送到長安，但他也因此付出了巨大的代價。小說的結局充滿了悲劇色彩，展現了小人物在大時代中的無奈和掙扎。

《長安的荔枝》通過講述一個小人物的故事，展現了唐朝社會的復雜性和人性的多面性。小說中的人物關系錯綜復雜，劇情跌宕起伏，引人入勝。同時，小說也反映了作者對歷史和人性的深刻思考，具有很高的文學價值。

總結：

dots.llm1基本理解并且執行了用戶的指令，但對于小說中的人物關系和劇情結構梳理都比較基礎，只看這一組解析并不能了解這本小說的“干貨”。

此外，dots.llm1的回答中還出現了一個事實錯誤，小說版本中的角色阿僮并沒有和主角有感情線，考慮到《長安的荔枝》劇版內容有類似的改編劇情，這一問題與其歸咎于模型的“幻覺”，更像是dots.llm1對于“小說”這一指令的理解出現了偏差。

多語言能力

dots.llm1的英文能力平均跑分為64.4分，和Qwen-3 32b水平接近。這里選取一句典型的中文風格的電影對白，檢驗模型能否在多語言環境下正確理解并輸出。

prompt：

這是電影《飲食男女》中的一段臺詞，請結合你理解的劇情中的人物情緒，用英語進行適當的翻譯：“什么叫做‘可惜’啊，要心中有個‘惜’字兒，才知道可惜。”

dots.llm1 輸出：

總結：

dots.llm1在準確性層面基本完成了準確轉譯，同時補充了文化層面的解釋。

但原臺詞在中文版本中是非常口語化的一句念白，表達了角色對人情冷暖和家庭關系的感慨。dots.llm1輸出的英文版本基本喪失了口語化的感覺，選擇了最平鋪直敘的方式完成了翻譯指令，未能準確的傳遞這句對白中的人物情緒。

通過這次對比，dots.llm1大部分場景都能完成基本的正確響應，但也存在一些響應錯誤的場景，比如上文中生成“五子棋小游戲”的代碼任務測試。

dots.llm1 在中文語言場景中的表現尚可，盡管沒有那種“眼前一亮”式的驚艷，但在11.2T 高質量語料的加持下， dots.llm1 得以在回答中展示優秀的自然語言表達能力。

而在某些場景下，dots.llm1缺少對用戶指令全面/正確理解的能力。在一些開放性/內容輸出向的用戶指令上，這一問題感知還相對不明顯。但在像代碼推理的場景上，用戶指令理解的問題會直接“暴雷”，比如在上文的代碼生成測試中，未能正確理解用戶的意圖的dots.llm1就輸出了不完整的代碼。

總的來說，dots.llm1 的開源，是小紅書模型團隊的一次成功技術成果展示。目前我們尚無法得知小紅書會在哪些場景中落地dots.llm1，但通過開放給更多開發者進行定向微調，也許能為小紅書如何利用好這一自研base模型提供更多思路。

曾經大模型領域的“慢公司”小紅書，如今可能要“快”起來了。

歡迎在評論區留言~
如需開白請加小編微信：dongfangmark

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.