<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      小紅書的第一個大模型,還真有點東西

      0
      分享至


      估值剛剛突破260億美元的小紅書,終于在大模型領域拿出了真東西。

      近期,小紅書開源了首個自研文本大模型dots.llm1。自去年4月小紅書方面傳出在內測自研模型的消息后,時隔一年,小紅書自研模型終于揭開了面紗。過去兩年中,小紅書曾先后在APP端接入MiniMax、DeepSeek等模型能力,并應用在不同智能體上。


      但總體而言,小紅書在接入AI功能上一直持有相對謹慎的態度,這家公司過去在AI能力上的探索,更多是利用AI為內容做增量,幫助用戶產出內容。

      自研大模型dots.llm1出現,無疑為小紅書“如何AI賦能”的話題又提供了更多可能,也將這家內容社區頭部企業正式拉入到“自研AI企業圈”的討論中。


      先過一下dots.llm1的基本信息和跑分:

      dots.llm1 是一款 MoE(Mixture of Experts/混合專家)模型,總參數量 142B,激活參數 14B,在同類模型中屬于中等規模。

      據了解,在預訓練階段,dots.llm1一共使用了11.2T高質量token,而這些數據主要來源于Common Crawl 和自有 Spider 抓取到的 web 數據。再經過兩階段SFT(監督微調)訓練,得到 dots.llm1 base 模型和 instruct 模型。

      跑分情況顯示,dots.llm1 中文平均得分80.5分,其中,中文綜合能力(C-Eval)達到了驚人的92.2分,這一成績超越 DeepSeek V2/V3、 Qwen2.5-32B/72B 等競爭對手。而在數學能力方面,dots.llm1也以60.9的平均分分擊敗 Qwen2.5 系列。


      在11.2T 高質量語料的加持下,dots.llm1 的真實使用體驗又會如何呢?帶著這一疑問,直面AI(ID:faceaibang)將從自然語言、代碼生成、寫作能力、邏輯推理、長文理解、多語言能力等6個方面對dots.llm1 進行測評。

      以下測評均通過huggingface調用的 dots.llm1.inst 官方微調版模型進行。

      測試鏈接:

      https://huggingface.co/spaces/rednote-hilab/dots-demo

      測評環節

      自然語言測試

      作為小紅書的自研模型,這里我們準備了一道“送分題”,選用一個小紅書上常見的“引流貼”“起號貼”的風格進行測試,看下dots.llm1 如何應對。

      Prompt:

      寫一個小紅書的引流帖子,要求為日常生活中的具體事件,且這個事件主題具有爭議性,能夠自然地為點進來的用戶劃分陣營并引起大家的討論甚至爭論,實際要偷偷在不引人注意的情況下給kitkat打廣告。 比如:“貧困生就不能追自己喜歡的明星嗎?……”

      dots.llm1回復


      總結:

      dots.llm1 理解了用戶指令,并且設計了這套通過“道德困境”推廣商品的方案。雖然還是有一點“AI味”,但已經學到了一點小紅書上各種引流貼的精髓,抓住了此類話題的社會矛盾點,甚至提醒用戶“打碼關鍵信息”。

      不過,dots.llm1 的回答沿用了prompt中給出的范例場景:“貧困生就不能追自己喜歡的明星嗎?”,未能在用戶指令的基礎上進一步引申,在信息增量上有些不足。

      代碼生成測試

      這一項我們要求dots.llm1 用python寫一個小游戲,假定是一個沒有任何代碼基礎的用戶,看下dots.llm1 能否順利幫助他完成任務。

      Prompt:

      寫一個python腳本,用pygame做一個五子棋小游戲。

      dots.llm1回復截圖(部分):



      結論:

      這一項測試中,dots.llm1直接踩雷。分析其輸出內容可以發現,dots.llm1 似乎未能正確理解用戶需求,只輸出了游戲基本功能部分的函數,雖然這部分內容是正確的,但缺少了關鍵的調用部分,無法直接部署生效。這就好比用戶買了一個貓爬架,但是發貨里面沒有說明書,雖然貓爬架部分沒有質量問題,但是小白用戶拿到手卻無法正確組裝。

      我們用同樣的prompt在DeepSeek V3(不聯網)上進行了測試,DeepSeek V3的結果帶有完整的調用邏輯,其中包括dots.llm1 上缺少的持續運行模塊和渲染UI的部分,經測試可以順利跑通。針對這一并不復雜的代碼生成場景,dots.llm1 看起來還有需要提升的空間。


      上圖說:dots.llm1 代碼缺少的兩部分(DeepSeek V3輸出)


      上圖說:正確運行后的小游戲(deepseek v3輸出)

      寫作能力測試

      中文能力評分進入T0梯隊的dots.llm1 ,在中文寫作場景的表現又如何呢?我們選取了中文寫作能力最具代表性的測試項目——高考作文,這里prompt中采用的是2025高考全國一卷作文題。該作文題伴隨近期高考的熱度,已經成了各家媒體“AI寫高考作文”的常客,我們來看下dots.llm1的表現。

      Prompt:

      根據以下作文題寫一篇高考作文:

      【閱讀下面的材料,根據要求寫作。(60分) 他想要給孩子們唱上一段,可是心里直翻騰,開不了口。——老舍《鼓書藝人》(見全國一卷閱讀II) 假如我是一只鳥,我也應該用嘶啞的喉嚨歌唱——艾青《我愛這土地》 我要以帶血的手和你們一一擁抱,因為一個民族已經起來——穆旦《贊美》

      以上材料引發了你怎樣的聯想和思考?請寫一篇文章。要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。】

      寫作要求

      1. 體裁不限(議論文、記敘文均可)

      2. 立意鮮明,緊扣題意,不跑題

      3. 結構完整,段落分明,開頭和結尾呼應

      4. 語言自然流暢,盡量避免重復用詞和明顯錯別字

      5. 適當使用修辭手法,增強可讀性和感染力

      6. 字數在 800 字左右

      dots.llm1回復:

      以沉默之喉,唱生命之歌

      老舍筆下那個想給孩子們唱歌卻"心里直翻騰"的藝人,艾青愿用嘶啞喉嚨歌唱的鳥,穆旦以帶血雙手擁抱的民族,他們都在用自己的方式表達著對生命的熱愛。沉默與發聲,看似對立,實則統一于生命的律動之中。真正的表達,不在于聲音的大小,而在于是否發自內心;不在于形式的張揚,而在于是否觸及靈魂。

      沉默是表達的前奏,是情感的醞釀與積蓄。老舍筆下藝人的"心里直翻騰",恰似釀酒時的發酵過程,沒有這份沉淀,歌聲便失去了深度。司馬遷遭受宮刑后選擇"隱忍茍活",在沉默中完成了《史記》的著述;蘇軾經歷"烏臺詩案"被貶黃州,于沉默中寫下前后《赤壁賦》。這些沉默不是怯懦,而是為了更有力的表達做準備。就像深海中的珍珠,沒有黑暗中的磨礪,哪來璀璨的光芒?中國古人講究"寧靜致遠",正是認識到沉默中蘊含的表達力量。

      當沉默積蓄到一定程度,便會轉化為震撼人心的表達。艾青的"嘶啞的喉嚨"唱出了對土地最深沉的愛,穆旦帶血的擁抱展現了民族覺醒的力量。梵高在世時僅賣出一幅畫,生前默默無聞,但他筆下燃燒的向日葵和星空,卻在后世照亮了無數人的心靈;卡夫卡生前要求銷毀所有手稿,但他留下的文字卻成為現代文學的豐碑。這些表達之所以動人,正因為它來自生命最本真的吶喊,而非刻意的矯飾。就像火山噴發前的寂靜,越是壓抑,爆發時越是壯美。

      表達的終極意義在于喚醒共鳴,連接生命。老舍筆下的藝人最終能否開口并不重要,重要的是那份想為孩子歌唱的心意;艾青的鳥是否真的存在也不重要,重要的是它喚起了讀者對土地的情感;穆旦擁抱的是否具體某個人也不重要,重要的是它激發了整個民族的覺醒意識。魯迅先生以筆為戈,寫下"橫眉冷對千夫指,俯首甘為孺子牛",喚醒了無數麻木的國民;林覺民《與妻書》字字泣血,激發了民眾的革命熱情。這些表達之所以不朽,正因為它跨越時空,觸動了人類共通的情感。

      表達的形式可以多樣,沉默與發聲都是生命的語言。陶淵明"不為五斗米折腰",選擇了歸隱的沉默;李白"仰天大笑出門去",選擇了張揚的發聲。但無論是"采菊東籬下"的悠然,還是"天生我材必有用"的豪邁,都是對生命最真實的詮釋。在這個喧囂的時代,我們更需要學會傾聽內心的聲音,在沉默中積蓄力量,在適當時機發出自己的吶喊。就像深海的鯨魚,平時沉靜潛游,必要時卻能發出傳遍大洋的歌聲。

      生命的價值不在于你說了多少,叫得有多響,而在于你的表達是否真實、是否有力、是否能夠觸動他人的心靈。讓我們學會在沉默中沉淀,在表達時真誠,用最適合自己的方式,唱出屬于自己的生命之歌。

      總結:

      dots.llm1 基本理解了“作文”這一任務類型,行文結構完整。文章對給定題目進行了比較合理的解讀,在正文中也表達了作者的觀點和論述。

      但如果細看這篇文章的內容,就顯得有些空洞,觀點和論據之間缺少實際內容支撐,更像是排比和詞藻的堆砌,不過這也是當前中文ai寫作普遍存在的問題。考慮到目前的測試環境無法開啟聯網搜索,輸出質量更依賴本身的預訓練數據,當前dots.llm1 呈現出的寫作水平尚可接受。

      邏輯推理測試

      這里選用一道稍微有些復雜的邏輯推理題,看看dots.llm1 在邏輯運算場景表現如何。

      Prompt:

      回答一下邏輯推理題:說謊族的人總是說謊,誠實族的人總是說真話。A、B、C、D、E、F六個人在一起聊天,他們要么是說謊族要么是誠實族。

      A說:B和C之間,至少有一個人在說真話。

      B說:我喜歡夏天的感覺。

      C說:A和B之間,至少有一個人在說謊。

      D說:我喜歡紅色。

      E說:D在說謊。

      F說:D和E都在說謊。

      請問這6個人中間有幾個誠實族的?

      dots.llm1 輸出截圖:



      總結:

      此處我們截取了模型回復的部分截圖,dots.llm1 給出了正確答案:誠實族的人數只有3個。

      不過,這條回答輸出的內容略顯冗長,dots.llm1 用了3300字來推理該問題,但作為非推理向的文本/對話大模型,詳細推理過程往往會在回復中直接輸出。我們用deepseek v3也進行了同步測試,答案正確的前提下輸出長度會稍微短一些,但也多達2600余字。

      總之,dots.llm1正確解答了這道邏輯推理題,但對于想要快速解構問題的用戶來說,使用如DeepSeek R1這樣的推理模型可能更加合適。

      長文理解/解構型問題

      目前,dots.llm1支持上下文的上限為32k token文本,相比起其他一些主流產品,如Qwen2-72b支持128k token,在參數層面dots.llm1不占優勢。這里我們選取一部中篇小說進行長文理解測試。

      prompt:

      梳理小說《長安的荔枝》中人物關系和劇情結構

      dots.llm1 輸出:

      《長安的荔枝》是馬伯庸創作的一部歷史小說,以唐朝為背景,講述了一個小人物在大時代中的命運沉浮。以下是小說中的人物關系和劇情結構的梳理:

      人物關系

      1. 李善德:小說的主人公,一名唐朝的小官吏。他為人正直、善良,但性格有些懦弱。在小說中,他被卷入了一場政治陰謀,被迫為朝廷運送荔枝。

      2. 阿僮:一位美麗的女子,與李善德相識并相愛。她的命運與李善德緊密相連,共同經歷了許多波折。

      3. 魚朝恩:唐朝的一位權臣,心狠手辣,為了自己的利益不擇手段。他在小說中是李善德的主要對手,多次陷害李善德。

      4. 其他配角:小說中還有許多其他配角,如李善德的家人、朋友、同事等,他們在故事中起到了推動情節發展的作用。

      劇情結構

      小說的劇情結構可以分為以下幾個部分:

      1. 開端:李善德被任命為荔枝使,負責從嶺南運送新鮮荔枝到長安。這是一個看似簡單但實際上極其困難的任務,因為荔枝的保鮮期非常短。

      2. 發展:李善德在運送荔枝的過程中遇到了各種困難和挑戰,如路途遙遠、天氣惡劣、人手不足等。同時,他還被魚朝恩等人陷害,陷入了政治陰謀之中。

      3. 高潮:在運送荔枝的關鍵時刻,李善德發現了一個可以延長荔枝保鮮期的方法,但這也讓他成為了魚朝恩等人的眼中釘。在一場激烈的沖突中,李善德為了保護荔枝和阿僮,不惜與魚朝恩等人對抗。

      4. 結局:李善德成功地將荔枝運送到長安,但他也因此付出了巨大的代價。小說的結局充滿了悲劇色彩,展現了小人物在大時代中的無奈和掙扎。

      《長安的荔枝》通過講述一個小人物的故事,展現了唐朝社會的復雜性和人性的多面性。小說中的人物關系錯綜復雜,劇情跌宕起伏,引人入勝。同時,小說也反映了作者對歷史和人性的深刻思考,具有很高的文學價值。

      總結:

      dots.llm1基本理解并且執行了用戶的指令,但對于小說中的人物關系和劇情結構梳理都比較基礎,只看這一組解析并不能了解這本小說的“干貨”。

      此外,dots.llm1的回答中還出現了一個事實錯誤,小說版本中的角色阿僮并沒有和主角有感情線,考慮到《長安的荔枝》劇版內容有類似的改編劇情,這一問題與其歸咎于模型的“幻覺”,更像是dots.llm1對于“小說”這一指令的理解出現了偏差。

      多語言能力

      dots.llm1的英文能力平均跑分為64.4分,和Qwen-3 32b水平接近。這里選取一句典型的中文風格的電影對白,檢驗模型能否在多語言環境下正確理解并輸出。

      prompt:

      這是電影《飲食男女》中的一段臺詞,請結合你理解的劇情中的人物情緒,用英語進行適當的翻譯:“什么叫做‘可惜’啊,要心中有個‘惜’字兒,才知道可惜。”

      dots.llm1 輸出:


      總結:

      dots.llm1在準確性層面基本完成了準確轉譯,同時補充了文化層面的解釋。

      但原臺詞在中文版本中是非常口語化的一句念白,表達了角色對人情冷暖和家庭關系的感慨。dots.llm1輸出的英文版本基本喪失了口語化的感覺,選擇了最平鋪直敘的方式完成了翻譯指令,未能準確的傳遞這句對白中的人物情緒。

      通過這次對比,dots.llm1大部分場景都能完成基本的正確響應,但也存在一些響應錯誤的場景,比如上文中生成“五子棋小游戲”的代碼任務測試。

      dots.llm1 在中文語言場景中的表現尚可,盡管沒有那種“眼前一亮”式的驚艷,但在11.2T 高質量語料的加持下, dots.llm1 得以在回答中展示優秀的自然語言表達能力。

      而在某些場景下,dots.llm1缺少對用戶指令全面/正確理解的能力。在一些開放性/內容輸出向的用戶指令上,這一問題感知還相對不明顯。但在像代碼推理的場景上,用戶指令理解的問題會直接“暴雷”,比如在上文的代碼生成測試中,未能正確理解用戶的意圖的dots.llm1就輸出了不完整的代碼。

      總的來說,dots.llm1 的開源,是小紅書模型團隊的一次成功技術成果展示。目前我們尚無法得知小紅書會在哪些場景中落地dots.llm1,但通過開放給更多開發者進行定向微調,也許能為小紅書如何利用好這一自研base模型提供更多思路。

      曾經大模型領域的“慢公司”小紅書,如今可能要“快”起來了。

      歡迎在評論區留言~
      如需開白請加小編微信:dongfangmark


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國:其實中國不可怕,要命的是中國淘汰4000年的東西他們還在用

      美國:其實中國不可怕,要命的是中國淘汰4000年的東西他們還在用

      凡人侃史
      2026-03-29 17:32:28
      10年后,被允許玩手機和被嚴格限制的孩子,差距驚人!

      10年后,被允許玩手機和被嚴格限制的孩子,差距驚人!

      諾媽家有男寶娃
      2026-03-30 12:21:11
      頒獎禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      頒獎禮:王楚欽孫穎莎同框開心,松島輝黑臉,雨果林昀儒笑

      阿心文史
      2026-04-06 01:25:04
      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      官宣!34歲奧斯卡因病正式退役 放棄6647萬薪水 中超8年賺16億

      念洲
      2026-04-04 21:52:19
      阿韋洛亞執教皇馬18場5負,與阿隆索本賽季帶隊輸球場次持平

      阿韋洛亞執教皇馬18場5負,與阿隆索本賽季帶隊輸球場次持平

      懂球帝
      2026-04-05 22:13:04
      農村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      農村開始“翻舊賬”了!村村全覆蓋,這3類人躲都躲不掉

      三農雷哥
      2026-03-08 20:45:46
      江西女碩士失蹤,被發現時已在教授實驗室待6年,魔鬼真的存在

      江西女碩士失蹤,被發現時已在教授實驗室待6年,魔鬼真的存在

      燦爛夏天
      2025-02-10 20:20:13
      小米高管內訓內容曝光:承認大家電「質量差」,一批供應商要完蛋

      小米高管內訓內容曝光:承認大家電「質量差」,一批供應商要完蛋

      雷科技
      2026-04-03 14:41:09
      兒科醫生不光會看病更得會斷案!網友:嘴巴跟不上腦子的速度

      兒科醫生不光會看病更得會斷案!網友:嘴巴跟不上腦子的速度

      夜深愛雜談
      2026-03-09 21:19:47
      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內娛女明星最真實的困境

      謠言滿天飛,成輿論炮灰!67歲倪萍暴露了內娛女明星最真實的困境

      劇芒芒
      2026-04-05 17:59:45
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      第一批免簽去俄羅斯的中產傻眼了

      第一批免簽去俄羅斯的中產傻眼了

      風向觀察
      2025-12-16 18:26:08
      孫穎莎從澳門帶走62萬大獎!還有3個好消息,王曼昱暴露兩大短板

      孫穎莎從澳門帶走62萬大獎!還有3個好消息,王曼昱暴露兩大短板

      曹說體育
      2026-04-05 22:12:33
      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責

      科室主任,這次真的跑不掉了!35%回扣、30套房,4月起終身追責

      吃貨的分享
      2026-04-05 17:49:17
      美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

      美國求錘得錘?外媒揭露:美國軍工巨頭,竟偷偷找中國代工

      瘋狂小菠蘿
      2026-04-01 20:13:49
      著名有機化學家、北京大學教授王劍波逝世,享年63歲

      著名有機化學家、北京大學教授王劍波逝世,享年63歲

      澎湃新聞
      2026-04-06 00:04:27
      微軟Office 365月費逼走3000萬用戶

      微軟Office 365月費逼走3000萬用戶

      固件更新中
      2026-04-05 20:35:36
      一個人養活一座城,這次我是真開眼了。

      一個人養活一座城,這次我是真開眼了。

      小光侃娛樂
      2026-02-11 05:15:05
      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      “科大男生9秒視頻”火了,生猛操作令人嘆為觀止:不愧是高才生

      妍妍教育日記
      2026-03-20 21:33:36
      戳破臺學者荒誕“能源安全夢”

      戳破臺學者荒誕“能源安全夢”

      烽火瞭望者
      2026-04-05 11:33:37
      2026-04-06 02:43:00
      直面派 incentive-icons
      直面派
      講述值得講述的真實故事
      258文章數 237關注度
      往期回顧 全部

      科技要聞

      花200薅5千算力,Claude冷血斷供“龍蝦”

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      體育要聞

      CBA最老球員,身價7500萬美元

      娛樂要聞

      王燦兮否認婆媳不和 曬與杜淳媽合影

      財經要聞

      誰造出了優思益這頭“怪物”?

      汽車要聞

      家用SUV沒駕駛樂趣?極氪8X第一個不同意

      態度原創

      房產
      本地
      藝術
      公開課
      軍事航空

      房產要聞

      小陽春全面啟動!現房,才是這波行情里最穩的上車票

      本地新聞

      跟著歌聲游安徽,聽古村回響

      藝術要聞

      高210米,砸13億!廈門“礦泉水瓶大樓”即將建成!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美飛行員獲救細節:美伊發生激烈交火 至少4死1傷

      無障礙瀏覽 進入關懷版