![]()
「沒(méi)收Kimi錢(qián)」
這兩天,我測(cè)試了Kimi新模型K2的寫(xiě)作能力。
因?yàn)槲液秃匣锶嗽陂_(kāi)發(fā)一個(gè)寫(xiě)作產(chǎn)品,我們之前把市面上主流的大模型,都測(cè)試過(guò)一遍。
寫(xiě)作能力上,我的結(jié)論是:Gemini 2.5 Pro > Claude Sonnet 4 ≥ 各種縫合版 > Qwen 3 > Kimi K2 > DeepSeek R1
這個(gè)公眾號(hào)的絕大部分文章都用AI寫(xiě)了初稿,我讓這些大模型全都重寫(xiě)了兩遍,從寫(xiě)作結(jié)果看優(yōu)缺點(diǎn)。
完整的測(cè)試文檔在這個(gè)飛書(shū)鏈接,包含了測(cè)試過(guò)程和各個(gè)模型的寫(xiě)作全文。
https://likczh6fsao.feishu.cn/docx/IPNxd1SZhoXjWkx6vW1c6vuTnYd?from=from_copylink
篇幅限制,這篇公眾號(hào)只談結(jié)論。
Kimi K2的寫(xiě)作能力略遜于Qwen 3。它的邏輯能力不錯(cuò),和Qwen 3沒(méi)什么區(qū)別,能講清楚比較復(fù)雜的事情。文風(fēng)卻接近DeepSeek,文筆有點(diǎn)飄,有一些靈機(jī)一動(dòng)但不可控的表述。
K2寫(xiě)作最大的問(wèn)題是編造,它寫(xiě)的東西有很多具體表述和數(shù)據(jù)是上下文里沒(méi)有的,并且編得很流暢,不仔細(xì)看看不出來(lái),導(dǎo)致其很難用來(lái)嚴(yán)肅寫(xiě)作。
比如我讓K2根據(jù)我的口述轉(zhuǎn)錄和提綱,寫(xiě)作這篇文章的全文。
K2編造了大量我根本沒(méi)說(shuō)過(guò)的話。
我的原話大意是,我問(wèn)了幾個(gè)朋友,都不知道階躍有啥新聞。K2直接寫(xiě)成「我問(wèn)了十個(gè)AI創(chuàng)業(yè)者,九個(gè)搖頭,剩下一個(gè)反問(wèn):面壁智能不比他更有資格?」。
![]()
這是學(xué)新聞學(xué)的?
最離譜的是,它會(huì)編造有鼻子有眼的數(shù)據(jù)。它憑空編造了:「零一萬(wàn)物做過(guò)一個(gè)AI編程助手,DAU剛過(guò)五萬(wàn),團(tuán)隊(duì)解散。」,還說(shuō)「智譜做過(guò)一個(gè)會(huì)議紀(jì)要工具,DAU三萬(wàn),負(fù)責(zé)人已經(jīng)離職創(chuàng)業(yè)。」。
![]()
要不是我對(duì)這幾家公司還有點(diǎn)了解,知道轉(zhuǎn)錄里自己肯定沒(méi)這么說(shuō),這些話要是直接用了,大概率我都被起訴了。
K2的文筆也很飄,很像DeepSeek,有一些靈機(jī)一動(dòng)但不可控的表述。比如它自己原創(chuàng)了一句「2024年上半年,VC們像扔手榴彈一樣把錢(qián)砸進(jìn)來(lái)。」
![]()
確實(shí)很生動(dòng)形象。但總體來(lái)說(shuō),這種不穩(wěn)定的創(chuàng)造力,加上嚴(yán)重的編造問(wèn)題,導(dǎo)致K2無(wú)法用在嚴(yán)肅寫(xiě)作。
目前寫(xiě)作能力最好的大模型,我體驗(yàn)下來(lái)是Gemini 2.5 Pro。
Gemini 2.5 Pro的邏輯能力特別好。你讓它寫(xiě)一篇2000字以上的長(zhǎng)文,它一次性吐出來(lái)的稿子,句子和句子之間是邏輯連貫的。加上它100萬(wàn)tokens的超長(zhǎng)上下文,可以處理我的所有寫(xiě)作需求。
當(dāng)然,Gemini偶爾也會(huì)冒出一些AI味兒的句子,靈光一動(dòng)但不穩(wěn)定。
在穩(wěn)定性上,Claude Sonnet 4 就做得很好。它的文筆非常平實(shí)、樸素,幾乎沒(méi)有怪話。但Claude的短板也很明顯,邏輯能力較差,寫(xiě)2000字以上長(zhǎng)文的時(shí)候,文章整體很流暢,但語(yǔ)句之間沒(méi)有邏輯聯(lián)系。
然后是Qwen 3,很像一個(gè)弱化版的Gemini 2.5 Pro。邏輯能力不錯(cuò),能完成復(fù)雜寫(xiě)作任務(wù)。文筆也比較簡(jiǎn)潔、樸實(shí),偶爾有靈機(jī)一動(dòng)的句子。但Qwen 3的問(wèn)題是壓縮嚴(yán)重,經(jīng)常把有用的細(xì)節(jié)壓縮沒(méi)了,導(dǎo)致文章只有邏輯骨架,缺少細(xì)節(jié)血肉。
回到Kimi K2上。
至少在寫(xiě)作能力上,K2沒(méi)有帶給我驚喜。邏輯水平和Qwen 3接近,但幻覺(jué)更嚴(yán)重,上下文長(zhǎng)度也較短(128k vs 256k),這決定了K2很難一次性處理特別復(fù)雜的寫(xiě)作任務(wù)。
但我能因此說(shuō)
我收回之前的偏見(jiàn)(沒(méi)收Kimi錢(qián))
在2025年7月這個(gè)時(shí)間點(diǎn),Kimi團(tuán)隊(duì)做出了一個(gè)能力接近Qwen 3的模型,并且把這個(gè)萬(wàn)億參數(shù)規(guī)模的大模型開(kāi)源了。
我沒(méi)法說(shuō),一個(gè)愿意開(kāi)源次先進(jìn)大模型的公司,是沒(méi)有夢(mèng)想的。即便我不會(huì)用K2來(lái)工作,但依然對(duì)做出K2的團(tuán)隊(duì)保持敬意。
(本文配圖由ChatGPT o3生成,Gemini 2.5 Pro輔助寫(xiě)作。)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.