網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

百度AI這次終于行了？對(duì)比評(píng)測(cè)“更靠譜、更能干”的ERNIE X1.1

2025-09-12 07:17:59　來源: AI先鋒官

北京舉報(bào)

分享至

作者｜畢樂天

來源｜AI先鋒官

AI的通病：愛“瞎說”，不“聽話”

你一定遇到過：

讓AI寫報(bào)告，它給你編一半。

給它復(fù)雜任務(wù)，它轉(zhuǎn)頭就忘。

這就是多數(shù)AI的現(xiàn)狀：不可靠。

針對(duì)這個(gè)問題，百度推出了文心大模型X1.1，一個(gè)號(hào)稱會(huì)“深度思考”的AI，專治“不靠譜”和“不聽話”。

X1.1強(qiáng)在哪？三點(diǎn)升級(jí)

和只會(huì)“背答案”的AI不同，X1.1更像一個(gè)會(huì)“解題”的學(xué)霸。它能分析、規(guī)劃、推理。

1. 更靠譜：事實(shí)性提升34.8%

大幅減少了胡編亂造的可能。查資料、寫報(bào)告，更放心。

2. 更聽話：指令遵循能力提升12.5%

能準(zhǔn)確理解并執(zhí)行復(fù)雜指令，不再輕易跑偏。

3. 更能干：智能體能力提升9.6%

接到一個(gè)大任務(wù)，它能自己規(guī)劃步驟、調(diào)用工具、最終完成。像一個(gè)AI項(xiàng)目助理。

體驗(yàn)渠道：

“文心一言”官網(wǎng)或“文小言”App。

實(shí)戰(zhàn)測(cè)試：它到底行不行？

我們?cè)O(shè)計(jì)了三個(gè)挑戰(zhàn)，來檢驗(yàn)它的真實(shí)能力。

挑戰(zhàn)一：當(dāng)編劇，寫穿越故事

任務(wù)：創(chuàng)作“唐僧師徒穿越到2025年”的故事。

結(jié)果：故事邏輯嚴(yán)謹(jǐn)，框架完整。但在創(chuàng)意和腦洞方面，表現(xiàn)略保守，不如Kimi等模型天馬行空。

百度

kimi

結(jié)論：適合構(gòu)建邏輯自洽的敘事，而非追求極致創(chuàng)意。

挑戰(zhàn)二：當(dāng)實(shí)習(xí)生，策劃“火星團(tuán)建”

任務(wù)：為公司策劃一場(chǎng)“火星探索”主題的團(tuán)建活動(dòng)。

測(cè)試結(jié)果：

文心X1.1：表現(xiàn)驚艷，像個(gè)項(xiàng)目總監(jiān)。它沒有直接寫方案，而是先列出了思考步驟和任務(wù)規(guī)劃。然后，它自主調(diào)用了網(wǎng)絡(luò)搜索、思維導(dǎo)圖、代碼分析等多種工具，一步步完成資料搜集、框架搭建和預(yù)算分析。最后交付的是一份結(jié)構(gòu)完整的項(xiàng)目計(jì)劃書。
其他多數(shù)模型：更像小組組員。它們通常會(huì)直接生成一大段文本，內(nèi)容零散，缺乏規(guī)劃和工具協(xié)同，需要用戶自己去整理和深化。

結(jié)論：表現(xiàn)不像內(nèi)容生成器，更像一個(gè)能獨(dú)立工作的項(xiàng)目助理。

挑戰(zhàn)三：當(dāng)學(xué)霸，輔助寫論文

任務(wù)：為學(xué)術(shù)論文查找資料。

測(cè)試結(jié)果：

文心X1.1：表現(xiàn)得像個(gè)嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)助理。它能直接調(diào)用“百度學(xué)術(shù)”這樣的專業(yè)數(shù)據(jù)庫(kù)，提供的文獻(xiàn)來源清晰、可追溯，最新的數(shù)據(jù)，有效避免了AI最常見的“一本正經(jīng)胡說八道”問題。
其他模型：有些模型可能會(huì)依賴內(nèi)部知識(shí)庫(kù)進(jìn)行回答，雖有查找百度學(xué)士但都是很早之前的信息，存在信息過時(shí)或憑空捏造引用的風(fēng)險(xiǎn)，需要用戶花費(fèi)大量時(shí)間進(jìn)行事實(shí)核查。

結(jié)論：在學(xué)術(shù)研究等對(duì)準(zhǔn)確性要求高的場(chǎng)景中，非常實(shí)用。

對(duì)比Kimi、GPT，它是什么水平？

X1.1的定位是“特長(zhǎng)生”，而非“全能冠軍”。

核心優(yōu)勢(shì)

邏輯強(qiáng)，事實(shí)準(zhǔn)：工作和學(xué)習(xí)場(chǎng)景下的首選，尤其適合報(bào)告、分析等專業(yè)領(lǐng)域。
任務(wù)搞得定：能自主規(guī)劃并協(xié)同工具完成復(fù)雜任務(wù)，這是它最大的差異化優(yōu)勢(shì)。
價(jià)格有競(jìng)爭(zhēng)力：性能對(duì)標(biāo)DeepSeek-R1，價(jià)格只要一半。后續(xù)的Turbo版價(jià)格又降了50%。

相對(duì)弱點(diǎn)

創(chuàng)意生成偏保守：在純粹追求趣味性和想象力的場(chǎng)景，表現(xiàn)不如以創(chuàng)意見長(zhǎng)的模型靈動(dòng)。

一句話總結(jié)：干活用它，娛樂找別人。

它能為我做什么？

學(xué)生 → 超級(jí)學(xué)霸助理

寫論文：幫你找真實(shí)文獻(xiàn)，杜絕引用風(fēng)險(xiǎn)。
復(fù)習(xí)：把課堂筆記一鍵生成思維導(dǎo)圖，提高效率。

職場(chǎng)人 → 免費(fèi)AI實(shí)習(xí)生

工作流自動(dòng)化：寫周報(bào)、做PPT大綱、分析數(shù)據(jù)、策劃活動(dòng)，下達(dá)指令即可。
信息處理：快速閱讀長(zhǎng)篇報(bào)告，提煉核心觀點(diǎn)。

普通用戶 → 可靠的知識(shí)伙伴

回答生活問題時(shí)，它會(huì)先“深度思考”，提供更全面、靠譜的答案。

結(jié)論

百度文心X1.1是一個(gè)強(qiáng)大、理性、高效的生產(chǎn)力工具。

它的核心價(jià)值是幫你“搞定工作”。

想試試？

電腦搜索：“文心一言”

親身體驗(yàn)，最能說明問題。

掃碼邀請(qǐng)進(jìn)群，我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學(xué)一些AI搞錢技能。

往期文章回顧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.