作者|畢樂天
來源|AI先鋒官
AI的通病:愛“瞎說”,不“聽話”
你一定遇到過:
讓AI寫報(bào)告,它給你編一半。
給它復(fù)雜任務(wù),它轉(zhuǎn)頭就忘。
這就是多數(shù)AI的現(xiàn)狀:不可靠。
針對(duì)這個(gè)問題,百度推出了文心大模型X1.1,一個(gè)號(hào)稱會(huì)“深度思考”的AI,專治“不靠譜”和“不聽話”。
X1.1強(qiáng)在哪?三點(diǎn)升級(jí)
和只會(huì)“背答案”的AI不同,X1.1更像一個(gè)會(huì)“解題”的學(xué)霸。它能分析、規(guī)劃、推理。
1. 更靠譜:事實(shí)性提升34.8%
大幅減少了胡編亂造的可能。查資料、寫報(bào)告,更放心。
2. 更聽話:指令遵循能力提升12.5%
能準(zhǔn)確理解并執(zhí)行復(fù)雜指令,不再輕易跑偏。
3. 更能干:智能體能力提升9.6%
接到一個(gè)大任務(wù),它能自己規(guī)劃步驟、調(diào)用工具、最終完成。像一個(gè)AI項(xiàng)目助理。
![]()
體驗(yàn)渠道:
“文心一言”官網(wǎng)或“文小言”App。
實(shí)戰(zhàn)測(cè)試:它到底行不行?
我們?cè)O(shè)計(jì)了三個(gè)挑戰(zhàn),來檢驗(yàn)它的真實(shí)能力。
挑戰(zhàn)一:當(dāng)編劇,寫穿越故事
任務(wù): 創(chuàng)作“唐僧師徒穿越到2025年”的故事。
結(jié)果: 故事邏輯嚴(yán)謹(jǐn),框架完整。但在創(chuàng)意和腦洞方面,表現(xiàn)略保守,不如Kimi等模型天馬行空。
百度
![]()
kimi
![]()
結(jié)論: 適合構(gòu)建邏輯自洽的敘事,而非追求極致創(chuàng)意。
挑戰(zhàn)二:當(dāng)實(shí)習(xí)生,策劃“火星團(tuán)建”
任務(wù): 為公司策劃一場(chǎng)“火星探索”主題的團(tuán)建活動(dòng)。
測(cè)試結(jié)果:
文心X1.1:表現(xiàn)驚艷,像個(gè)項(xiàng)目總監(jiān)。它沒有直接寫方案,而是先列出了思考步驟和任務(wù)規(guī)劃。然后,它自主調(diào)用了網(wǎng)絡(luò)搜索、思維導(dǎo)圖、代碼分析等多種工具,一步步完成資料搜集、框架搭建和預(yù)算分析。最后交付的是一份結(jié)構(gòu)完整的項(xiàng)目計(jì)劃書。
其他多數(shù)模型:更像小組組員。它們通常會(huì)直接生成一大段文本,內(nèi)容零散,缺乏規(guī)劃和工具協(xié)同,需要用戶自己去整理和深化。
![]()
![]()
結(jié)論: 表現(xiàn)不像內(nèi)容生成器,更像一個(gè)能獨(dú)立工作的項(xiàng)目助理。
挑戰(zhàn)三:當(dāng)學(xué)霸,輔助寫論文
任務(wù): 為學(xué)術(shù)論文查找資料。
測(cè)試結(jié)果:
文心X1.1:表現(xiàn)得像個(gè)嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)助理。它能直接調(diào)用“百度學(xué)術(shù)”這樣的專業(yè)數(shù)據(jù)庫(kù),提供的文獻(xiàn)來源清晰、可追溯,最新的數(shù)據(jù),有效避免了AI最常見的“一本正經(jīng)胡說八道”問題。
其他模型:有些模型可能會(huì)依賴內(nèi)部知識(shí)庫(kù)進(jìn)行回答,雖有查找百度學(xué)士但都是很早之前的信息,存在信息過時(shí)或憑空捏造引用的風(fēng)險(xiǎn),需要用戶花費(fèi)大量時(shí)間進(jìn)行事實(shí)核查。
![]()
![]()
結(jié)論: 在學(xué)術(shù)研究等對(duì)準(zhǔn)確性要求高的場(chǎng)景中,非常實(shí)用。
對(duì)比Kimi、GPT,它是什么水平?
X1.1的定位是“特長(zhǎng)生”,而非“全能冠軍”。
![]()
核心優(yōu)勢(shì)
邏輯強(qiáng),事實(shí)準(zhǔn):工作和學(xué)習(xí)場(chǎng)景下的首選,尤其適合報(bào)告、分析等專業(yè)領(lǐng)域。
任務(wù)搞得定:能自主規(guī)劃并協(xié)同工具完成復(fù)雜任務(wù),這是它最大的差異化優(yōu)勢(shì)。
價(jià)格有競(jìng)爭(zhēng)力:性能對(duì)標(biāo)DeepSeek-R1,價(jià)格只要一半。后續(xù)的Turbo版價(jià)格又降了50%。
相對(duì)弱點(diǎn)
創(chuàng)意生成偏保守:在純粹追求趣味性和想象力的場(chǎng)景,表現(xiàn)不如以創(chuàng)意見長(zhǎng)的模型靈動(dòng)。
一句話總結(jié):干活用它,娛樂找別人。
它能為我做什么?
學(xué)生 → 超級(jí)學(xué)霸助理
寫論文:幫你找真實(shí)文獻(xiàn),杜絕引用風(fēng)險(xiǎn)。
復(fù)習(xí):把課堂筆記一鍵生成思維導(dǎo)圖,提高效率。
職場(chǎng)人 → 免費(fèi)AI實(shí)習(xí)生
工作流自動(dòng)化:寫周報(bào)、做PPT大綱、分析數(shù)據(jù)、策劃活動(dòng),下達(dá)指令即可。
信息處理:快速閱讀長(zhǎng)篇報(bào)告,提煉核心觀點(diǎn)。
普通用戶 → 可靠的知識(shí)伙伴
回答生活問題時(shí),它會(huì)先“深度思考”,提供更全面、靠譜的答案。
結(jié)論
百度文心X1.1是一個(gè)強(qiáng)大、理性、高效的生產(chǎn)力工具。
它的核心價(jià)值是幫你“搞定工作”。
想試試?
電腦搜索:“文心一言”
親身體驗(yàn),最能說明問題。
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.