這是蒼何的第 449 篇原創!
大家好,我是馬大哈蒼何。
有幸受邀來參加百度 2025 世界大會了,不幸的是身份證掉了。
本來應該從從容容、游刃有余,現在是匆匆忙忙、連滾帶爬
![]()
這次百度連著發了不少新東西,其中印象深刻的是文心 5.0 的發布,且是原生全模態大模型。
![]()
也就意味著文心 5.0 能支持文、圖、視、音的聯合輸入與輸出,實現原生的全模態統一理解與生成。
![]()
為什么我覺得這個還挺拿出來說說的,我現在先不說,我想先放幾個 case 給你先看看。
這是上傳一段《狂飆》的「老莫,我想吃魚」的片段,它居然能自動分析出是哪一部劇。
![]()
然后我輸入:
幫我分析這段影視劇片段的演技,聯系上下文分析這段情感的爆發表現如何,
最后給我寫一段100字的小紅書分享文案。 ![]()
文心說強哥不是真的想吃魚,而是想搞事了,還分析了下張頌文老師表演的情緒,好家伙。
表明文心 5.0Preview 不僅能識別畫面內容,還能理解視頻背后的情感與敘事意圖。
我還挺來勁的,又丟了 2 個梅西和 C 羅點球的視頻給文心 5.0Preview,并放了一個對比提示詞,順帶分析下是誰在點球。
這是2個球員點球的視頻,對比2個視頻中球員的點球動作,(如射門技巧、過人方式)
分析他們的點球射門風格,然后猜測分別是哪個明星球員。這是帶字幕的梅西點球視頻:
這是不帶字幕的 C 羅點球視頻:
這是文心 5Preview 的思考:
![]()
可以看到它居然知道視頻里提到了梅西減慢速度,這有可能是從視頻字幕上做的識別,也有可能是從語音組的識別。
就很強,但這還不是最強的,最強的是它識別 C 羅的手段,一度讓我懷疑它們是不是內置了個柯南?
![]()
從球衣的顏色、號碼和比賽場景等多個維度分析,甚至還結合了射門的腳法,最終確定這就是 C 羅。
![]()
可以看到,在綜合推理方面更強,它不容易被單一模態誤導,能從多角度解釋畫面合理性并復現完整情節
測完這個 case,我就在群里說了一句話:文心的這個對比視頻后分析真牛逼!
![]()
下一個 case 是進行族譜修復測試,今天我爸爸的一個朋友加了我說找到了我們家族的族譜。
![]()
真的好感動,原來知道根的感覺是這么讓人熱淚盈眶,我們不能也不該忘了自己的祖先。
但我打開,全部都是這樣的很有年代感和滄桑感的復印件:
![]()
我現在想著把這張圖片丟給文心 5Preview,然后讓他幫我生成我能看的懂的族譜:
這個是一張族譜圖,請幫我分析下說了啥,以及從族譜中能看出是哪一個家族嗎?并幫我根據內容重新生成一張族譜圖。 ![]()
然后生成了一份我能看的懂的族譜:
![]()
我又根據這個思路把阿姨發我的全部族譜進行了翻譯,才真正看懂了族譜,并把我們家族的歷史徹徹底底的了解了一遍。
從蕭何到梁武帝蕭衍,到唐朝,到宋朝,祖上都特別的文脈軍功起家,可以說文脈源遠流長。
到我這輩,雖說沒在官場報效國家,但也好在能寫寫文章,給全世界的人都能看到,輸出價值,也算沒辜負「文脈」。
這是我們真正的根,將來不管我們走到哪里,都不能忘記的。
然后我又測了它的文本生成和寫作能力,我給了這么一個提示詞:
你現在是“時空歷史檔案館”的一名高級AI研究員。你的任務是處理一份剛剛從“數據遺跡”中搶救出來的、關于“克拉肯市”的殘缺檔案。這份檔案描述了一個奇特的、圍繞著巨型海洋生物“海克拉”而建的城市。你需要根據檔案內容,完成一系列的修復與重構工作。以下是你要處理的【原始檔案材料】(約600字):“克拉肯市(Krakenburg)的命脈,既非黃金也非電力,而是‘海克拉’——那頭棲息在城市下方深海海溝中、如山脈般巨大的遠古生物。城市的奠基者們發現,海克拉的皮膚會分泌一種名為‘深海凝膠’的生物質,這種凝膠在接觸空氣后會迅速硬化,形成一種比鋼鐵更堅韌、卻又溫潤如玉的建筑材料。于是,一座完全由‘凝膠’構筑的城市在海上拔地而起。城市社會結構因此分為兩大階層:‘采膠人’和‘塑形師’。‘采膠人’是勇敢的潛水員,他們穿著老舊的、由黃銅和皮革制成的潛水服,下潛到數百米的深海,用特制的刀具小心翼翼地從沉睡的海克拉皮膚上刮取凝膠。這是一項極其危險的工作,海克拉的每一次呼吸都能引發致命的洋流,任何驚擾都可能導致它的蘇醒。因此,采膠人形成了一個紀律嚴明、信奉“與海克拉共生”教條的封閉社群,他們居住在城市下層,被稱為“深潛者公會”。‘塑形師’則是克拉肯市的藝術家和工程師。他們居住在城市上層,享受著陽光和尊敬。他們掌握著將液態凝膠塑造成宏偉建筑、精美藝術品乃至生活用具的秘方。塑形師們認為,海克拉只是一種取之不盡的自然資源,應該被更高效地利用。他們不斷研發新的、更具侵略性的采集工具,希望能實現凝膠的“工業化”開采,這與采膠人“不過度驚擾”的信條產生了根本性的沖突。近年來,隨著城市人口的擴張,對凝膠的需求日益增長。塑形師公會中的激進派系“齒輪兄弟會”私下研發了一種“聲波鉆探機”,宣稱可以在不直接接觸的情況下,從海克拉體內“震”出更多凝膠。這一計劃被深潛者公會視為對海克拉的褻瀆和致命挑釁。兩個階層的矛盾已經從過去的口角,升級到了街頭的械斗。城市上空的凝膠尖塔和下層的黃銅管道之間,緊張的空氣一觸即發。一份古老的預言在采膠人之間流傳:當海克拉流下眼淚時,城市將重歸深海。”---請根據上述【原始檔案材料】,嚴格按照以下要求,完成一份完整的“檔案重構報告”。報告必須包含四個部分,并嚴格遵循每個部分的格式和內容指令。1. 第一部分:檔案摘要 (Part 1: Archive Summary)* 任務: 將上述檔案材料總結成一段嚴格限制在180到200字之間的摘要。* 指令:摘要必須清晰地概括出克拉肯市的世界觀設定、兩大階層及其核心矛盾禁止在摘要中使用“海克拉”這個詞,必須用其他描述性詞語代替(例如“巨型海洋生物”、“城市之基”等)。2. 第二部分:核心沖突分析 (Part 2: Core Conflict Analysis)* 任務: 用一個無序列表(Markdown的 `-` 或 `*`)的形式,列出并分析導致兩大階層沖突的三個主要原因。* 指令:每個原因的分析都需要先用【原因】標簽開頭,再進行闡述。分析必須入到哲學、資源和技術三個層面。3. 第三部分:創意故事補完 (Part 3: Creative Story Completion)* 任務:以“一個年輕的采膠人學徒”為第一人稱視角,撰寫一篇大約400字的短篇故事。* 指令:* 故事必須發生在“齒輪兄弟會”的“聲波鉆探機”首次秘密實驗的那個晚。* 故事中必須包含以下三個元素:“父親的老舊潛水頭盔”、“凝膠散發出的微光”、“來自深海的低沉共鳴聲”。* 故事的整體基調應為懸疑和不安。* 絕對不許出現任何對話,必須純靠主角的感官和內心活動來推進故。4. 第四部分:后續情節構思 (Part 4: Plot Outline)* 任務:基于檔案內容和你的創意故事,設計三個可能的后續情節發展方向。* 指令:必須以設問句的形式提出,每個設問句代表一個情節走向。例如:“如果聲波鉆探機導致了意想不到的后果,那會是什么?”最終輸出要求:
請將以上四個部分整合在一個回復中,并使用Markdown的二級標題(##)來區分每個部分,標題分別為“## 檔案摘要”、“## 核心沖突分析”、“#、“## 后續情節構思”。
這是個巨長的傻逼指令,說實話,要是個正常人,接到指令第一句話是來一句 MMP。
但 AI 就是好,還是老實工作,還不抱怨:
![]()
寫作能力有了很大進步,真人味道更多了,最終完成效果還不錯。
![]()
文心 5.0Preview 的圖片理解能力表現很贊,除了圖片輸入理解,也還能做圖片輸出。
比如這個提示詞:
幫我制作一張圖片,國風水墨風格,一個長長黑發的男人,金色的發簪,
飛舞著金色的蝴蝶,白色的服裝,高細節,高質量,深藍色背景,背景中有若隱若現的水墨竹林。出來這個效果挺好。:
![]()
文字、視頻、圖片都 OK 了,最后看看音頻。我上傳一段播客錄音,然后讓它幫我輸出成轉為逐字稿。

居然一字不落的全部識別到位,這場景就多了啊。
最后試試代碼能力,讓生成一個 breakout 游戲:

代碼能力有了很大進步,不過輸出有些不穩定,復雜任務耗時有些長。
經過上面全部 case 的測試驗證,對原生全模態大模型有了更深的理解。
它不同于后期融合方式的多模態模型,需要在訓練伊始便融合語言、圖像、視頻、音頻等多模態數據。
這樣才能更好支持文、圖、視、音的聯合輸入與輸出,實現原生的全模態統一理解與生成。
采用了超稀疏混合專家架構,文心 5.0 的總參數規模超過 2.4 萬億個。
而且基于思維鏈和行動鏈的端到端多輪強化學習訓練,實現了長程任務增強的智能體能力。
![]()
講真的,以前覺得修族譜是件特麻煩、特遙遠的事。
沒想到一個 AI 工具,就把幾代人的故事給重新串了起來。
原來,找到自己的根,可以這么簡單,這么酷。
唯有族譜,能讓百姓流芳百世。
我們應該也給文心 5.0 更多期待,給永不下桌的百度更多期待。
就像給一直努力的我們自己更多期待一樣。
這一期的分享就到這啦,如果喜歡,歡迎點贊轉發給需要的朋友。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.