多模態(tài)，正在悄悄改變 AI 產(chǎn)品是怎么“理解世界”的

2025-12-28 10:04:25　來源: 人人都是產(chǎn)品經(jīng)理社區(qū)

廣東舉報

分享至

多模態(tài)AI正從技術(shù)概念蛻變?yōu)楫a(chǎn)品決策的核心戰(zhàn)場。當模型開始像人類一樣整合視覺、聽覺與語言信息時，我們面對的不僅是技術(shù)突破，更是如何讓AI理解真實世界的產(chǎn)品哲學。本文將從紅燈識別到語音情緒感知，拆解多模態(tài)如何重構(gòu)AI與人類認知的邊界。

———— / BEGIN / ————

如果你最近在看 AI 相關(guān)的項目、產(chǎn)品或招聘信息，大概率已經(jīng)見過一個詞：多模態(tài)。它出現(xiàn)得越來越頻繁，但奇怪的是——很少有人真正把它講清楚。

有的人把多模態(tài)理解成“能看圖的 ChatGPT”，有的人覺得那是算法工程師的事，也有人隱約感覺它很重要，但說不清到底重要在哪。

我想換一種方式講多模態(tài)，不從模型結(jié)構(gòu)開始，而是從一個更貼近日常的角度。

人本來就是“多模態(tài)”的

我們理解世界，從來不是只靠文字。

你走在路上，看見紅燈會停下來，不是因為你腦子里浮現(xiàn)了“紅燈=禁止通行”的文本規(guī)則，而是視覺直接觸發(fā)了判斷。你聽到對方語氣變冷，會下意識意識到氣氛不對，也不是因為你分析了句子結(jié)構(gòu)，而是聲音里的情緒信息在起作用。

視覺、聽覺、語言、空間感、經(jīng)驗，這些信息是同時發(fā)生、互相補充的。

而過去很長一段時間里，AI 對世界的理解方式是極其單一的——幾乎只通過文本。

單模態(tài) AI 的天花板，其實很早就到了

早期的大模型，本質(zhì)上是在做一件事：

把世界翻譯成文字，再從文字里學習規(guī)律。

這件事在很多場景下是成立的，比如問答、總結(jié)、寫作、搜索。但一旦問題變成——

“這張圖片里發(fā)生了什么？”
“這個視頻的情緒是什么？”
“這段語音聽起來開心還是緊張？”

只靠文本，模型就開始變得遲鈍。

因為很多信息根本不在文字里。

構(gòu)圖、光影、表情、語氣、節(jié)奏，這些人類一眼就能感知的東西，如果不直接“喂”給模型，它是學不到的。

多模態(tài)出現(xiàn)的背景，本質(zhì)上不是技術(shù)炫技，而是一個非常現(xiàn)實的問題：如果 AI 要進入真實世界，它就不能只活在文字里。

所謂多模態(tài)，本質(zhì)是在教模型“用多種感官看世界”

從技術(shù)定義上說，多模態(tài)是：

同時處理并融合文本、圖像、視頻、音頻等多種信息形式。

但如果換成人話，它其實在做一件更直觀的事：讓模型不再只“讀”，而是學會“看”和“聽”。

比如——

文生圖，不只是“畫圖”，而是模型理解“文字里的畫面”
圖像理解，不只是識別物體，而是理解畫面關(guān)系、情緒和語境
視頻理解，關(guān)注的不只是幀，而是時間、動作和變化
語音相關(guān)任務(wù)，更是在處理“信息 + 情緒 + 節(jié)奏”的疊加

這也是為什么，多模態(tài)模型往往一上來就顯得“更聰明”。不是它真的懂了，而是它接收的信息更接近人類真實感知世界的方式。

多模態(tài)不是一個功能，而是一整套能力結(jié)構(gòu)

在真實項目中，多模態(tài)通常不會以“一個按鈕”的形式出現(xiàn)。

它更像一張能力網(wǎng)絡(luò)：

一端是生成：文生圖、文生視頻、語音合成
一端是理解：看圖回答問題、視頻內(nèi)容判斷、語音識別
中間連接的是大量數(shù)據(jù)、標簽、描述和對齊規(guī)則

你會發(fā)現(xiàn)，多模態(tài)項目往往不是從“模型”開始，而是從一個看似很基礎(chǔ)的問題開始：

模型應(yīng)該如何理解一張圖、一個視頻、一段聲音？

而這個問題的答案，往往不在算法里，而在數(shù)據(jù)如何被組織、被描述、被篩選。

為什么多模態(tài)越來越像“產(chǎn)品問題”，而不只是技術(shù)問題

當多模態(tài)走進真實產(chǎn)品，它面對的已經(jīng)不是“能不能跑通”，而是——

用戶關(guān)心什么信息
模型應(yīng)該忽略什么
哪些感知是有價值的，哪些是噪聲

這些判斷，本質(zhì)上都帶著非常強的產(chǎn)品決策屬性。

比如，一張圖里背景雜亂但主體清晰，對生成任務(wù)是加分還是減分？一段語音情緒飽滿但發(fā)音略模糊，對 TTS 訓練是優(yōu)勢還是風險？

這些問題，沒有標準答案，但必須有人來判斷。

而多模態(tài)，正是 AI 開始真正需要“人類視角參與”的地方。

多模態(tài)的真正價值，是讓 AI 更像生活在世界里

回到最開始那個問題：多模態(tài)到底是什么？

它不是某個模型名，也不是一個新潮名詞。它更像是 AI 從“文本世界”走向“現(xiàn)實世界”的一座橋。

當模型開始同時接收畫面、聲音和語言，當它不再依賴單一輸入形式，它才有可能真正進入生活場景，而不只是停留在對話框里。

這也是為什么，多模態(tài)并不是一個短期趨勢，而是一個長期方向。

本文來自作者：青藍色的海

想要第一時間了解行業(yè)動態(tài)、面試技巧、商業(yè)知識等等等？加入產(chǎn)品經(jīng)理進化營，跟優(yōu)秀的產(chǎn)品人一起交流成長！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.