Greg Brockman在X上甩出一條推文,字數不多,信息量夠炸。GPT-4o來了,文本、音頻、視頻,它全都要實時處理。換句話說,以前你得先錄音再上傳,現在它能邊聽邊想邊回話,延遲壓到和人類對話差不多。
這條推文3小時攢了20萬轉發。評論區最熱的不是技術討論,是用戶在問:「那我的ChatGPT Plus還值嗎?」免費用戶也能用GPT-4o,只是額度少點。Brockman沒提定價,但把演示視頻置頂了——一個AI同時聽人說話、看桌面、解數學題,語速快得像個 caffeine 過量的助教。
實時多模態是這次的核心賣點。之前的GPT-4看不了視頻,聽語音還得轉文字再走一道。現在端到端,音頻直接進,音頻直接出,中間不經過文字中轉。Brockman的原話是:「reason across text, audio, and video in real time」,三個介質,一個模型通吃。
業內反應兩極。一部分人覺得這是交互革命的起點,另一部分在算成本——實時推理的算力賬單誰來埋單。OpenAI沒公布API價格,但開發者已經在蹲守。有獨立開發者在評論區留言:「只要延遲真能做到232毫秒,我的語音助手項目能活過來。」
演示里有個細節:AI能感知說話者的呼吸節奏,被打斷時會自然停頓。Brockman沒解釋這是怎么練出來的,但網友已經把這個片段剪成meme到處傳。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.