![]()
沒有GPT-5,沒有AI搜索引擎,這次OpenAI2024春季發布會的最重磅產品更新,是最新的旗艦型號模型,GPT-4o。
北京時間5月14日凌晨1點,OpenAI 2024 春季發布會在線上進行了直播。本次發布會共有如下5個主題:
- OpenAI的愿景;
- ChatGPT桌面版及web版本的UI升級;
- GPT-4o模型;
- GPT-4o免費開放;
- GPT-4o的現場實測demo;
![]()
OpenAI 24春季發布會的會議議程
可以看出,本次發布會總結來說,重頭戲就是最新版的旗艦型號模型,GPT-4o。
一.更自然的語音交互體驗
先來看看GPT-4o的官方介紹。
![]()
GPT-4o(“o”代表“omni”)是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。
它可以在短至 232 毫秒的時間內響應音頻輸入,平均時間為 320 毫秒,與人類在正常對話中的響應時間近似。
它在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語的其他語言上的文本性能顯著提高,同時 API 的速度也更快,成本降低了 50%。
與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。
GPT-4o的能力提升,始終圍繞著一個關鍵點:更自然的人機交互方式。
首先,模型最主打的特性就是快速實時的音頻響應。
在此前,用戶使用ChatGPT的音頻交互能力時,平均需要等待2.8秒(GPT-3.5)或 5.4 秒(GPT-4),而GPT-4o將相應時間壓縮到了平均320毫秒。
在現場的實際演示中,ChatGPT與用戶的交流確實如同人類間的自然對話一樣,幾乎在用戶完成語音輸入的同時,ChatGPT就能給出回復。
同時,模型輸出的語音結果還具備了語氣、語調,甚至能夠發出擬聲詞(比如贊嘆、大笑等)。
在測試中,用戶讓ChatGPT切換了幾種不同的語氣語調來講故事,不論是自然語調、戲劇性語調、史詩語調,還是機器人語調,ChatGPT都能快速響應。
在故事結尾,用戶命令ChatGPT用唱歌的方式來講完故事時,ChatGPT立刻就用唱歌的形式進行了輸出,將故事的結尾變成一句歌詞。
此外,在GPT-4o模型支持下,用戶不再需要跟ChatGPT進行對講機時的線性交互。
在ChatGPT輸出語音的同時,用戶可以發出新的語音指令來打斷ChatGPT“說話”,這時ChatGPT會停止輸出,轉而聽取用戶新的指令,并做出響應。
在現場,OpenAI 還現場響應了 twitter上用戶提出的嘗試要求,讓ChatGPT充當同傳翻譯。
只需要進行簡單的語音prompt,ChatGPT就立刻實現了充當一名專業同傳人員。
用戶說出的指令是:“你現在是一名翻譯人員,我和我的朋友在聊天,但是她只會說意大利語,我只會說英語。我需要你在聽到英語時,翻譯成意大利語;在聽到意大利語時,翻譯成英語。”
二.讓模型“看”世界
除了強大的音頻輸入輸出能力外,GPT-4o還具備了“看”世界的能力。
![]()
發布會現場演示手寫方程問題識別的能力
搭載了GPT-4o的新版ChatGPT App,在頁面左下角新增了一個相機的圖標。點擊后,ChatGPT會打開手機攝像頭,實時讀取當前攝像頭所捕捉到的畫面。
在現場演示中,用戶請求ChatGPT幫助他解一道數學題。
在一張白紙上寫下 3X + 1 = 4 后,打開攝像頭對準,ChatGPT幾乎立刻就復述了題目。
由于用戶的指令是讓ChatGPT引導他解出題目,而不是直接告訴他答案,隨著用戶根據ChatGPT給出的方法逐漸寫下新的方程式時,ChatGPT也能立刻給出下一步的提示,直至完成解答。
![]()
可以實時快速識別用戶新的手寫內容
除了識別數學符號外,現場還演示了識別文字和符號的能力。
![]()
可以識別手寫文字和簡單符號
在看到手寫版文字外加符號的紙后,ChatGPT立刻明白了這句話的含義,甚至還立刻“撒了個嬌”。
在本次發布會新推出的桌面版ChatGPT中,一樣提供了獲取實時視覺信息的能力。
在現場演示中,用戶請求ChatGPT幫助他解決一個代碼問題。
在全部選中屏幕上的代碼后,點擊“復制”,再切換到ChatGPT應用中,點擊粘貼,ChatGPT幾乎立刻就“看到了”用戶的全部代碼,并給出了分析。
![]()
在桌面版ChatGPT中一鍵復制粘貼代碼
在另一個demo中,用戶點擊了ChatGPT左下角的電腦顯示器圖標,ChatGPT中就立刻顯示出了用戶選中范圍內的屏幕上的實時圖像。
![]()
桌面版支持實時讀取用戶屏幕中指定位置的畫面
三.GPT-4o官方參數一覽
在產品能力層面,官網在直播后也迅速進行了更新,放出了模型的評估結果和與其他模型的對比結果。
![]()
GPT-4o文本處理能力評估
文本處理能力方面,在官方給出的6個維度的測評中,除了最后兩項能力之外,其余能力域的測試結果均能取得參與測評的7種模型中的第一。
MGSM能力域與第一的Claude 3 Opus相差很小,DROP能力域為第三名,略微落后GPT-4 Turbo和Llama 3 400b。
(6項能力域從左至右依次為:大規模多任務語言理解MMLU、專業領域能力測試GPQA、數學能力MATH、代碼能力HumanEval、多語言小學數學能力MGSM、離散段落推理能力DROP)
![]()
GPT-4o音頻翻譯能力評估
![]()
GPT-4o圖像識別能力評估
在音頻翻譯和視覺理解能力方面,GPT-4o均取得了測評的第一名。
GPT-4o目前版本擁有128k的上下文處理能力,知識庫的更新時間截止到2023年10月。
GPT-4o不僅提供ChatGPT內置版本,同樣也開放了API調用的能力。
對比GPT-4 Turbo,新版本的模型API響應速度提升了2倍,價格降低了一半,并且速率限制提升了5倍。
![]()
GPT-4o API 對比 GPT-4 Turbo API 的能力提升
![]()
GPT-4o API 定價
![]()
GPT-4 Turbo API 定價
目前官網給出的定價是,每百萬輸入token 5美元,每百萬輸出 15美元,而GPT-4 Turbo的價格分別是 10美元和30美元。
四. 何時才能用上
根據官網上給出的信息,GPT-4o模型的全部能力會在之后通過逐步迭代的方式推出。
(原文:GPT-4o’s capabilities will be rolled out iteratively.)
從今天發布會后,OpenAI會優先開放給擴大規模后的紅隊,首先開始進行試用。
GPT-4o的文字和圖像能力,會在發布會后更新進ChatGPT中(截止凌晨3點,ChatGPT暫未進行更新)。
更新后的ChatGPT中,GPT-4o將允許免費用戶直接進行使用,而對于訂閱了Plus的用戶,將會開放比免費用戶多5倍的消息限制。
![]()
對于本次發布會上重點演示的語音能力——在隨后的數周內,搭載了GPT-4o的新版語音模式將會更新至ChatGPT中。
OpenAI此番趕在谷歌I/O大會前一天進行的春季發布會,對比之前大眾的預期來說,還是缺少了些力度的。
雖然新版GPT-4o的語音能力足夠驚艷,但對比之前放出的各種煙霧彈,GPT-5、AI搜索引擎來說,還是缺少了些重量。
對于ChatGPT用戶免費、API費用降價一半也確實是提供了足夠的誠意,但何時才有下一代顛覆性的模型或產品更新,才是外界對這家公司最關心的地方。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.