<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      親測OpenAI o3的10個案例,20美金/月雇跨學科博士做助理

      0
      分享至


      一直以來,OpenAI 的o1模型都是推理模型的巔峰,其DeepResearch功能就是憑借o系列的基座能力,在市場上贏得了口碑。

      不過,可能生成報告的模式,讓大家始終覺得搜索升級沒啥看頭,大家很難體會AI的研究能力。

      在昨晚發布的o3和o4、o4 mini模型中,實現了以下能力的躍遷:

      整體推理能力:對真實、復雜任務的專家打分顯示,o3 的重大錯誤比上一代?o1?少?≈20?% ?視覺多模態:在大學水平的多學科視覺推理基準?MMMU,o3 82.9?%?→?GPT?4 34.9?%,絕對提升?≈48?分,相當于 2.4?× 的相對提升 ?競賽數學:AIME?2024 單次作答 o3 91.6?%,而 GPT?4o 只有 12?% 左右,提升 >7?× ?上下文長度:o3 200?k 輸入窗口?vs?GPT?4 8?k,且輸入/輸出 token 價格僅為 GPT?4 的約 1/3?2/3

      AI呈現了一定程度的研究能力,為了能讓大家更直觀感受到大模型在各個領域場景下,高水平處理任務的能力。

      鯨哥實測了10個案例,我們能看到o3的分步推理思考過程,很多復雜的問題真正在研究,以及利用工具解決!


      1、化身福爾摩斯,看圖猜測背景信息:

      鯨哥在o3上傳了一張菜單,要求ChatGPT猜出來是哪家飯店。


      可以看到o3分析了菜品和價格,并搜索了大眾點評的數據,提出指紋式的菜名+價格組合只有在四季民福出現,最終答對了!


      2、識別圖片內容信息,成為植物學家:

      識圖能力在此前的眾多大模型中都已經具備,但這次是給大模型加大難度,用一大束花,讓GPT識別都有哪些花束。


      最終o3識別出了8種主要的花束,展現了對復雜內容的理解。


      3、做考公 圖推題,o3當小學題題目做

      在考公題目中,經常有圖推題出現。這些題目往往具有一定的難度,考驗模型對圖片理解以及意識推理的能力。


      這道考公題并不容易,GPT用幾種形狀來找規律,最終選擇了答案D。當然,這道題也有爭議,粉筆網給出的答案是D,但很多人認為是B。

      只是19秒做完這題,o3估計覺得這題沒多復雜,都是小學生題。


      4、數學計算能力更強,重大錯誤比o1強20%

      在數學計算中,此前o1開始計算哥德巴赫猜想,讓大家吃了一驚。當然,也沒有計算出來,卻顯示出推理大模型的強悍之處。

      鯨哥拿一道DeepSeeK做錯的數學題,考驗o3的進化能力。


      這道題不太難,但是DS的幻覺率需要人為矯正。


      而o3很快就得出了正確答案,數學題是推理模型的阿克琉斯之踵,o3有進步。


      5、調用OpenAI內部工具,除了不能做視頻

      在這里,我們先讓o3深度調研下『2025年北京夏天可能火的食物』這一主題。o3從全網內容中獲取了最新的5款食物銷量,得出了結論。


      o3最看好 乳茶2.0這款產品,接著讓o3做一張輕乳茶2.0的宣傳海報,o3會思考任務交代中沒有明確提示要Midjourney生成,那就是不僅要生成Prompt,還需要調用4o模型直接生成圖片。


      接著我們讓o3直接生成輕乳茶的電商網頁,以動態可視化的HTML網頁形式運行。現在GPT還可以直接運行代碼,實時預覽,很方便。


      可以看到右下角還有修復提示,這也是本次o3的重要提升,當它意識到程序有Bug時,就會實時提示可以修復真實代碼,這對于AI編程落地很關鍵。



      6、創意視頻生成,后續結合Sora才有前景

      o3其實作為LLM,本身不支持生成視頻,但是我們還是要求他生成視頻,考驗它解決問題的思路,這里鯨哥給到的是飛機和魚的創意故事。


      o3是逐幀生成了圖片,然后做成gif形式的視頻。

      可以看到最終生成的視頻內容,是一架飛機路過,伸出了魚鉤,釣起魚飛走了。這個創意讓我想起來一個歌:『海鳥與魚相愛,只是一場意外』


      7、代碼能力和真實物理能力測試

      這次公告中,官方稱在“修 bug”基準?SWE中,o3 解決?69.1?% 問題,而 GPT?4o 只解決 33?%左右,代碼能力 ≈2?倍提升。

      實測中,生成代碼的審美確實沒什么進步,以下是o3生成的100個小球碰撞的物理實驗,這個效果差強人意。


      和下圖對比看,相比o1的還遜色不少,o系列模型確實在代碼編程方面,始終沒有超越Claude3.7。尤其前端UI這塊,水平還是差不少,GPT-4.1也不行。



      8、科技商業問題推理,最終寫成文章

      在這道題中,鯨哥用比較有門檻的科技商業文作為寫作題目,而且要求中間插入數據分析以及戰略路徑歸納,最終得出結論。


      生成的分析深度還可以,只是沒學會吳曉波老師的文筆。

      一直以來,ChatGPT的寫作能力都略遜Claude3.7,從目前看,語言的風格化以及潤色程度,比3.7確實還有距離,但是數據和邏輯分析,以及概念的引用都不錯。像是個不經常寫文章,而是經常做研究的博士,寫出來比較硬的內容。


      9、視頻分析能力,對多媒體的理解能力

      我們在Youtube上找了個萬人大合唱的合集,然后讓他分析這是什么內容,以及為什么能爆火。


      o3解讀出了都包括哪些歌,然后分析了爆火的底層邏輯。感覺對于IP孵化類博主是個福音,大家以后能用o3直接寫爆款分析課程了。


      10、生成深度研究報告,o3表現更好

      我們調用o3模型的深度思考能力,生成了一份行業報告。o3用了不到20分鐘生成了這份1萬多字的報告。


      還是先思考后搜索的思路,內容較o1版也有一定程度的提升。

      報告全文在這里:https://chatgpt.com/share/6800bf78-bac8-8005-82e4-07c686e121e6

      o4mini更適合批量客服回答等強調性價比場景,所以本文沒有測試。Altman還提到,o3 Pro版本將在未來幾周內到達,能力應該比本文測試的o3更強,但也意味著價格更貴。

      在Plus賬號中,你能大范圍使用ChatGPT 的所有能力,尤其o3的20美金每月費用,相當于花近200多元雇傭了一個跨學科博士生在身邊做助理,大家覺得值不值呢?

      視頻內容推薦:

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      意外!國足世界杯主帥米盧病逝?真相來了,好友第一時間回應此事

      意外!國足世界杯主帥米盧病逝?真相來了,好友第一時間回應此事

      羅掌柜體育
      2026-04-07 13:38:30
      鄭麗文抵達上海,啟程前召開記者會,喊話賴清德見面,信號不簡單

      鄭麗文抵達上海,啟程前召開記者會,喊話賴清德見面,信號不簡單

      阿訊說天下
      2026-04-07 14:33:24
      陳麗華因病逝世,享年85歲:從"紫檀女皇"到中國女首富的傳奇人生

      陳麗華因病逝世,享年85歲:從"紫檀女皇"到中國女首富的傳奇人生

      隱于山海
      2026-04-07 13:49:49
      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      哄動一時啊
      2026-02-17 22:21:25
      解放軍報通告全球:5500枚核彈原料已備好,日本擁核在即

      解放軍報通告全球:5500枚核彈原料已備好,日本擁核在即

      時光在作祟
      2026-04-06 11:36:40
      終于有了結果,曾醫生能保住醫院的工作,最應該感謝的三位貴人!

      終于有了結果,曾醫生能保住醫院的工作,最應該感謝的三位貴人!

      凌風的世界觀
      2025-11-14 08:38:31
      NBA最后兩分鐘裁判報告:勇士vs火箭出現3次漏判,2次對勇士不利

      NBA最后兩分鐘裁判報告:勇士vs火箭出現3次漏判,2次對勇士不利

      夜白侃球
      2026-04-07 14:59:13
      王勵勤終于下定決心!4大老將逐步放棄,重點培養新生代為時不晚

      王勵勤終于下定決心!4大老將逐步放棄,重點培養新生代為時不晚

      銜春信
      2026-04-07 12:27:39
      登機訪陸前,美國出手了,鄭麗文表態,賴清德:這話怎么敢說出口

      登機訪陸前,美國出手了,鄭麗文表態,賴清德:這話怎么敢說出口

      探史
      2026-04-07 09:56:47
      遲重瑞為妻子陳麗華光頭36年,每天晚飯全家人一起吃,沒有紅過一次臉,有說不完的話

      遲重瑞為妻子陳麗華光頭36年,每天晚飯全家人一起吃,沒有紅過一次臉,有說不完的話

      極目新聞
      2026-04-07 14:21:55
      馬杜羅被捕后暴瘦13公斤

      馬杜羅被捕后暴瘦13公斤

      烽火觀天下
      2026-04-07 12:34:13
      文班亞馬左肋骨挫傷傷退,再出場1次超20分鐘比賽可參評獎項

      文班亞馬左肋骨挫傷傷退,再出場1次超20分鐘比賽可參評獎項

      懂球帝
      2026-04-07 11:12:11
      伊朗給法國開后門,以色列當場翻臉!法國這下真被架在火上烤了!

      伊朗給法國開后門,以色列當場翻臉!法國這下真被架在火上烤了!

      達文西看世界
      2026-04-07 14:25:58
      伊朗越打越猛!美媒反復追問中國同一個問題,就怕中國回答:是!

      伊朗越打越猛!美媒反復追問中國同一個問題,就怕中國回答:是!

      霽寒飄雪
      2026-04-07 14:50:16
      張雪稱贊陳光標真男人,與王鑄吵架事件再被扒,身后3位大佬曝光

      張雪稱贊陳光標真男人,與王鑄吵架事件再被扒,身后3位大佬曝光

      壹月情感
      2026-04-06 22:26:04
      薩姆納賽季報銷,焦泊喬拒歸隊!廣東崩盤根源找到了

      薩姆納賽季報銷,焦泊喬拒歸隊!廣東崩盤根源找到了

      寒律
      2026-04-07 12:07:30
      湖人有大麻煩!掘金137-132勝開拓者,約基奇35+14+13,穆雷砍20+7

      湖人有大麻煩!掘金137-132勝開拓者,約基奇35+14+13,穆雷砍20+7

      小徐講八卦
      2026-04-07 14:14:03
      85歲陳麗華去世,長子趙勇早已掌管富華集團,74歲遲重瑞孑然一身

      85歲陳麗華去世,長子趙勇早已掌管富華集團,74歲遲重瑞孑然一身

      小瘋子耶
      2026-04-07 11:42:31
      特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有一個

      特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有一個

      策略述
      2026-04-06 18:11:39
      安徽失聯女童已遇害!兇手身份正臉被扒,知情人曝猛料,細思極恐

      安徽失聯女童已遇害!兇手身份正臉被扒,知情人曝猛料,細思極恐

      青橘罐頭
      2026-04-07 07:15:46
      2026-04-07 15:35:00
      鯨選AI incentive-icons
      鯨選AI
      最新AI產品化與商業化案例速遞
      146文章數 36關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美被困飛行員靠定位器求救 回答其父私密問題驗明身份

      頭條要聞

      美被困飛行員靠定位器求救 回答其父私密問題驗明身份

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭議 黃景瑜前妻發文內涵

      財經要聞

      2026年,全國租房市場還有波降價潮

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      數碼
      健康
      教育
      公開課
      軍事航空

      數碼要聞

      榮耀WIN游戲本官宣4月23日發布:定位高端性能旗艦

      干細胞抗衰4大誤區,90%的人都中招

      教育要聞

      突發:南京又有機構突然閉店!家長遇到機構暴雷,該如何挽回損失?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關懷版