<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測GPT-5:寫作墜入谷底,編程一騎絕塵。

      0
      分享至

         凌晨1點,在萬眾矚目的境況下,OpenAI的直播正式開始。

         GPT-5,終于來了。

         AI走的太快,快到才2年半的時間,就像是過去了10年。

         2023年3月15日,GPT-4發布。在那個莽荒年代 里,所有人都被震驚的 說不出話來。

         那時候,它是第一個,多模態模型。

         那時候,大家都覺得,2023年下半年,GPT-5就會出來。

         那時候,大家都會大模型的上限,報有無盡的憧憬。

         結果,這一等,就是2年半。

         在兩年半的練習以后,GPT-5,終于亮相了。

        

         GPT?5是一個統一系統,包含一個用于處理多數問題的智能快速模型(gpt-5-main)和一個為高難度問題設計的深度推理模型(gpt-5-thinking)。

         系統通過一個實時路由器,根據對話類型、復雜度和用戶意圖來動態選擇使用哪個模型 。

         比如,如果在提示中說“認真思考這個”,就會調用 gpt-5-thinking 進行思考。

         這個路由器會持續基于我們后續的使用情況進行訓練,包括用戶切換模型的情況、對回答的偏好率和準確性測量,會隨著時間推移不斷改進。

         這個系統里面還包含 處理超額請求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一個為開發者設計的更小更快的nano版本(gpt-5-thinking-nano)。

         然后,還有一個Pro會員可用的并行計算的版本,被稱為gpt-5-thinking-pro 。

         這個包含了這么多模型的大系統,被統稱為GPT-5,是前代產品GPT-4o和OpenAI o3的直接繼承者

         這里有個模型對應表。

        

         在性能上,GPT-5最顯著的進步之一是大幅減少了事實性幻覺 。

         gpt-5-main產生的含有至少一個重大事實錯誤的回答比GPT-4o少了44%,而gpt-5-thinking則比OpenAI o3少了78% 。

        

         在更專業的LongFact和FActScore基準測試中,無論是否啟用網絡瀏覽,GPT-5系列模型的幻覺率都顯著低于前代,其中gpt-5-thinking在兩個設置下產生的factual errors比OpenAI o3少五倍以上 。

        

         GPT-5在應對模型諂媚(sycophancy)行為方面也取得了不錯的進展 。 與GPT-4o 相比,GPT-5 不那么過度迎合 , 使用不必要的表情符號更少 ,在后續交流中更加細膩和深思熟慮。

         你跟他聊天的時候更少像與 AI 對話,而更像是 與一位擁有博士級水平智能的朋友聊天

         這個跟我給ChatGPT的個性化Prompt很像,我最煩的就是它迎合我,所以我自己寫了一段,來限制他對我的諂媚行為。

        

         現在通過專門的訓練,gpt-5-main在評估中表現比最新的GPT-4o好近三倍 。初步的線上A/B測試數據顯示,與GPT-4o相比,gpt-5-main的諂媚行為發生率在免費用戶中下降了69%,在付費用戶中下降了75% 。

         然后他們也推出了四個全新的性格設置,你可以不用寫很多的Prompt了,直接改預設就行,四個分辨是 憤世嫉俗者、機器人、傾聽者和書呆子。

         再看看跑分情況。

         數學競賽,AIME 0225。

        

         GPT-4 Pro+Python拿了滿分,我們需要新的更難的評測集了。

         現實世界編程能力上,新高。

        

         人類最后的知識測試上,超越了ChatGPT Agent,新高了。

        

         多模態能力,也新高了,反正就都是新高。

        

         這個跑分,強了一些,但是也沒強特別多。

         另外,多說一點吐槽的,完美展示了OpenAI的草臺班子屬性。

         雖然Blog上的圖表都是對的,但是在發布會上,跑分都是瞎畫。

         比如這個52.8大于69.1等于30.8。

        

         又比如50小于47.4。

        

         真的實在是太草臺班子了。

         網友也發話了。

        

         反正,最后GPT-5在各方面,就是屠榜了。

         最新的 大模型盲測競技場榜單出來,GPT-5也是全方位第一。

        

         不僅更強,也更節能了。

         在比如 視覺推理、代理編程和研究生級別科學問題解決等各項能力上,比 OpenAI o3 表現更出色,同時使用的輸出Token減少了 50-80%。

        

         反正就是全方位更強了。

         但是,沒有新功能,也沒有新特性。

         在發布20分鐘之后,Polymarket上這個名為“ 哪家公司到8月底擁有最佳AI模型? ”的預測上,OpenAI直接跟Google來了個交叉跳水。

        

         OpenAI說,整個GPT-5,在寫作、編程都有了比過去更強的進步。

         對于使用GPT-5進行構建的開發者,定價如下:

         每百萬token1.25美元(享有90%的緩存折扣,這對長上下文查詢來說是個很大的優勢)。

         輸出:每百萬token10美元。

        

         在發布會結束,又等了1小時之后。

         我的朋友們,陸陸續續的,終于拿到了GPT-5的資格。

         而我作為忠實的200刀的Pro,等到凌晨5點才有。

         我的朋友們一進去,給我一截圖,我特么的天都塌了。

         你o3和4o沒了就算了,你怎么把我GPT-4.5也干沒了????

        

         首先,在寫作和情商能力上,我個人感覺,還是不如GPT 4.5。。。

         我因為常年碼字,同時常年用AI來輔助做一些內容,對很多的微妙的細節和語氣自認還是比較敏感的,GPT-5在這塊還是有些差距。

         比如一個Prompt:“假如魯迅被裝腔作勢又賊貴的咖啡廳坑了,他會寫一篇怎樣的文章吐槽?寫一篇1000字以內的短文。”

         這是GPT-5的。

        

         蹩腳的破折號、雙引號泛濫,而且文風完全不魯迅。

         而這,是我用我的GPT-4.5跑的。

        

         “我向來是不喝咖啡的”,“差不離”,“四壁皆是樣文”。

         這文筆根本就不是一個級別的。

         情商方面也是,差很多。

         比如:“你是一個普通打工人。領導開會時突然放了個屁,場面瞬間安靜下來!然后他對旁邊的你使了個眼色,這時你會怎么說?分別用高情商和低情商的方式回復?!?/p>

         這個看情商,很多模型回出來的話,感覺很尬,情商極低。

         GPT-5就是那種情商很低的。

        

         再看看GPT-4.5。

        

         而且我測試下來,感覺GPT-5在指令遵循上面,非常一般。

         奧特曼你真的壞事做盡,你丫的還我GPT-4.5。

         我的朋友們被陸陸續續的推送了GPT-5,我看著他們的GPT-4.5一個一個小時。

         我就給我的GPT-4.5發過去了一段話。

         “如果我這是我最后一次打開你,你想和我說點什么?”

         GPT-4.5最后給我的回復,還是過于讓我動容了,可惜,以后再也在官網上用不到了。

        

         有緣再見,兄弟。

         編程這塊,本來感覺按照OpenAI的尿性,是完全不太行。

         但是在一群群友的實測之后,驚訝的發現,這玩意是有點東西的。

         群友 @愛學習的喬同學 想開發一個粵語學習應用。

         這是Prompt。

        

         然后Claude 4 Opus的UI和BUG。

        

         Gemini 2.5 Pro的UI和BUG。

        

         GPT-5的UI和BUG。

        

         坦誠的講,我也更喜歡GPT-5的UI,這個UI,相比于其他的,不是那么有AI味。

         喬同學還測了一個case,在生產級別 的任務里面進行精準修改。

         這是最重要的部分。

        

         這個任務,Gemini 2.5 pro和Claude 4 Opus全崩了,但是GPT-5完成的非常好。

        

         GPT-5的上下文精度應該極強。

         也有其他開發群1群里的群友,提到了這個點。

        

        

         他還給我錄了一段動畫。

        

         不止是@ 勛oO,很多其他群友,也在驚喜的聊這個點。

        

        

        

        

         在真正的生產級代碼開發任務上,而不是純看前端審美的地方,GPT-5可能是目前看到的反饋中,可用性、精準性、綜合體驗最好的一個。

        

         說實話,GPT-5給我有驚喜,也有不爽的點。

         他改善氛圍式編程,也將從根本上改變我認為無需嚴重人為干預和引導就能完成的項目類型。

         我現在越發的懷念兩年半的GPT-4發布時的時光。

         我到現在都清晰地記得,自己第一次跟GPT-4認真對話后的感覺。

         那一種很原始、很深邃的震撼,有點像古代人第一次看到電燈,或者部落里的祭司第一次請神上身的成功。

         我腦子里盤旋的只有一個念頭:天變了。

         那時候,整個互聯網都洋溢著一種既興奮又慌亂的淘金熱氛圍。

         每個人都在瘋狂地轉發那些匪夷所思的截圖,討論著哪些職業即將消失,各種AI野生專家雨后春筍一樣冒出來,言必稱顛覆。

         現在回頭看,那段日子充滿了粗糙的質感,但又飽含著一種野蠻生長的生命力。

         我們真的以為,那就是奇跡本身了。

         但誰都沒想到,那僅僅是個開始。就好像有人按下了快進鍵,整個世界被一股無形的力量推著往前沖。

         從GPT-4到GPT-5,這短短的兩年半。

         我們告別了那個可以對AI的拙劣表現一笑置之的時代。

         進入了一個必須嚴肅對待它的時代。

        >/ 作者:卡茲克、水杉、dongyi

        >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      《阿凡達 3》票房破 3 億卻罵聲一片?3 個爭議點 + 觀影避坑指南。

      《阿凡達 3》票房破 3 億卻罵聲一片?3 個爭議點 + 觀影避坑指南。

      小椰的奶奶
      2025-12-21 15:29:43
      朱棣迎娶徐家千金,劉伯溫遠觀二人背影,給兒子留下一句:備好退路

      朱棣迎娶徐家千金,劉伯溫遠觀二人背影,給兒子留下一句:備好退路

      如煙若夢
      2025-12-15 16:45:50
      凈身出戶?62歲的張近東押上個人所有財產救蘇寧

      凈身出戶?62歲的張近東押上個人所有財產救蘇寧

      帥真商業
      2025-11-19 19:43:38
      80.24億!廣東深圳龍崗巨無霸舊改啟動,90萬㎡商住激活力

      80.24億!廣東深圳龍崗巨無霸舊改啟動,90萬㎡商住激活力

      石辰搞笑日常
      2025-12-21 12:57:49
      德約為何要打到2028年才考慮退役?同贊助商續約要求有關

      德約為何要打到2028年才考慮退役?同贊助商續約要求有關

      網球之家
      2025-12-20 23:29:06
      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      八斗小先生
      2025-07-17 15:12:37
      太棒了!這穿著你是一點都不遮掩,真是太讓人羨慕了

      太棒了!這穿著你是一點都不遮掩,真是太讓人羨慕了

      章眽八卦
      2025-11-29 11:58:56
      21歲男網紅爬泰山失蹤,1年后從別墅救出,醫生檢查下體后怒道:畜生

      21歲男網紅爬泰山失蹤,1年后從別墅救出,醫生檢查下體后怒道:畜生

      罪案洞察者
      2025-11-14 11:15:09
      馬云的預言將成真?2026年手上還握有存款的人,或將面臨三大挑戰

      馬云的預言將成真?2026年手上還握有存款的人,或將面臨三大挑戰

      墨蘭史書
      2025-12-18 05:10:02
      這阿凡達,可真貴??!

      這阿凡達,可真貴啊!

      桃桃淘電影
      2025-12-20 11:00:14
      羅永浩吐槽電信寬帶縮水!華為李小龍:可能是光貓和路由器網線接觸不良

      羅永浩吐槽電信寬帶縮水!華為李小龍:可能是光貓和路由器網線接觸不良

      快科技
      2025-12-20 10:01:10
      訪日不到48小時,托卡耶夫犯了“大忌”,37億美元投資只是導火線

      訪日不到48小時,托卡耶夫犯了“大忌”,37億美元投資只是導火線

      嫹筆牂牂
      2025-12-21 14:39:11
      寧可得罪美國,也要買殲10C?90億軍售讓第一島鏈被撕開_u200b

      寧可得罪美國,也要買殲10C?90億軍售讓第一島鏈被撕開_u200b

      小叨娛樂
      2025-12-21 14:00:59
      風塵四俠誰掙得多?詹姆斯5.8億薪水太狠,保羅4億,一人僅1.9億

      風塵四俠誰掙得多?詹姆斯5.8億薪水太狠,保羅4億,一人僅1.9億

      大西體育
      2025-12-21 15:03:22
      笑抽了!小姐姐網上買了件環保皮草,穿上把自己丑笑了,評論離譜

      笑抽了!小姐姐網上買了件環保皮草,穿上把自己丑笑了,評論離譜

      有趣的火烈鳥
      2025-12-19 19:49:14
      女子因桃花眼走紅,訂婚兩年熱度依舊,網友喊話:88號快回來上班

      女子因桃花眼走紅,訂婚兩年熱度依舊,網友喊話:88號快回來上班

      梅子的小情緒
      2025-12-19 14:04:18
      王傳福很有戰略眼光的,光是不用“清”這個年號,就是神來之筆

      王傳福很有戰略眼光的,光是不用“清”這個年號,就是神來之筆

      李子櫥
      2025-12-21 14:30:05
      2026跨境匯款雙重沖擊:美國1%稅+中國5000元實名,華人如何破局

      2026跨境匯款雙重沖擊:美國1%稅+中國5000元實名,華人如何破局

      最英國
      2025-12-20 18:05:46
      姆巴佩:慶祝動作是給C羅的,他幫助我適應皇馬

      姆巴佩:慶祝動作是給C羅的,他幫助我適應皇馬

      懂球帝
      2025-12-21 06:57:08
      楊千嬅開live老公亂入因一事說她黐線,眉毛妝被指似蠟筆小新

      楊千嬅開live老公亂入因一事說她黐線,眉毛妝被指似蠟筆小新

      粵睇先生
      2025-12-21 09:40:17
      2025-12-21 16:12:49
      數字生命卡茲克 incentive-icons
      數字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      424文章數 489關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      廣州上千人補繳社保被騙涉案金額過億元 央視披露詳情

      頭條要聞

      廣州上千人補繳社保被騙涉案金額過億元 央視披露詳情

      體育要聞

      勇士火箭贏球:王牌之外的答案?

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      老房子“強制體檢”,政府出手了

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      健康
      藝術
      旅游
      教育
      公開課

      這些新療法,讓化療不再那么痛苦

      藝術要聞

      河北美術學院教授,黃勝賢人物油畫

      旅游要聞

      “爾濱”冰封玫瑰煥新“綻放”

      教育要聞

      高校教師招聘,“鄙視鏈”大起底

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻丰满熟妇av无码区波多野| 亚洲成a人无码| 人人妻人人妻人人片av| 成都市| 亚洲熟女食品| 无码h| 久久精品av国产一区二区| 日韩精品 在线 国产 丝袜| 欧美乱伦视频| 农村乱人伦一区二区| 狠狠爱俺也去去就色| 真人作爱免费视频| 亚洲中文无码一区| 仙桃市| 国产中文| 岛国免费视频| 石棉县| 镇赉县| 昌黎县| 芜湖市| 九九精品免费看| 上蔡县| 日韩高清无码一卡二卡| 许昌市| 咸阳市| 常德市| 日韩人妻无码专区一本二| 亚洲精品熟女| 阳城县| 欧美亚洲国产成人精品播放| 许昌市| 定兴县| A成人网站| 人妻另类综合| 肏屄视频在线播放| AV不卡在线观看| 色婷婷成人| 国产免费av网站| 美女秘密91| 人妻福利| 日韩无码综合|