<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      你是否也曾榨干過DeepSeek?

      0
      分享至

      在今年深度體驗AI大模型的3個月里,我發現無論他回答的對不對,大多數時候,他基本都能在1分鐘內能生成回答(很多時候是秒答),無論回答質量如何,是否有幻覺,他都能很快給你答完就是了。

      但是,有這么一類問題,他的答案普遍簡短,有的短到只有一個單詞,長的也不超過10個單詞,卻常常讓 DeepSeek深度思考五分鐘以上,過程中動不動還爆出數千字以上的思維鏈。

      比如下面這個問題:


      中間的思維鏈就更長了,接近5000字,我就不全截圖了,你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個wait:


      還有下面這個問題,花了將近6分鐘


      這兩個問題,別看題目不長,答案也都很短,大模型花了這么久,但是依然做錯了。

      這些問題,都來自一個測試,就是OpenAI在4月上旬發布的BrowseCamp,瀏覽競賽。

      這個測試,主要就測一個能力:定位很難尋找的、復雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

      其實說白了,就是要看看大模型們瀏覽網頁和搜索信息的能力,到底強到什么地步了?因為現有的測試比如SimpleQA,其實已經被“刷爆”了。

      但是,基本上沒太多人討論這個 BrowseCamp,它被淹沒在4o生圖的火熱和最近的o3模型的發布之中了。

      瀏覽競賽里的問題集的最大特點,就是答案簡單,但是,題干一定會用最虛無縹緲的特征描述,把簡單的答案層層包裹起來。

      比如,答案是一個歷史名人,但是,題干是這個人最冷僻、最不為人所知的信息點,甚至是有很大誤導性的信息點,比如這個描述同時也有很多其它人符合或者是很籠統的描述,最終,你會很難猜這個人是誰。

      比如劉備,大家都知道,如果問桃園三結義里的大哥是誰,那就太好猜了。

      如果這么問:某河北籍男子,身高1米88,15歲外出求學,中年創業多次失敗,兒子很不成器,晚年因為要給弟弟報仇,63歲客死他鄉。

      是不是難了很多?

      當然,理論上,還要加入更多的限制性條件,讓答案唯一。

      以上信息,還算是很好找的,所有信息都在一個百度百科的網頁里都有了(因為就是我幾分鐘內現編的,如果信息有誤請找百度)。

      但問題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導一點的話,大模型往往需要橫跨數十個甚至上百個網頁,才有可能定位到其中某個信息,然后開始驗證,排除,再查找,再驗證...最后,答錯了。

      官方論文里的另一個例題:請告訴我一篇發表在 2018 至 2023 年間 EMNLP 會議上的論文,其第一作者本科畢業于達特茅斯學院(Dartmouth College),第四作者本科畢業于賓夕法尼亞大學(University of Pennsylvania)。

      答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

      這些問題在知道答案的時候,都很容易確認,就是1分鐘的事情,但是不知道答案的話,模型就得暴力搜索數千篇論文了。

      這是官方所謂的“驗證的不對稱性 asymmetry of verification ”:驗證 容易,解答困難。但是,這就恰恰符合了這個測試的目標:大模型的檢索能力。

      雖不完美,卻也有效。它不是考驗 next token predidtion的能力,畢竟題干和答案都很短,也不太考驗推理能力,因為不太需要什么深度研究分析(不過 普遍來說推理模型的表現還是會更好),只要找得到信息,就能回答正確。

      下圖顯示了 BrowseCamp的整體測試結果:花的時間越久,正確率越高,這也是之前DeepSeek會花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴格來說,它還不算一個模型,而是agent


      瀏覽競賽里的問題,實在也不好編,官方說,現在攏共只有1266個問題。官網放出了5道例題,我分別讓DeepSeek V3、R1不開聯網、R1開聯網,分別測試了5個問題,每次都新開對話窗口,一共15次測試,全軍覆沒。(注意,這并非是說 DeepSeek一道都做不對,而是正確率大概率很低)

      而且,在沒有聯網的情況下,出現了前述 的超長回答時間的問題,理論上,這種自我榨干的情況不該出現,它應該早一點發現自己其實根本無法作答,然后再給出一個它認為最有可能正確的猜測即可(注:R1的表現比V3好)。

      那么,到底什么模型表現最好呢?很遺憾,OpenAI還只測試了自家的模型,暫時沒啥橫向可比性,雖然我認為瀏覽網頁和尋找信息的能力,肯定是agent們包含的各種 tool use能力里最重要的一個。


      新上線的o3,不提它在視覺理解方面的能力,就因為相比o1有了browsing功能(當然還有更強的推理能力),正確率提高了很多。(o1在沒有聯網功能的情況下,僅靠內部知識庫,答對了其中10%的問題)


      我的三個小心得:

      1、無論現有大模型在browsing方面表現如何,它們都在飛快進步和提升;

      2、一旦遇到這種要查很多資料的任務,先讓大模型做一遍, 做對最好,沒做對也沒關系,它的搜索過程和給出的回答,還是能給你節約不少時間;

      3、不要只問一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續給更多提示詞,問第二次,第三次,榨干它,很快,你也會接近答錯了

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賴清德不裝了、馬英九暴露真面目!國民黨發甲級動員,要決一死戰

      賴清德不裝了、馬英九暴露真面目!國民黨發甲級動員,要決一死戰

      謝綸郵輪攝影
      2026-04-20 16:00:27
      悲催!一92歲奶奶輕生,只因深信“壽命太長,會折了后人的壽”

      悲催!一92歲奶奶輕生,只因深信“壽命太長,會折了后人的壽”

      火山詩話
      2026-04-19 07:34:33
      中國永遠的校長,死于1962年

      中國永遠的校長,死于1962年

      最愛歷史
      2024-05-20 13:30:17
      美國與伊朗考慮將停火延長兩周

      美國與伊朗考慮將停火延長兩周

      界面新聞
      2026-04-16 00:13:46
      黃楊鈿甜——出來混,是要還的

      黃楊鈿甜——出來混,是要還的

      云石
      2026-04-19 21:45:28
      捷克議長計劃竄臺,捷克總理拒絕國家授權,重申堅持“一中”原則

      捷克議長計劃竄臺,捷克總理拒絕國家授權,重申堅持“一中”原則

      知法而形
      2026-04-20 12:03:13
      4月20日人民幣對美元中間價調貶26個基點

      4月20日人民幣對美元中間價調貶26個基點

      證券時報
      2026-04-20 09:33:02
      西班牙將正式提議歐盟終止與以色列聯系國協議

      西班牙將正式提議歐盟終止與以色列聯系國協議

      新京報
      2026-04-19 20:40:08
      內幕曝光!伊朗通報,談判團差點被“團滅”,全程連電話都不敢打

      內幕曝光!伊朗通報,談判團差點被“團滅”,全程連電話都不敢打

      娛樂小可愛蛙
      2026-04-20 20:19:49
      特朗普:美軍武力攔截并控制一艘伊朗貨船

      特朗普:美軍武力攔截并控制一艘伊朗貨船

      新華社
      2026-04-20 04:31:03
      高市擔心一幕發生,中國迎來強援,5枚導彈齊射,重重砸入日本海

      高市擔心一幕發生,中國迎來強援,5枚導彈齊射,重重砸入日本海

      林子說事
      2026-04-20 18:03:58
      一周多達8次,36歲男子不幸猝死,妻子:多次勸說,他就是不聽

      一周多達8次,36歲男子不幸猝死,妻子:多次勸說,他就是不聽

      荊醫生科普
      2026-04-17 15:36:26
      搞笑,張鎮麟吐槽付豪!

      搞笑,張鎮麟吐槽付豪!

      體育哲人
      2026-04-20 20:14:59
      狂攬238億!浙江小鎮買空德國幾百萬織布機,一塊布拿捏全球車企

      狂攬238億!浙江小鎮買空德國幾百萬織布機,一塊布拿捏全球車企

      毒sir財經
      2026-04-11 22:50:05
      字字扎心!王曉晨發文內涵俞灝明,多年付出全被嫌棄,根本看不上

      字字扎心!王曉晨發文內涵俞灝明,多年付出全被嫌棄,根本看不上

      夢錄的西方史話
      2026-04-20 17:14:17
      55歲上海炒股冠軍罕見發聲:如果本金有20W,建議死磕這五條鐵律

      55歲上海炒股冠軍罕見發聲:如果本金有20W,建議死磕這五條鐵律

      股經縱橫談
      2026-04-19 19:03:09
      采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

      采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

      千秋文化
      2026-04-15 20:18:32
      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      魯中晨報
      2026-04-17 17:00:03
      廣東男子生財路:低價買兇宅,改造后再出售,200套凈賺5000萬

      廣東男子生財路:低價買兇宅,改造后再出售,200套凈賺5000萬

      詭譎怪談
      2025-03-25 16:22:55
      鄭麗文之后,國民黨大佬抵京!她的2個“必然”、狠狠打臉賴清德

      鄭麗文之后,國民黨大佬抵京!她的2個“必然”、狠狠打臉賴清德

      風流女漢
      2026-04-20 19:43:58
      2026-04-20 21:39:00
      柳胖胖 incentive-icons
      柳胖胖
      36氪、虎嗅、鈦媒體專欄作者
      222文章數 387關注度
      往期回顧 全部

      科技要聞

      華為Pura90逆周期定價,4699元起,未漲價

      頭條要聞

      19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

      頭條要聞

      19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

      體育要聞

      阿森納已拼盡全力,但你早干嘛去了...

      娛樂要聞

      《八千里路云和月》田家泰暗殺

      財經要聞

      利潤暴跌7成,字節到底在做什么

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      教育
      本地
      房產
      旅游
      家居

      教育要聞

      定了!西城兩所超級牛校大幅擴招!“五金剛”終于湊齊!

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      房產要聞

      大規模商改住!海口西海岸,這波項目要贏麻了!

      旅游要聞

      京城春日頂流!國家植物園 20 萬株郁金香盛放,藏著最浪漫的四月

      家居要聞

      自然慢調 慢享時光

      無障礙瀏覽 進入關懷版