<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      你是否也曾榨干過(guò)DeepSeek?

      0
      分享至

      在今年深度體驗(yàn)AI大模型的3個(gè)月里,我發(fā)現(xiàn)無(wú)論他回答的對(duì)不對(duì),大多數(shù)時(shí)候,他基本都能在1分鐘內(nèi)能生成回答(很多時(shí)候是秒答),無(wú)論回答質(zhì)量如何,是否有幻覺(jué),他都能很快給你答完就是了。

      但是,有這么一類(lèi)問(wèn)題,他的答案普遍簡(jiǎn)短,有的短到只有一個(gè)單詞,長(zhǎng)的也不超過(guò)10個(gè)單詞,卻常常讓 DeepSeek深度思考五分鐘以上,過(guò)程中動(dòng)不動(dòng)還爆出數(shù)千字以上的思維鏈。

      比如下面這個(gè)問(wèn)題:


      中間的思維鏈就更長(zhǎng)了,接近5000字,我就不全截圖了,你可以想象它在將近5分鐘里,一直在生成思維鏈,全文包含79個(gè)wait:


      還有下面這個(gè)問(wèn)題,花了將近6分鐘


      這兩個(gè)問(wèn)題,別看題目不長(zhǎng),答案也都很短,大模型花了這么久,但是依然做錯(cuò)了。

      這些問(wèn)題,都來(lái)自一個(gè)測(cè)試,就是OpenAI在4月上旬發(fā)布的BrowseCamp,瀏覽競(jìng)賽。

      這個(gè)測(cè)試,主要就測(cè)一個(gè)能力:定位很難尋找的、復(fù)雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

      其實(shí)說(shuō)白了,就是要看看大模型們?yōu)g覽網(wǎng)頁(yè)和搜索信息的能力,到底強(qiáng)到什么地步了?因?yàn)楝F(xiàn)有的測(cè)試比如SimpleQA,其實(shí)已經(jīng)被“刷爆”了。

      但是,基本上沒(méi)太多人討論這個(gè) BrowseCamp,它被淹沒(méi)在4o生圖的火熱和最近的o3模型的發(fā)布之中了。

      瀏覽競(jìng)賽里的問(wèn)題集的最大特點(diǎn),就是答案簡(jiǎn)單,但是,題干一定會(huì)用最虛無(wú)縹緲的特征描述,把簡(jiǎn)單的答案層層包裹起來(lái)。

      比如,答案是一個(gè)歷史名人,但是,題干是這個(gè)人最冷僻、最不為人所知的信息點(diǎn),甚至是有很大誤導(dǎo)性的信息點(diǎn),比如這個(gè)描述同時(shí)也有很多其它人符合或者是很籠統(tǒng)的描述,最終,你會(huì)很難猜這個(gè)人是誰(shuí)。

      比如劉備,大家都知道,如果問(wèn)桃園三結(jié)義里的大哥是誰(shuí),那就太好猜了。

      如果這么問(wèn):某河北籍男子,身高1米88,15歲外出求學(xué),中年創(chuàng)業(yè)多次失敗,兒子很不成器,晚年因?yàn)橐o弟弟報(bào)仇,63歲客死他鄉(xiāng)。

      是不是難了很多?

      當(dāng)然,理論上,還要加入更多的限制性條件,讓答案唯一。

      以上信息,還算是很好找的,所有信息都在一個(gè)百度百科的網(wǎng)頁(yè)里都有了(因?yàn)榫褪俏規(guī)追昼妰?nèi)現(xiàn)編的,如果信息有誤請(qǐng)找百度)。

      但問(wèn)題是,在不知道答案是劉備的前提下,而且題干的信息給得更朦朧更誤導(dǎo)一點(diǎn)的話(huà),大模型往往需要橫跨數(shù)十個(gè)甚至上百個(gè)網(wǎng)頁(yè),才有可能定位到其中某個(gè)信息,然后開(kāi)始驗(yàn)證,排除,再查找,再驗(yàn)證...最后,答錯(cuò)了。

      官方論文里的另一個(gè)例題:請(qǐng)告訴我一篇發(fā)表在 2018 至 2023 年間 EMNLP 會(huì)議上的論文,其第一作者本科畢業(yè)于達(dá)特茅斯學(xué)院(Dartmouth College),第四作者本科畢業(yè)于賓夕法尼亞大學(xué)(University of Pennsylvania)。

      答案:Frequency Effects on Syntactic Rule Learning in Transformers,EMNLP 2021

      這些問(wèn)題在知道答案的時(shí)候,都很容易確認(rèn),就是1分鐘的事情,但是不知道答案的話(huà),模型就得暴力搜索數(shù)千篇論文了。

      這是官方所謂的“驗(yàn)證的不對(duì)稱(chēng)性 asymmetry of verification ”:驗(yàn)證 容易,解答困難。但是,這就恰恰符合了這個(gè)測(cè)試的目標(biāo):大模型的檢索能力。

      雖不完美,卻也有效。它不是考驗(yàn) next token predidtion的能力,畢竟題干和答案都很短,也不太考驗(yàn)推理能力,因?yàn)椴惶枰裁瓷疃妊芯糠治觯ú贿^(guò) 普遍來(lái)說(shuō)推理模型的表現(xiàn)還是會(huì)更好),只要找得到信息,就能回答正確。

      下圖顯示了 BrowseCamp的整體測(cè)試結(jié)果:花的時(shí)間越久,正確率越高,這也是之前DeepSeek會(huì)花那么久的原因之一,但是,正確率最高的模型,也就50%左右,而且嚴(yán)格來(lái)說(shuō),它還不算一個(gè)模型,而是agent


      瀏覽競(jìng)賽里的問(wèn)題,實(shí)在也不好編,官方說(shuō),現(xiàn)在攏共只有1266個(gè)問(wèn)題。官網(wǎng)放出了5道例題,我分別讓DeepSeek V3、R1不開(kāi)聯(lián)網(wǎng)、R1開(kāi)聯(lián)網(wǎng),分別測(cè)試了5個(gè)問(wèn)題,每次都新開(kāi)對(duì)話(huà)窗口,一共15次測(cè)試,全軍覆沒(méi)。(注意,這并非是說(shuō) DeepSeek一道都做不對(duì),而是正確率大概率很低)

      而且,在沒(méi)有聯(lián)網(wǎng)的情況下,出現(xiàn)了前述 的超長(zhǎng)回答時(shí)間的問(wèn)題,理論上,這種自我榨干的情況不該出現(xiàn),它應(yīng)該早一點(diǎn)發(fā)現(xiàn)自己其實(shí)根本無(wú)法作答,然后再給出一個(gè)它認(rèn)為最有可能正確的猜測(cè)即可(注:R1的表現(xiàn)比V3好)。

      那么,到底什么模型表現(xiàn)最好呢?很遺憾,OpenAI還只測(cè)試了自家的模型,暫時(shí)沒(méi)啥橫向可比性,雖然我認(rèn)為瀏覽網(wǎng)頁(yè)和尋找信息的能力,肯定是agent們包含的各種 tool use能力里最重要的一個(gè)。


      新上線(xiàn)的o3,不提它在視覺(jué)理解方面的能力,就因?yàn)橄啾萶1有了browsing功能(當(dāng)然還有更強(qiáng)的推理能力),正確率提高了很多。(o1在沒(méi)有聯(lián)網(wǎng)功能的情況下,僅靠?jī)?nèi)部知識(shí)庫(kù),答對(duì)了其中10%的問(wèn)題)


      我的三個(gè)小心得:

      1、無(wú)論現(xiàn)有大模型在browsing方面表現(xiàn)如何,它們都在飛快進(jìn)步和提升;

      2、一旦遇到這種要查很多資料的任務(wù),先讓大模型做一遍, 做對(duì)最好,沒(méi)做對(duì)也沒(méi)關(guān)系,它的搜索過(guò)程和給出的回答,還是能給你節(jié)約不少時(shí)間;

      3、不要只問(wèn)一次,在看了它第一遍的回答后,自己找找資料,思考思考,再繼續(xù)給更多提示詞,問(wèn)第二次,第三次,榨干它,很快,你也會(huì)接近答錯(cuò)了

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      太陽(yáng)報(bào):帕爾默想在豪宅院子里建造家庭健身房,遭到鄰居反對(duì)

      太陽(yáng)報(bào):帕爾默想在豪宅院子里建造家庭健身房,遭到鄰居反對(duì)

      懂球帝
      2026-02-01 08:38:45
      隨著利物浦4-1,切爾西3-2,阿森納4-0,英超最新積分榜出爐

      隨著利物浦4-1,切爾西3-2,阿森納4-0,英超最新積分榜出爐

      側(cè)身凌空斬
      2026-02-01 06:15:06
      大媽在女兒家養(yǎng)老,退休金5000月月花光,女婿怒懟:你太過(guò)分了吧

      大媽在女兒家養(yǎng)老,退休金5000月月花光,女婿怒懟:你太過(guò)分了吧

      熱心柚子姐姐
      2026-01-19 13:13:41
      移動(dòng)、聯(lián)通、電信:增值稅率升至9%,將影響收入利潤(rùn)

      移動(dòng)、聯(lián)通、電信:增值稅率升至9%,將影響收入利潤(rùn)

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2026-02-01 17:41:34
      中日開(kāi)戰(zhàn)可能性增大,但收?qǐng)鎏y,若真動(dòng)手,中方估計(jì)半步都不退

      中日開(kāi)戰(zhàn)可能性增大,但收?qǐng)鎏y,若真動(dòng)手,中方估計(jì)半步都不退

      百態(tài)人間
      2026-01-03 16:42:15
      宜家最“偷懶”的廣告,卻高級(jí)得離譜

      宜家最“偷懶”的廣告,卻高級(jí)得離譜

      設(shè)計(jì)癖
      2026-01-27 11:46:53
      女子剛買(mǎi)新能源車(chē),70公里充了3次電,4S店:沒(méi)問(wèn)題,就電沒(méi)充滿(mǎn)

      女子剛買(mǎi)新能源車(chē),70公里充了3次電,4S店:沒(méi)問(wèn)題,就電沒(méi)充滿(mǎn)

      奇思妙想草葉君
      2026-01-30 23:41:29
      科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

      科學(xué)家讓一對(duì)情侶在核磁共振里實(shí)戰(zhàn),才發(fā)現(xiàn)人體驚人真相!

      徐德文科學(xué)頻道
      2026-01-06 19:51:55
      震驚!大數(shù)據(jù)讓貪官無(wú)處藏身,公職人員下班后行為曝光!

      震驚!大數(shù)據(jù)讓貪官無(wú)處藏身,公職人員下班后行為曝光!

      特約前排觀眾
      2026-01-15 00:20:03
      毛主席去世后,華國(guó)鋒除了依靠葉帥外,還有幾個(gè)大員是他信任的

      毛主席去世后,華國(guó)鋒除了依靠葉帥外,還有幾個(gè)大員是他信任的

      大運(yùn)河時(shí)空
      2026-01-23 13:35:03
      長(zhǎng)得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過(guò)得怎樣

      長(zhǎng)得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過(guò)得怎樣

      銀河史記
      2026-01-23 15:36:04
      40人代表團(tuán)赴京,賴(lài)清德瘋狂阻撓!鄭麗文硬剛:大陸是我們的親人

      40人代表團(tuán)赴京,賴(lài)清德瘋狂阻撓!鄭麗文硬剛:大陸是我們的親人

      諾諾談史
      2026-01-31 16:56:06
      女人染上“性癮”是一種怎樣的體驗(yàn)?可能和你想象得不同

      女人染上“性癮”是一種怎樣的體驗(yàn)?可能和你想象得不同

      紙上的心語(yǔ)
      2025-11-23 11:36:00
      不打不行!沙特防長(zhǎng)私下說(shuō)出阿拉伯國(guó)家真實(shí)心聲,和以色列差不多

      不打不行!沙特防長(zhǎng)私下說(shuō)出阿拉伯國(guó)家真實(shí)心聲,和以色列差不多

      策前論
      2026-02-01 12:47:43
      認(rèn)知顛覆,美國(guó)移民被合法吃絕戶(hù),十年時(shí)間,全美移民資產(chǎn)跌9成

      認(rèn)知顛覆,美國(guó)移民被合法吃絕戶(hù),十年時(shí)間,全美移民資產(chǎn)跌9成

      孤單是寂寞的毒
      2026-01-30 20:19:03
      國(guó)產(chǎn)版“薩莉亞”擠滿(mǎn)年輕人,排隊(duì)兩小時(shí),僅靠70平就月銷(xiāo)百萬(wàn)!

      國(guó)產(chǎn)版“薩莉亞”擠滿(mǎn)年輕人,排隊(duì)兩小時(shí),僅靠70平就月銷(xiāo)百萬(wàn)!

      財(cái)經(jīng)八卦
      2026-02-01 19:56:07
      四川綿陽(yáng)一佳人太漂亮,身高177cm體重54kg五官精致到無(wú)懈可擊!

      四川綿陽(yáng)一佳人太漂亮,身高177cm體重54kg五官精致到無(wú)懈可擊!

      TVB的四小花
      2026-01-27 11:03:50
      英超最新積分戰(zhàn)報(bào):曼聯(lián)奇跡絕殺,維拉爆冷,曼城2-2熱刺

      英超最新積分戰(zhàn)報(bào):曼聯(lián)奇跡絕殺,維拉爆冷,曼城2-2熱刺

      足球狗說(shuō)
      2026-02-02 02:30:49
      如意算盤(pán)落空!以為能“毀掉”對(duì)樊振東,豈料自己的“丑聞”被扒

      如意算盤(pán)落空!以為能“毀掉”對(duì)樊振東,豈料自己的“丑聞”被扒

      小熊侃史
      2026-02-01 07:20:10
      NBA傳聞:字母哥與雄鹿隊(duì)最新交易傳聞凸顯雙方意愿分歧

      NBA傳聞:字母哥與雄鹿隊(duì)最新交易傳聞凸顯雙方意愿分歧

      好火子
      2026-02-01 23:49:29
      2026-02-02 03:51:00
      柳胖胖 incentive-icons
      柳胖胖
      36氪、虎嗅、鈦媒體專(zhuān)欄作者
      208文章數(shù) 386關(guān)注度
      往期回顧 全部

      科技要聞

      10億元寶紅包突襲 復(fù)刻微信支付還是微視?

      頭條要聞

      愛(ài)潑斯坦追逐女孩、安德魯跪爬女子身上畫(huà)面全公布

      頭條要聞

      愛(ài)潑斯坦追逐女孩、安德魯跪爬女子身上畫(huà)面全公布

      體育要聞

      德約大度祝賀阿卡 幽默互動(dòng)逗笑納達(dá)爾

      娛樂(lè)要聞

      春晚第三次聯(lián)排陣容曝光:全是實(shí)力派

      財(cái)經(jīng)要聞

      黃仁勛臺(tái)北"夜宴":匯聚近40位臺(tái)企高管

      汽車(chē)要聞

      嵐圖汽車(chē)1月交付10515輛 同比增長(zhǎng)31%

      態(tài)度原創(chuàng)

      教育
      時(shí)尚
      房產(chǎn)
      家居
      游戲

      教育要聞

      鼓樓、玄武、建鄴、秦淮多區(qū)教育局發(fā)布提醒!

      “多巴胺風(fēng)”又又又火了!這樣穿時(shí)髦又減齡

      房產(chǎn)要聞

      藏不住的小城大事,海澄新城執(zhí)掌自貿(mào)港風(fēng)口,進(jìn)階兌現(xiàn)美好生活新篇

      家居要聞

      藍(lán)調(diào)空舍 自由與個(gè)性

      末期癌癥玩家圓夢(mèng)《毀滅戰(zhàn)士》!id公開(kāi)致敬

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版