<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      誰來給桌面 Agent 的轉(zhuǎn)正簽字?

      0
      分享至


      文:王智遠(yuǎn) | ID:Z201440

      MiniMax 上線了一款桌面 Agent。

      它的官網(wǎng)介紹里稱這是你的智能伙伴,還能幫忙整理資料,我索性下載體驗(yàn)了一番,官網(wǎng)地址是:https://agent.minimaxi.com。

      說實(shí)話,電腦里的各類內(nèi)容確實(shí)不少,我也一直覺得需要這么一個(gè)工具來打理。

      01

      安裝完成后我反倒愣了一下,一時(shí),竟想不出該讓它幫我做點(diǎn)什么。翻了翻它的功能,看到有「文件整理」這一項(xiàng),突然想起前段時(shí)間我有 46 張發(fā)票要處理。

      這些發(fā)票下載保存時(shí)混了幾張重復(fù)的,自己手動(dòng)找太麻煩,上回還是靠千問 AI 才搞定,其他 AI 產(chǎn)品試了都沒成;所以,這次我想試試,讓這個(gè)桌面 Agent 來處理能不能行。

      但打開功能后發(fā)現(xiàn),它一次只能上傳 10 個(gè)文件,這一點(diǎn)就不太友好了;不過也沒關(guān)系,大不了就分批次上傳,46 張發(fā)票最多也就分四五次而已。

      我先傳了第一批 10 張,跟它說:

      你看看這里面有沒有金額和標(biāo)題重復(fù)的發(fā)票,忽略發(fā)票文件本身的命名。指令發(fā)出后它就開始運(yùn)行了,界面右側(cè)有個(gè)類似虛擬機(jī)的窗口,能清晰看到它的思考過程,還會(huì)調(diào)用各類工具。

      結(jié)果一批先是讀取失敗,提示我需要授予它讀取權(quán)限。

      我按要求操作后,它又提示這些文件在 iCloud 云端,讓我先復(fù)制到本地,還在本地給我新建了一個(gè)根目錄;說實(shí)話這一步有點(diǎn)脫褲子放屁了,因?yàn)檫@些發(fā)票文件本來就在我的桌面上。

      不過沒想到,第一批它還真的核查完了,反饋說沒有重復(fù)的;事實(shí)也確實(shí)如此,這 10 張發(fā)票里確實(shí)沒有重復(fù)的。



      它的操作思路很清晰,先匯總所有發(fā)票的金額,再逐一對(duì)比標(biāo)題,中間過程中看似發(fā)現(xiàn)了一張疑似重復(fù)的,最后,核對(duì)數(shù)字后確認(rèn)并無重復(fù),給出的分析結(jié)果很明了。

      接著我傳了第二批 10 張,讓它繼續(xù)篩選,結(jié)果還是沒有重復(fù)的,只是提示有兩張發(fā)票的金額比較接近,無需刪減任何文件。



      再到第三批,依舊沒有找到重復(fù)的,它還貼心地發(fā)來恭喜的提示。

      但這聲恭喜反倒讓我不太開心,因?yàn)槲颐鞔_知道這些發(fā)票里是有重復(fù)的,只能說明它還沒查到而已,好在還有兩批沒傳,繼續(xù)測(cè)試。

      第四批運(yùn)行的過程中出了點(diǎn)小狀況,有兩張發(fā)票的信息提取失敗,還提示需要安裝相關(guān)模塊,來來回回嘗試了好幾遍,屬實(shí)是一頓操作猛如虎。

      不過,好在第四批的結(jié)果很驚喜,它居然一下子找出了兩張重復(fù)的發(fā)票。



      堅(jiān)持住,只剩最后一批 6 張了,果不其然,這一批里沒有發(fā)現(xiàn)重復(fù)的。

      不過測(cè)試到這里,我發(fā)現(xiàn)自己的測(cè)試方式有問題:我把 46 張發(fā)票分成了 5 組,每組單獨(dú)上傳核查,根本沒法確定組與組之間有沒有交叉重復(fù)的發(fā)票,這可怎么辦?

      既然核心任務(wù)是發(fā)票抬頭和金額的查重,那我索性在聊天框里,順著上下文的邏輯問它:把這五次任務(wù)的發(fā)票放在一起,看看一共有多少?gòu)垼僬w核查下有沒有跨組重復(fù)的。

      其實(shí)我明明知道總數(shù)是 46 張。

      之所以這么問,就是想驗(yàn)證一下,它對(duì)整體數(shù)字有沒有清晰的概念。它的回復(fù)還挺有意思,說:好的,讓我們進(jìn)行最終的全面檢查,看看有沒有跨波重復(fù)的。

      我當(dāng)時(shí)還心想,這下要翻車了吧?

      結(jié)果沒想到,真沒有,交叉驗(yàn)證的過程中,它又找出了一張重復(fù)的發(fā)票;而實(shí)際情況里,這批發(fā)票本就有兩張重復(fù)的,這下算是徹底查準(zhǔn)了。



      整體來看,這個(gè)查重任務(wù)好歹是完成了,但每次只能上傳 10 張文件的限制,用起來實(shí)在太繁瑣了。

      畢竟如果只是分批處理 10 張的話,其他 AI Agent 也能做到,作為一款桌面端的 Agent,我覺得,它本應(yīng)該能處理更多文件,比如 50 個(gè)起步,這樣才能凸顯出它的核心能力,你說是不是?

      其實(shí)我一直琢磨,現(xiàn)在的 AI Agent 不管宣傳得多無所不能,可一到傳文件這種「體力活」,就集體變得摳摳搜搜,非要設(shè) 10 張、20 張的上傳限額,這到底是為什么?

      說白了,這背后藏著一個(gè) AI 行業(yè)的「潛規(guī)則」:大腦帶寬與計(jì)算成本的博弈。

      現(xiàn)在各家都在卷「長(zhǎng)文本」(Long Context),動(dòng)輒號(hào)稱能裝下好幾本《紅樓夢(mèng)》的內(nèi)容,但「讀」和「做」從來都是兩碼事。

      讓它單純讀 46 張發(fā)票,它或許能瞬間讀完;可讓它做「查重」,這考它的瞬時(shí)工作記憶了。每多一張發(fā)票,AI 都要在算力中把這張票的金額、抬頭,和之前所有發(fā)票做兩兩比對(duì),這種計(jì)算量是呈指數(shù)級(jí)增長(zhǎng)的。

      要是一次性丟給它 50 張、100 張,它的「注意力」就會(huì)開始渙散,甚至出現(xiàn)嚴(yán)重的幻覺;對(duì)廠商而言,把上傳量限制在 10 張、20 張,是給自己買了一份「保險(xiǎn)」。

      他們寧愿讓用戶多花點(diǎn)功夫點(diǎn)幾次鼠標(biāo)分批上傳,也不敢冒著讓 Agent「邏輯崩盤」的風(fēng)險(xiǎn)強(qiáng)行處理大批次文件;可這就特別尷尬了:

      作為用戶,我們想要能獨(dú)當(dāng)一面的「數(shù)字員工」,要桌面 Agent 連這種低智的重復(fù)勞動(dòng),都做不到在后臺(tái)靜默、全量地完成,那它和網(wǎng)頁端的 AI 對(duì)話框,又有什么本質(zhì)區(qū)別?

      它離我們想象中「接管電腦、解放雙手」的終極形態(tài),還差著離線索引和增量記憶這兩個(gè)關(guān)鍵的技術(shù)坎;只是這樣的技術(shù)突破,也需要一點(diǎn)時(shí)間。

      02

      測(cè)試完查重,我還不甘心,想再試試其他任務(wù);畢竟它是桌面端的工具,在我理解里,桌面端操作的優(yōu)勢(shì),應(yīng)該是能跨網(wǎng)頁、跨平臺(tái)執(zhí)行任務(wù)。

      所以我又問它:

      你能不能幫我看看,小紅書上今天關(guān)于 AI 最熱的話題是什么,點(diǎn)贊量最高的相關(guān)內(nèi)容是哪一篇?我覺得這個(gè)任務(wù),對(duì)它來說應(yīng)該有點(diǎn)挑戰(zhàn)。

      指令發(fā)出后它就開始運(yùn)行了,界面顯示「AI 正在接管你的瀏覽器」,我當(dāng)時(shí)還打趣,毀滅吧,要是能直接把整個(gè)電腦都接管了就好了,我啥活都不用干,全交給它。

      但它接管瀏覽器的操作過程,我在界面上是看不到的,只能看到它的思考過程和當(dāng)前的運(yùn)行進(jìn)程。

      能確認(rèn)的是,它確實(shí)嘗試打開了小紅書,過程中,還彈出了登錄的推送指令,看來這個(gè)任務(wù),需要登錄小紅書賬號(hào)才行,不過,我起初還覺得登不登錄好像也沒太大影響。



      我按要求完成登錄后,它又彈出提示,說好像,看到我的瀏覽器界面有東西遮擋,這一步的操作體驗(yàn)就有點(diǎn)不絲滑了。

      好不容易登錄成功,它終于開始搜索了,自動(dòng)打開了 Google 瀏覽器,從小紅書的搜索框里輸入「AI」進(jìn)行檢索,結(jié)果搜完沒多久,就直接把瀏覽器關(guān)掉了。

      整個(gè)瀏覽器打開、滑動(dòng)、檢索的過程,大概也就 15 秒鐘,來來回回嘗試了好幾遍,我都數(shù)不清次數(shù)了,實(shí)在沒耐心,只能放棄。

      再這么反復(fù)登錄,小紅書說不定還以為我在搞什么違規(guī)操作,把我的賬號(hào)限制了就麻煩了;看來 AI 在執(zhí)行這類跨平臺(tái)的網(wǎng)頁檢索任務(wù)時(shí),還是有不小的難度。

      當(dāng)時(shí)我就在琢磨,為什么所謂的「接管」會(huì)搞得這么不絲滑?我研究了一下發(fā)現(xiàn),這背后藏著兩個(gè)目前 AI Agent 還沒跨過去的硬坎。

      第一個(gè),是「獨(dú)立沙箱」帶來的身份孤島。

      很多人以為 Agent 接管瀏覽器,是直接鉆進(jìn)你常用的 Chrome 里。其實(shí)不然,為了安全,它通常啟動(dòng)一個(gè)完全純凈的「虛擬瀏覽器」。

      這就好比,你家雖然有現(xiàn)成的飯菜,它非要自己背鍋、生火、重新造一個(gè)廚房;因?yàn)樗鼪]有你平常留下的 Cookie(身份令牌),對(duì)小紅書這些平臺(tái)來說,它是一個(gè)「查無此人」的新設(shè)備,自然得讓你一遍遍掃碼驗(yàn)證。

      第二,是「視覺解析」的軟肋。

      為什么它老說「有遮擋」?因?yàn)楝F(xiàn)在的桌面 Agent 并不是真的讀懂了代碼,它更像一個(gè)視力不太好的巡邏員,是通過屏幕截圖來分析界面的。

      只要你電腦彈個(gè)窗,或者網(wǎng)頁懸浮窗擋住了它的「視線」,它的坐標(biāo)定位就會(huì)失靈;加上大廠嚴(yán)密的「反爬風(fēng)控」,AI 那種快到離譜的操作在后臺(tái)看來就是「機(jī)器人攻擊」,不卡你才怪。

      如果不解決身份常駐和底層 API 調(diào)取的問題,這種所謂的瀏覽器接管,就只能在崩潰的邊緣反復(fù)橫跳。沒辦法,此前用Manus跑時(shí)也遇到過。

      03

      我們?cè)贀Q其他任務(wù)試試。盯著電腦里的各種文件夾看了半天,突然發(fā)現(xiàn),有個(gè)文件夾里存著兩首音樂。

      這是我平時(shí)錄視頻號(hào)常用的背景音樂,我索性把這兩首音樂傳給它,問:「你聽聽這兩首音樂講了什么,它們是用來干嘛的?」

      結(jié)果還挺逗,它還真的試著去分析這兩首音樂的用途了。



      一開始給出的答案完全不對(duì),說第一首是科技商業(yè)評(píng)論里分析馬斯克如何用特斯拉硬件終端的音頻,第二首是英語聽力考試的開場(chǎng)音頻。

      這就有點(diǎn)說不過去了,兩首都是我視頻號(hào)背景音樂而已。

      我又讓它重新聽了一遍,這次給出的答案,才稍微準(zhǔn)確了點(diǎn)。為什么 AI 會(huì)一本正經(jīng)地胡說八道?

      我查了下,這其實(shí)觸及了當(dāng)前 AI 的一個(gè)技術(shù)悖論:AI 已經(jīng)具備了「生成」全模態(tài)的能力,但還沒進(jìn)化出「感知與理解」全模態(tài)的類人類感知能力。

      現(xiàn)在的生成式多模態(tài) Agent 可以輕而易舉地給你寫一首曲子,或者生成一段大片質(zhì)感的視頻,但這屬于「黑盒輸出」。

      當(dāng)反過來,讓它作為一個(gè)觀察者去理解一段純音頻時(shí),它的底層邏輯依然是「語義化」的。

      換句話說,它的耳朵為文字長(zhǎng)的,它解析音頻的過程,在做一次極其生硬的「模態(tài)轉(zhuǎn)譯」,要強(qiáng)行把音符、節(jié)奏、氛圍,拆解成它能理解的標(biāo)簽和邏輯。

      現(xiàn)在的技術(shù)里,它能扒出音頻的底層數(shù)字信號(hào),卻壓根讀不懂旋律里的情緒;要是它沒法把「冷峻的電子音」和「科技感、未來感」從感覺上直接掛鉤,那永遠(yuǎn)也搞不懂啥叫適配場(chǎng)景。

      這種感官與邏輯的斷層,是目前 Agent 想要真正接管多媒體創(chuàng)作,必須要跨過去的一座大山。也可以理解。

      折騰到這兒,已經(jīng)累得夠嗆。它還有很多能力可以試試。

      現(xiàn)在桌面agent,就像一個(gè)由各個(gè)零件「拼湊」起來的巨人:用大模型做大腦,用瀏覽器插件做手腳,用 ASR(語音識(shí)別)做耳朵。

      既然是拼湊的,各部分之間有銜接縫隙也正常,但這趨勢(shì)肯定擋不住,因?yàn)閲?guó)外早就卷瘋了啊。

      你瞅瞅國(guó)外那三座大山,怎么玩的就知道了:

      Anthropic的Computer Use,直接讓Claude長(zhǎng)出「眼睛和手」。它就跟人似的盯著屏幕看像素,還能直接模擬鼠標(biāo)點(diǎn)擊。

      雖說現(xiàn)在還老手抖,甚至你一改桌面壁紙它就找不著北,但底層邏輯是真夠震撼的:它在試著用純視覺方案,像人一樣看懂所有界面。

      Google的Project Jarvis思路更絕,直接把Agent做成瀏覽器的靈魂。它本身就是瀏覽器。

      這就意味著能繞開所有登錄驗(yàn)證、驗(yàn)證碼、界面遮擋的麻煩,實(shí)現(xiàn)真正的原生自動(dòng)化。說白了,它是想把瀏覽器從單純的展示窗口,改成能實(shí)打?qū)嵏苫畹膱?zhí)行終端。

      OpenAI的Operator就不多嘮了,主打系統(tǒng)接管這塊,目標(biāo)是變成用戶的操作系統(tǒng),要實(shí)現(xiàn)從想法到執(zhí)行的零損耗,你不用傳文件、開網(wǎng)頁,它就像電腦自帶的神經(jīng)系統(tǒng),直接調(diào)用底層指令就行。

      所以為啥大家都扎堆做端到端?

      因?yàn)橹挥卸说蕉耍拍芙鉀Q脫褲子放屁似的割裂感。等Agent真能從模擬人類操作,進(jìn)化到原生理解系統(tǒng),才算從實(shí)習(xí)生熬成了正式工。到那時(shí),AI才能真正成為咱們的超級(jí)管家、超級(jí)助理。

      這是一個(gè)在國(guó)內(nèi)有潛力、還沒有完全被開發(fā)出來的底層技能。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

      46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

      橙星文娛
      2026-03-26 13:40:27
      耗時(shí)八年終握手,歐盟與澳大利亞決心已下,要將中美劃到同一陣營(yíng)

      耗時(shí)八年終握手,歐盟與澳大利亞決心已下,要將中美劃到同一陣營(yíng)

      策略述
      2026-03-26 16:35:30
      兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

      兄弟倆聯(lián)手創(chuàng)辦蘇寧,如今弟弟千億資產(chǎn)清零,哥哥卻走上另一條路

      鯨探所長(zhǎng)
      2026-03-24 14:38:04
      不可錯(cuò)過!3月27日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

      不可錯(cuò)過!3月27日晚上19:30比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-03-27 11:53:55
      禁止所有中國(guó)外交官入境,不讓兩岸統(tǒng)一,這個(gè)國(guó)家比美國(guó)還要囂張

      禁止所有中國(guó)外交官入境,不讓兩岸統(tǒng)一,這個(gè)國(guó)家比美國(guó)還要囂張

      羽逸地之光
      2026-03-19 14:02:05
      這是目前為止,我見過腰最細(xì)的女生,沒有之一

      這是目前為止,我見過腰最細(xì)的女生,沒有之一

      草莓解說體育
      2026-03-03 19:15:05
      黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開戰(zhàn),是其畢生最大的失策

      黎筍之子黎堅(jiān)誠(chéng)坦言:父親選擇同中國(guó)開戰(zhàn),是其畢生最大的失策

      磊子講史
      2025-12-24 11:04:05
      新帥邵佳一首秀,國(guó)足2比0戰(zhàn)勝世界杯新軍庫(kù)拉索隊(duì)

      新帥邵佳一首秀,國(guó)足2比0戰(zhàn)勝世界杯新軍庫(kù)拉索隊(duì)

      澎湃新聞
      2026-03-27 15:52:32
      張雪峰去世媒體人發(fā)文:我問過了,他還在,網(wǎng)友:最后一課很沉重

      張雪峰去世媒體人發(fā)文:我問過了,他還在,網(wǎng)友:最后一課很沉重

      蜜桔娛樂
      2026-03-25 10:20:48
      A股:周五,突然上漲,傳遞了兩個(gè)信號(hào)!行情尾聲將至?

      A股:周五,突然上漲,傳遞了兩個(gè)信號(hào)!行情尾聲將至?

      明心
      2026-03-27 11:55:43
      FIFA官方:2026年世界杯全球贊助商已招滿

      FIFA官方:2026年世界杯全球贊助商已招滿

      懂球帝
      2026-03-27 06:44:05
      美國(guó)也沒想到,轉(zhuǎn)為中國(guó)籍僅6年,谷愛凌竟已成美國(guó)頭號(hào)勁敵

      美國(guó)也沒想到,轉(zhuǎn)為中國(guó)籍僅6年,谷愛凌竟已成美國(guó)頭號(hào)勁敵

      削桐作琴
      2026-02-25 18:15:14
      遲遲等不到中企復(fù)工,巴拿馬強(qiáng)援出山!已正式介入?中方要警惕

      遲遲等不到中企復(fù)工,巴拿馬強(qiáng)援出山!已正式介入?中方要警惕

      青煙小先生
      2026-03-27 09:51:18
      證監(jiān)會(huì)首席律師程合紅:開展新一輪公司治理專項(xiàng)行動(dòng) 加強(qiáng)對(duì)減持、程序化交易等市場(chǎng)交易活動(dòng)的監(jiān)督管理

      證監(jiān)會(huì)首席律師程合紅:開展新一輪公司治理專項(xiàng)行動(dòng) 加強(qiáng)對(duì)減持、程序化交易等市場(chǎng)交易活動(dòng)的監(jiān)督管理

      財(cái)聯(lián)社
      2026-03-27 10:48:05
      英媒:歐美要死死守住這5項(xiàng)技術(shù),一旦被中國(guó)突破那將勢(shì)不可擋

      英媒:歐美要死死守住這5項(xiàng)技術(shù),一旦被中國(guó)突破那將勢(shì)不可擋

      史行途
      2026-03-18 06:02:09
      張雪峰的兩大遺憾:花50萬沒救回父親,女兒失去國(guó)家專項(xiàng)計(jì)劃資格

      張雪峰的兩大遺憾:花50萬沒救回父親,女兒失去國(guó)家專項(xiàng)計(jì)劃資格

      林子說事
      2026-03-27 08:26:42
      正式退出,林詩棟發(fā)聲,官宣決定,原因曝光,王勵(lì)勤難辭其咎

      正式退出,林詩棟發(fā)聲,官宣決定,原因曝光,王勵(lì)勤難辭其咎

      懂球社
      2026-03-26 14:25:39
      女子和男領(lǐng)導(dǎo)搞曖昧,尺度沒把握好被強(qiáng)行占有,結(jié)果害人又害己

      女子和男領(lǐng)導(dǎo)搞曖昧,尺度沒把握好被強(qiáng)行占有,結(jié)果害人又害己

      漢史趣聞
      2026-03-26 14:15:30
      再次勸你:要在大城市留一套房,不止是升值,這三點(diǎn)更重要

      再次勸你:要在大城市留一套房,不止是升值,這三點(diǎn)更重要

      專業(yè)聊房君
      2026-03-25 19:03:46
      過分!一大V諷刺張雪峰:稱少一個(gè)鼓吹戰(zhàn)爭(zhēng)的瘋子,對(duì)世界更美好

      過分!一大V諷刺張雪峰:稱少一個(gè)鼓吹戰(zhàn)爭(zhēng)的瘋子,對(duì)世界更美好

      談史論天地
      2026-03-26 07:56:52
      2026-03-27 16:07:00
      智遠(yuǎn)同學(xué) incentive-icons
      智遠(yuǎn)同學(xué)
      暢銷書《復(fù)利思維》作者;精神生活與商業(yè)探索,關(guān)注科技人文、消費(fèi)電商、品牌營(yíng)銷、商業(yè)認(rèn)知思維等方面。
      657文章數(shù) 142關(guān)注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價(jià)

      頭條要聞

      空房倆月用水2000噸 水務(wù)公司:馬桶漏水 水表計(jì)量有效

      頭條要聞

      空房倆月用水2000噸 水務(wù)公司:馬桶漏水 水表計(jì)量有效

      體育要聞

      邵佳一:足球就像一場(chǎng)馬拉松

      娛樂要聞

      張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

      財(cái)經(jīng)要聞

      我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

      汽車要聞

      與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

      態(tài)度原創(chuàng)

      數(shù)碼
      家居
      游戲
      公開課
      軍事航空

      數(shù)碼要聞

      小米推出REDMI電視MAX 2026款:85英寸4599元、100英寸8499元

      家居要聞

      曲線華爾茲 現(xiàn)代簡(jiǎn)約

      Xbox發(fā)布會(huì)新游細(xì)節(jié)曝光:有戀愛玩法 包含成人要素!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:已組織超100萬人為地面戰(zhàn)斗做準(zhǔn)備

      無障礙瀏覽 進(jìn)入關(guān)懷版