![]()
這項(xiàng)由中山大學(xué)iSEE實(shí)驗(yàn)室牽頭的創(chuàng)新研究于2026年2月5日發(fā)表,論文編號為arXiv:2602.04454v1,為計(jì)算機(jī)視覺領(lǐng)域帶來了一個(gè)令人興奮的突破。有興趣深入了解的讀者可以通過該編號查詢完整論文。
在我們?nèi)粘I钪校?dāng)朋友發(fā)來一段視頻問"幫我找找那個(gè)獲得最佳新人獎的歌手在哪里"時(shí),我們?nèi)祟悤趺醋觯渴紫葧伎歼@個(gè)獎項(xiàng)的相關(guān)信息,可能會上網(wǎng)搜索一下最近的頒獎典禮結(jié)果,然后再回到視頻中尋找符合特征的人物。但對于現(xiàn)在的人工智能來說,這樣的任務(wù)卻是個(gè)巨大挑戰(zhàn)。它們要么完全不知道這些最新信息,要么雖然能搜索但不會靈活運(yùn)用搜索結(jié)果。
中山大學(xué)的研究團(tuán)隊(duì)就像給AI裝上了一雙會思考的眼睛和一個(gè)善于推理的大腦。他們開發(fā)的Seg-ReSearch系統(tǒng),可以像一個(gè)經(jīng)驗(yàn)豐富的偵探一樣,在面對復(fù)雜線索時(shí)能夠主動出擊,通過網(wǎng)絡(luò)搜索獲取最新信息,然后結(jié)合視覺線索進(jìn)行推理,最終精確鎖定目標(biāo)。
研究團(tuán)隊(duì)還特別構(gòu)建了一個(gè)名為OK-VOS的測試平臺,專門考驗(yàn)AI處理那些需要外部知識才能解決的視覺任務(wù)。就好比設(shè)計(jì)了一系列只有掌握最新資訊才能破解的謎題。實(shí)驗(yàn)結(jié)果顯示,這套系統(tǒng)在處理需要外部知識的視覺任務(wù)時(shí),性能比現(xiàn)有最先進(jìn)方法提升了超過10個(gè)百分點(diǎn),在傳統(tǒng)推理任務(wù)上也創(chuàng)造了新的記錄。
一、現(xiàn)實(shí)挑戰(zhàn):當(dāng)AI遇到"不知道的不知道"
考慮這樣一個(gè)場景:你收到朋友發(fā)來的演唱會視頻,她問你能不能幫忙找到"那個(gè)剛剛贏得歐洲金球獎的球員的女朋友"。作為人類,你可能會先搜索最新的歐洲金球獎獲獎?wù)呤钦l,然后查找這位球員的個(gè)人信息,最后在視頻中尋找相應(yīng)的人物。這個(gè)過程涉及信息檢索、邏輯推理和視覺識別的完美結(jié)合。
然而,現(xiàn)在的AI視覺系統(tǒng)就像一個(gè)知識被凍結(jié)在某個(gè)時(shí)間點(diǎn)的圖書管理員。無論是早期的LISA系統(tǒng),還是最新的VideoSeg-R1,它們雖然具備了一定的推理能力,但知識庫就像一本永遠(yuǎn)不會更新的百科全書。當(dāng)面對涉及最新信息或小眾知識的問題時(shí),這些系統(tǒng)只能"望洋興嘆"。
更加棘手的是,即使給這些系統(tǒng)配備了搜索工具,它們也不知道如何有效使用。就像給一個(gè)從未學(xué)會提問的學(xué)生一部電話,他可能會撥通號碼,但不知道該問什么問題,或者如何將得到的答案與眼前的任務(wù)聯(lián)系起來。現(xiàn)有的一些嘗試要么過于依賴最終結(jié)果的對錯來學(xué)習(xí),導(dǎo)致學(xué)習(xí)信號過于稀疏,要么機(jī)械地模仿專家的每一步操作,缺乏靈活性和創(chuàng)造性。
研究團(tuán)隊(duì)敏銳地意識到,真正智能的視覺理解不應(yīng)該被靜態(tài)知識所束縛。在這個(gè)信息瞬息萬變的時(shí)代,一個(gè)真正有用的AI助手需要具備主動學(xué)習(xí)、實(shí)時(shí)更新知識并靈活運(yùn)用的能力。這就像培養(yǎng)一個(gè)既有敏銳觀察力又有強(qiáng)大學(xué)習(xí)能力的偵探,能夠面對任何新情況都能找到突破口。
二、巧妙設(shè)計(jì):像教偵探一樣訓(xùn)練AI
中山大學(xué)的研究團(tuán)隊(duì)采用了一種非常巧妙的訓(xùn)練方法,就像培養(yǎng)一名優(yōu)秀偵探一樣循序漸進(jìn)。他們沒有簡單粗暴地告訴AI"對了就獎勵,錯了就懲罰",也沒有死板地要求AI完全模仿專家的每一個(gè)動作,而是設(shè)計(jì)了一套分層次的獎勵機(jī)制。
這套機(jī)制的第一層被稱為"初始引導(dǎo)獎勵",就像給新手偵探提供破案的第一個(gè)重要線索。當(dāng)AI開始處理一個(gè)需要搜索信息的任務(wù)時(shí),系統(tǒng)會檢查它的第一步搜索是否走在正確的方向上。不過,這里的"正確"并不意味著必須完全復(fù)制專家的做法,而是允許多種合理的入手方式。這就像告訴新偵探"你可以從受害者的社交關(guān)系入手,也可以從現(xiàn)場物證開始,只要是合理的起點(diǎn)都是好的"。
第二層獎勵叫做"遞減過程獎勵",這是整個(gè)設(shè)計(jì)中最精妙的部分。系統(tǒng)鼓勵A(yù)I進(jìn)行更多有效的搜索嘗試,但又防止它陷入無意義的無限循環(huán)。具體來說,AI每進(jìn)行一次格式正確的搜索,都會獲得一定的獎勵,但這個(gè)獎勵會逐漸遞減。這種設(shè)計(jì)就像對偵探說:"多調(diào)查一些線索是好事,但不要為了調(diào)查而調(diào)查,要適可而止。"通過數(shù)學(xué)公式的精心設(shè)計(jì),這個(gè)獎勵會從最初的基礎(chǔ)分?jǐn)?shù)逐漸增長,但增長速度會越來越慢,最終趨于穩(wěn)定。
第三層是"結(jié)果獎勵",這部分相對直觀,主要評估AI最終是否準(zhǔn)確找到了目標(biāo)對象。不過,這里的評估不僅僅看是否找對了人,還要考慮選擇的關(guān)鍵幀是否合適,定位是否精確,甚至包括目標(biāo)在該幀中的顯著程度。這就像評判偵探不僅要看是否抓到了真兇,還要看證據(jù)鏈?zhǔn)欠裢暾壿嬍欠袂逦?/p>
整個(gè)訓(xùn)練過程采用了一種叫做群體相對策略優(yōu)化的方法。簡單來說,就是讓AI同時(shí)嘗試多種不同的解決方案,然后通過比較這些方案的效果來學(xué)習(xí)。這種方法比傳統(tǒng)的單一路徑學(xué)習(xí)更加穩(wěn)定和高效,就像讓偵探小組同時(shí)從多個(gè)角度調(diào)查案件,然后總結(jié)出最有效的辦法。
三、實(shí)戰(zhàn)演練:構(gòu)建專門的測試戰(zhàn)場
為了驗(yàn)證這套訓(xùn)練方法的效果,研究團(tuán)隊(duì)專門構(gòu)建了一個(gè)名為OK-VOS的測試平臺。這個(gè)平臺就像專門為偵探設(shè)計(jì)的訓(xùn)練場,里面的每一個(gè)案件都需要掌握最新信息才能破解。
OK-VOS平臺包含了1000個(gè)精心設(shè)計(jì)的測試樣本,覆蓋150個(gè)視頻和500個(gè)不同的目標(biāo)對象。為了確保測試的公平性和挑戰(zhàn)性,研究團(tuán)隊(duì)邀請了五位專家進(jìn)行多輪審核,嚴(yán)格確保每個(gè)問題都需要超出現(xiàn)有AI系統(tǒng)內(nèi)部知識范圍的信息才能解答。任何可能通過視覺捷徑或常識推理解決的問題都被剔除或重新設(shè)計(jì)。
這些測試案例被巧妙地分為三個(gè)難度等級,就像偵探訓(xùn)練中的初級、中級和高級案件。初級案件只需要一次直接搜索就能獲得關(guān)鍵信息,比如"找到2025年奧斯卡最佳女主角"。中級案件需要多步推理,可能要先查到某個(gè)事件的時(shí)間,再根據(jù)時(shí)間查找相關(guān)人物。最困難的高級案件不僅需要多步搜索,還涉及復(fù)雜的空間關(guān)系推理,比如"找到那個(gè)接球的人,球是從2025年歐洲金球獎得主手中傳出的"。
在這個(gè)嚴(yán)苛的測試環(huán)境中,現(xiàn)有的最先進(jìn)系統(tǒng)表現(xiàn)都不盡如人意。即使是最近發(fā)表的UniPixel-7B系統(tǒng),整體準(zhǔn)確率也只有34.2%。更令人驚訝的是,簡單地給現(xiàn)有系統(tǒng)配備搜索工具并沒有帶來顯著改善。比如,Qwen3-VL-8B系統(tǒng)在配備搜索功能后,性能只提升了1.8%,這說明"有工具"和"會用工具"之間存在巨大差距。
相比之下,Seg-ReSearch系統(tǒng)的表現(xiàn)令人印象深刻。4B參數(shù)版本的系統(tǒng)就能達(dá)到46.0%的準(zhǔn)確率,比配備搜索功能的同等規(guī)模基線系統(tǒng)高出近10個(gè)百分點(diǎn)。8B參數(shù)版本更是達(dá)到了50.0%的準(zhǔn)確率,在這個(gè)極具挑戰(zhàn)性的測試中建立了新的標(biāo)桿。
四、技術(shù)深度:解構(gòu)智能搜索的藝術(shù)
Seg-ReSearch系統(tǒng)的核心技術(shù)就像一臺精密的推理機(jī)器,它能夠在復(fù)雜的多媒體環(huán)境中進(jìn)行類似人類的思考過程。當(dāng)系統(tǒng)接收到一個(gè)查詢?nèi)蝿?wù)時(shí),它首先會分析視頻內(nèi)容和問題要求,判斷是否需要外部信息支持。
系統(tǒng)的搜索過程采用了一種多回合動態(tài)交互機(jī)制。每當(dāng)系統(tǒng)意識到需要更多信息時(shí),它會生成一個(gè)精確的搜索查詢,并指定搜索類型(文本搜索或圖像搜索)。搜索引擎返回的信息會被自動整理并融入到系統(tǒng)的推理鏈條中,為下一步分析提供依據(jù)。這個(gè)過程可以重復(fù)進(jìn)行,直到系統(tǒng)收集到足夠的信息或達(dá)到預(yù)設(shè)的搜索次數(shù)上限。
在視頻分析階段,系統(tǒng)首先處理低分辨率的關(guān)鍵幀,進(jìn)行初步的目標(biāo)識別和場景理解。一旦確定了最可能包含目標(biāo)對象的關(guān)鍵幀,系統(tǒng)會請求該幀的高分辨率版本,進(jìn)行更精細(xì)的定位分析。最終,系統(tǒng)會輸出一個(gè)包含邊界框和精確點(diǎn)坐標(biāo)的定位結(jié)果,這些信息會被傳遞給專門的掩碼生成器(如SAM2),完成最終的像素級分割。
系統(tǒng)的學(xué)習(xí)過程采用了強(qiáng)化學(xué)習(xí)的方法,但與傳統(tǒng)方法不同的是,它使用了前面提到的分層獎勵機(jī)制。訓(xùn)練數(shù)據(jù)相對精簡,只需要100個(gè)樣本就能取得顯著效果,這在數(shù)據(jù)稀缺的實(shí)際應(yīng)用場景中具有重要價(jià)值。訓(xùn)練過程中,系統(tǒng)會不斷調(diào)整其搜索策略和推理邏輯,學(xué)會在什么時(shí)候搜索什么內(nèi)容,以及如何將搜索結(jié)果與視覺信息有效結(jié)合。
為了驗(yàn)證方法的通用性,研究團(tuán)隊(duì)還在傳統(tǒng)的推理分割基準(zhǔn)測試中進(jìn)行了評估。在ReasonSeg圖像基準(zhǔn)和ReasonVOS視頻基準(zhǔn)上,Seg-ReSearch都創(chuàng)造了新的最佳成績,證明了這種訓(xùn)練方法不僅適用于需要外部知識的任務(wù),也能提升傳統(tǒng)推理任務(wù)的性能。
五、深度分析:揭秘成功的關(guān)鍵要素
通過詳細(xì)的實(shí)驗(yàn)分析,研究團(tuán)隊(duì)揭示了系統(tǒng)成功的幾個(gè)關(guān)鍵因素。首先是分層獎勵機(jī)制的重要性。通過對比實(shí)驗(yàn)發(fā)現(xiàn),簡單的稀疏獎勵(只在最終結(jié)果對錯時(shí)給予反饋)會導(dǎo)致系統(tǒng)傾向于尋找視覺捷徑,避免進(jìn)行必要的搜索。而過于嚴(yán)格的步驟模仿又會限制系統(tǒng)的靈活性和創(chuàng)造性。只有采用分層獎勵機(jī)制,系統(tǒng)才能在探索和利用之間找到最佳平衡點(diǎn)。
研究團(tuán)隊(duì)特別分析了那個(gè)巧妙的遞減獎勵設(shè)計(jì)。實(shí)驗(yàn)顯示,線性遞增的獎勵會導(dǎo)致系統(tǒng)進(jìn)行無意義的重復(fù)搜索,試圖通過搜索次數(shù)來獲取更多獎勵。而二元獎勵(要么全對要么全錯)又無法提供足夠的學(xué)習(xí)信號。遞減獎勵設(shè)計(jì)讓系統(tǒng)學(xué)會了適度搜索:平均搜索次數(shù)穩(wěn)定在2.5次左右,既保證了信息的充分性,又避免了無效的重復(fù)。
搜索設(shè)置的優(yōu)化也對系統(tǒng)性能產(chǎn)生了顯著影響。研究團(tuán)隊(duì)發(fā)現(xiàn),將最大搜索回合從1次增加到5次,系統(tǒng)性能提升了7.4個(gè)百分點(diǎn),這證明了多步推理的重要性。但進(jìn)一步增加到10次,性能提升就變得微乎其微,說明系統(tǒng)已經(jīng)學(xué)會了高效的搜索策略。
在搜索內(nèi)容的配置上,文本搜索被證明是獲取外部知識的主要途徑,將檢索的文本條目從1條增加到3條帶來了2.1個(gè)百分點(diǎn)的提升。圖像搜索雖然貢獻(xiàn)相對較小,但仍提供了0.8個(gè)百分點(diǎn)的額外收益,特別是在需要視覺確認(rèn)的任務(wù)中發(fā)揮了重要作用。
搜索引擎的選擇也影響著最終效果。Google搜索比DuckDuckGo搜索的效果好2.9個(gè)百分點(diǎn),這可能與搜索結(jié)果的質(zhì)量和相關(guān)性有關(guān)。更有趣的是,研究團(tuán)隊(duì)還嘗試了網(wǎng)頁瀏覽功能,即不僅獲取搜索結(jié)果摘要,還訪問完整的網(wǎng)頁內(nèi)容。這種方法帶來了額外4.4個(gè)百分點(diǎn)的提升,暗示了更深度信息獲取的潛力。
六、實(shí)際應(yīng)用:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
通過具體的應(yīng)用案例,我們可以更直觀地理解Seg-ReSearch系統(tǒng)的工作方式。研究團(tuán)隊(duì)展示了一個(gè)特別復(fù)雜的多步推理案例:用戶要求找到"在德國工程師Michaela Benthaus成為首位乘坐輪椅進(jìn)入太空的人那天第三次主持《周六夜現(xiàn)場》的藝人"。
面對這個(gè)復(fù)雜查詢,基礎(chǔ)的AI系統(tǒng)完全無法處理,即使配備了搜索功能的增強(qiáng)版本也只是機(jī)械地轉(zhuǎn)發(fā)原始查詢,得到了無關(guān)的搜索結(jié)果。而Seg-ReSearch系統(tǒng)展現(xiàn)了類似人類的推理過程:首先搜索Michaela Benthaus的太空旅行日期,發(fā)現(xiàn)是2025年12月20日;然后搜索那天第三次主持《周六夜現(xiàn)場》的藝人,得到是Ariana Grande;最后在視頻中準(zhǔn)確定位了目標(biāo)人物。
這個(gè)案例完美詮釋了任務(wù)分解和信息整合的重要性。系統(tǒng)不是試圖一次搜索解決所有問題,而是將復(fù)雜任務(wù)分解為幾個(gè)簡單的子問題,逐步構(gòu)建完整的知識圖譜,最終得出正確答案。
系統(tǒng)的訓(xùn)練過程也體現(xiàn)出了顯著的學(xué)習(xí)曲線。訓(xùn)練初期,各項(xiàng)性能指標(biāo)都相對較低,搜索次數(shù)也不穩(wěn)定。但隨著訓(xùn)練的進(jìn)行,系統(tǒng)逐漸學(xué)會了更有效的搜索策略,錯誤響應(yīng)的長度快速降至接近零,而正確響應(yīng)的長度保持穩(wěn)定。這表明系統(tǒng)不僅學(xué)會了如何搜索,還學(xué)會了如何生成格式規(guī)范的輸出。
特別值得注意的是,系統(tǒng)在不同類型任務(wù)上的表現(xiàn)存在一定差異。對于單步搜索任務(wù),系統(tǒng)的準(zhǔn)確率達(dá)到了54.0%,這類任務(wù)相對簡單,主要考驗(yàn)系統(tǒng)的基礎(chǔ)搜索和定位能力。多步推理任務(wù)的準(zhǔn)確率為43.3%,需要系統(tǒng)進(jìn)行更復(fù)雜的邏輯鏈條構(gòu)建。關(guān)系推理任務(wù)的準(zhǔn)確率為44.2%,這類任務(wù)不僅需要外部知識,還需要理解空間和時(shí)間關(guān)系,是最具挑戰(zhàn)性的任務(wù)類型。
七、技術(shù)突破:重新定義機(jī)器視覺的邊界
Seg-ReSearch系統(tǒng)的成功不僅僅是性能數(shù)字的提升,更重要的是它重新定義了機(jī)器視覺系統(tǒng)的能力邊界。傳統(tǒng)的視覺AI就像一個(gè)只能識別已知物體的靜態(tài)識別器,而這個(gè)系統(tǒng)更像一個(gè)能夠主動學(xué)習(xí)和推理的智能助手。
系統(tǒng)采用的多模態(tài)大語言模型作為策略核心,這種設(shè)計(jì)選擇體現(xiàn)了深刻的技術(shù)洞察。語言模型天生具備邏輯推理和知識整合的能力,通過專門的訓(xùn)練,它們可以學(xué)會如何在視覺任務(wù)中運(yùn)用這些能力。這種跨模態(tài)的能力遷移為解決復(fù)雜的視覺推理問題開辟了新的途徑。
訓(xùn)練方法的創(chuàng)新是另一個(gè)重要突破。傳統(tǒng)的監(jiān)督學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù),而強(qiáng)化學(xué)習(xí)雖然不需要詳細(xì)標(biāo)注,但通常需要大量的試錯過程。Seg-ReSearch采用的分層獎勵機(jī)制巧妙地結(jié)合了兩種方法的優(yōu)點(diǎn),在保證學(xué)習(xí)效率的同時(shí),大大減少了對標(biāo)注數(shù)據(jù)的依賴。僅用100個(gè)訓(xùn)練樣本就能達(dá)到如此顯著的效果,這在數(shù)據(jù)稀缺的實(shí)際應(yīng)用場景中具有巨大價(jià)值。
系統(tǒng)的可擴(kuò)展性也值得關(guān)注。從4B參數(shù)到8B參數(shù)版本,系統(tǒng)性能有了明顯提升,從46.0%增加到50.0%。這種可預(yù)測的規(guī)模化效應(yīng)表明,隨著計(jì)算資源的增加和模型規(guī)模的擴(kuò)大,系統(tǒng)性能還有進(jìn)一步提升的空間。
更令人興奮的是,這種方法的應(yīng)用潛力遠(yuǎn)不止于視頻目標(biāo)分割。同樣的思路可以應(yīng)用到其他需要外部知識支持的視覺任務(wù)中,比如圖像問答、視覺常識推理、多模態(tài)內(nèi)容生成等。這為構(gòu)建更加智能和實(shí)用的AI系統(tǒng)提供了新的技術(shù)路徑。
八、前景展望:走向真正的智能視覺助手
站在更廣闊的技術(shù)發(fā)展視角來看,Seg-ReSearch系統(tǒng)代表了人工智能發(fā)展的一個(gè)重要方向:從封閉的專用系統(tǒng)走向開放的通用智能。這種能夠主動獲取信息、靈活推理和適應(yīng)新情況的能力,正是我們期待的真正智能助手應(yīng)該具備的特質(zhì)。
在實(shí)際應(yīng)用場景中,這樣的系統(tǒng)可能會帶來革命性的變化。新聞媒體可以用它來快速識別和標(biāo)注新聞視頻中的關(guān)鍵人物;教育機(jī)構(gòu)可以用它來創(chuàng)建交互式的學(xué)習(xí)內(nèi)容,幫助學(xué)生理解復(fù)雜的歷史或科學(xué)概念;娛樂行業(yè)可以用它來自動生成視頻內(nèi)容的智能摘要和標(biāo)簽。
當(dāng)然,這項(xiàng)技術(shù)的發(fā)展也面臨一些挑戰(zhàn)和考慮。首先是信息準(zhǔn)確性的問題,系統(tǒng)的搜索結(jié)果依賴于互聯(lián)網(wǎng)上的信息質(zhì)量,如何確保獲取的信息準(zhǔn)確可靠是一個(gè)重要課題。其次是隱私保護(hù)的考慮,系統(tǒng)需要訪問外部搜索服務(wù),如何在保護(hù)用戶隱私的同時(shí)提供優(yōu)質(zhì)服務(wù)需要仔細(xì)設(shè)計(jì)。
研究團(tuán)隊(duì)也坦誠地討論了這項(xiàng)技術(shù)可能帶來的社會影響。一方面,它能夠大大提高人們處理多媒體信息的效率,讓AI助手變得更加智能和有用。另一方面,它也可能會放大互聯(lián)網(wǎng)信息中的偏見,或者在某些情況下涉及隱私問題。因此,研究團(tuán)隊(duì)強(qiáng)調(diào)了負(fù)責(zé)任發(fā)展的重要性,認(rèn)為技術(shù)進(jìn)步的積極影響遠(yuǎn)大于潛在風(fēng)險(xiǎn)。
從技術(shù)演進(jìn)的角度來看,Seg-ReSearch可能只是一個(gè)開始。未來的智能系統(tǒng)可能會具備更強(qiáng)的自主學(xué)習(xí)能力,能夠從與環(huán)境的交互中持續(xù)改進(jìn),甚至能夠主動發(fā)現(xiàn)和探索新的知識領(lǐng)域。這種"永遠(yuǎn)在線學(xué)習(xí)"的智能系統(tǒng)將會是人工智能發(fā)展的下一個(gè)重要里程碑。
研究團(tuán)隊(duì)表示,他們計(jì)劃將代碼和數(shù)據(jù)集公開發(fā)布,這將有助于更多研究者在此基礎(chǔ)上進(jìn)行創(chuàng)新和改進(jìn)。他們也希望這項(xiàng)工作能夠激發(fā)更多關(guān)于開放世界人工智能的研究,推動整個(gè)領(lǐng)域向著更加智能和實(shí)用的方向發(fā)展。
說到底,Seg-ReSearch系統(tǒng)的意義不僅在于解決了一個(gè)特定的技術(shù)問題,更在于它展示了一種全新的AI設(shè)計(jì)理念:讓機(jī)器像人類一樣思考和學(xué)習(xí),在面對未知問題時(shí)能夠主動尋求答案,而不是被動地等待預(yù)設(shè)的解決方案。這種理念的實(shí)現(xiàn),讓我們離真正的通用人工智能又近了一步。
歸根結(jié)底,這項(xiàng)研究最大的價(jià)值在于證明了AI系統(tǒng)可以突破靜態(tài)知識的束縛,學(xué)會在動態(tài)變化的世界中自主導(dǎo)航。就像培養(yǎng)一個(gè)優(yōu)秀的學(xué)生一樣,重要的不是灌輸多少知識,而是教會他如何學(xué)習(xí)和思考。中山大學(xué)的研究團(tuán)隊(duì)正是做到了這一點(diǎn),他們教會了AI如何成為一個(gè)合格的"終身學(xué)習(xí)者"。
對于普通人來說,這意味著未來的AI助手將會變得更加聰明和有用,能夠幫助我們處理那些需要最新信息和復(fù)雜推理的任務(wù)。對于研究者來說,這項(xiàng)工作開辟了一個(gè)全新的研究方向,有望推動人工智能向著更加通用和智能的方向發(fā)展。而對于整個(gè)社會來說,這樣的技術(shù)進(jìn)步預(yù)示著一個(gè)更加智能化的未來正在到來。
Q&A
Q1:Seg-ReSearch系統(tǒng)和普通的AI視覺識別有什么區(qū)別?
A:最大的區(qū)別在于Seg-ReSearch能夠主動上網(wǎng)搜索信息。普通AI視覺系統(tǒng)就像一本封閉的百科全書,只能識別訓(xùn)練時(shí)見過的內(nèi)容,而Seg-ReSearch更像一個(gè)會使用搜索引擎的偵探,遇到不認(rèn)識的人或事物時(shí)會主動查找相關(guān)信息,然后結(jié)合搜索結(jié)果和視覺線索來準(zhǔn)確定位目標(biāo)。
Q2:這個(gè)系統(tǒng)只能用來分割視頻中的對象嗎?
A:雖然當(dāng)前主要應(yīng)用于視頻對象分割,但這種"邊推理邊搜索"的方法具有很強(qiáng)的擴(kuò)展性。同樣的技術(shù)思路可以應(yīng)用到圖像問答、多模態(tài)內(nèi)容理解、智能標(biāo)注等多個(gè)領(lǐng)域。只要是需要結(jié)合外部知識進(jìn)行視覺理解的任務(wù),都可以借鑒這種方法。
Q3:OK-VOS測試平臺為什么這么難,連最先進(jìn)的AI都表現(xiàn)不好?
A:OK-VOS專門設(shè)計(jì)來測試需要外部知識的視覺任務(wù),每個(gè)問題都需要最新信息才能解答,比如"找到2025年奧斯卡獲獎?wù)?這類問題。傳統(tǒng)AI系統(tǒng)的知識被凍結(jié)在訓(xùn)練時(shí),無法獲取這些最新信息,就像用2020年的百科全書去回答2025年的問題一樣。即使給它們配備搜索工具,也不知道如何有效使用,這就是為什么表現(xiàn)都不理想的原因。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.