![]()
這項由浙江大學郭子潤、洪敏杰、譚韜等研究者與字節跳動BandAI團隊合作完成的重要研究發表于2025年12月的arXiv論文庫,論文編號為arXiv:2512.03746。對這一前沿研究感興趣的讀者可以通過該編號查詢完整論文。
當你拿起手機拍了一張照片,卻發現圖片歪了或者文字看不清時,你會怎么做?大多數人會很自然地旋轉手機屏幕,或者用手指放大圖片來看清細節。這些看似簡單的操作,對于人工智能來說卻是一個巨大的挑戰。
如今的AI圖像識別技術已經相當先進,能夠識別照片中的各種物體、閱讀文字內容,甚至理解圖片背后的含義。然而,研究團隊發現了一個令人意外的問題:當圖片稍微旋轉一下,或者文字太小看不清楚時,這些先進的AI系統就會變得"手足無措",準確率急劇下降,有時甚至下降80%以上。
這就好比一個博學的教授,平時能夠流利地講解各種復雜理論,但當有人把教材倒過來放在他面前時,他就完全不知道該如何應對了。現實生活中,我們每天遇到的圖片往往不是完美狀態的——自拍可能是鏡像的,文檔可能掃描得歪斜,照片可能因為拍攝角度而需要旋轉。如果AI無法處理這些日常情況,那它在實際應用中的價值就會大大降低。
為了解決這個問題,研究團隊開發了一個名為"CodeVision"的革命性框架。與傳統方法不同的是,這個系統不是簡單地讓AI"看"圖片,而是教會AI像人類一樣"動手"處理圖片。當AI發現圖片有問題時,它會自動編寫代碼來調用各種圖像處理工具,比如旋轉、裁剪、增強對比度等操作,然后再基于處理后的圖片進行分析。
這種方法的巧妙之處在于將代碼作為AI使用工具的通用接口。傳統的AI系統需要預先定義好能使用哪些工具,就像給工人準備一個固定的工具箱。而CodeVision系統則讓AI學會了"編程語言"這把萬能鑰匙,可以調用任何現有的圖像處理功能,甚至能夠創造性地組合多個工具來解決復雜問題。
一、AI的"近視眼"問題:當圖片不完美時會發生什么
研究團隊首先做了一個簡單而直觀的測試。他們從各個領域收集了200張圖片,然后對每張圖片進行五種常見的變換:順時針旋轉90度、180度、270度,水平翻轉和垂直翻轉。接著,他們讓AI模型判斷圖片經歷了哪種變換,這對人類來說是一個非常簡單的任務。
結果讓人震驚。即使是目前最先進的AI模型,如GPT-4和Gemini等,在這個看似簡單的任務上表現都很糟糕,而普通人可以輕松做到100%準確。更重要的是,研究團隊發現,當圖片經過這些基本變換后,AI在各種實際任務中的表現都會顯著下降。
以文字識別任務為例,當圖片方向正確時,先進的AI模型能夠達到85-90%的準確率。但是當圖片旋轉90度后,準確率可能降到60%左右;如果是180度旋轉,準確率可能跌至45%;而對于水平或垂直翻轉的圖片,準確率甚至可能降到10%以下。這種表現差距就像一個平時能考90分的學生,當試卷倒過來放時只能考10分一樣令人擔憂。
在圖表理解任務中,情況同樣嚴重。正常方向的圖表,AI能夠準確理解其中的數據關系和趨勢。但當圖表旋轉或翻轉后,AI就像迷失方向的游客一樣,無法正確解讀其中的信息。這種脆弱性在現實應用中是不可接受的,因為我們無法保證所有輸入的圖片都是完美方向的。
這個發現揭示了當前AI系統的一個根本性問題:它們缺乏人類那種自然的"動手能力"。當人類看到一張倒置的圖片時,會本能地旋轉它;當文字太小看不清時,會放大圖片。但是傳統的AI系統只能"被動觀看",無法主動調整輸入內容來改善理解效果。
二、CodeVision:教AI學會"動手"的編程思維
面對這個挑戰,研究團隊設計了一個創新的解決方案——CodeVision框架。這個系統的核心思想是讓AI像程序員一樣思考和行動:當遇到問題時,不是硬著頭皮去解決,而是先寫代碼來改善工作環境,然后再處理問題。
CodeVision系統的工作過程可以這樣理解:當AI接收到一張圖片和一個問題時,它首先會分析圖片的狀態,判斷是否需要進行預處理。如果發現圖片方向不對,它會編寫代碼來調用旋轉功能;如果發現目標區域太小看不清楚,它會編寫裁剪代碼來放大特定區域;如果發現圖片對比度不夠,它會調用增強功能來改善視覺效果。
這種方法的最大優勢是靈活性和可擴展性。傳統的工具使用方法需要預先定義每個工具的名稱、參數和調用方式,就像給AI一本固定的"工具使用手冊"。如果要添加新工具或修改工具參數,就需要重新訓練模型。而CodeVision則讓AI學會了編程語言這個通用接口,可以調用任何現有的圖像處理庫和函數。
舉個具體例子,當AI需要處理一張旋轉了90度的包含小字的圖片時,傳統系統可能需要調用預定義的"rotate90"工具和"crop"工具。而CodeVision系統則會編寫類似這樣的代碼:首先導入圖像處理庫,然后調用旋轉函數將圖片轉正,接著計算目標文字區域的坐標,最后裁剪出包含文字的子圖。整個過程就像一個熟練的程序員在解決圖像處理問題一樣自然流暢。
更令人印象深刻的是,CodeVision系統展現出了三個意想不到的"涌現能力"。首先是工具創新能力:系統能夠調用訓練時從未見過的新工具來解決問題,就像一個程序員能夠學會使用新發布的編程庫一樣。其次是效率優化能力:系統學會了在一次執行中串聯多個操作,而不是分步進行,大大提高了處理效率。最后是錯誤恢復能力:當代碼執行失敗時,系統能夠分析錯誤信息,修改代碼并重新嘗試,展現出了令人驚訝的適應性。
三、兩階段訓練:從模仿到策略思考的進化過程
訓練CodeVision系統是一個精心設計的兩階段過程,就像培養一名優秀程序員需要先學習基礎語法,再培養解決問題的戰略思維一樣。
第一階段是"冷啟動"監督學習階段。研究團隊構建了一個高質量的訓練數據集,包含大約5000個精心設計的示例。這些示例涵蓋了五種不同類型的任務:單工具使用、多工具組合、多步裁剪、錯誤處理和無工具解答。每個示例都包含完整的推理過程和代碼實現。
在單工具使用示例中,AI學習如何識別圖片問題并調用相應工具解決。比如看到一張旋轉的圖片,AI需要學會判斷旋轉角度并編寫相應的旋轉代碼。多工具組合示例則更加復雜,需要AI學會組合使用多種工具來解決復雜問題,比如先旋轉圖片再裁剪特定區域。
錯誤處理示例特別有價值,因為它們模擬了真實編程中經常遇到的情況。研究團隊故意在訓練數據中加入了代碼錯誤、參數錯誤等情況,然后展示AI應該如何分析錯誤信息并修正代碼。這就像教學生不僅要知道正確答案,還要知道犯錯后如何糾正。
第二階段是強化學習階段,這是整個訓練過程的關鍵創新。研究團隊設計了一個復雜的獎勵函數,包含多個組成部分來指導AI的學習過程。這個獎勵函數不僅關注最終結果是否正確,還關注AI是否使用了正確的策略和工具。
獎勵函數的設計體現了深刻的教育智慧。首先是結果獎勵,確保AI能夠得出正確答案。其次是策略獎勵,鼓勵AI使用必要的工具和發現有益的工具組合。比如當圖片確實需要旋轉時,AI必須使用旋轉工具才能獲得策略獎勵,即使它可能通過其他方式勉強得出答案。
最有趣的是"建議工具獎勵"機制。系統會收集同一問題的多個解決方案,比較使用額外工具和不使用額外工具的成功率。如果使用某個額外工具確實提高了成功率,系統就會獎勵那些使用該工具的解決方案。這種機制鼓勵AI主動探索和發現有用的工具組合,而不是僅僅依賴預定義的必要工具。
為了防止AI的"取巧行為",研究團隊還設計了約束懲罰機制。比如如果AI為了獲得策略獎勵而重復使用不必要的工具,或者在不需要工具的情況下強行使用工具,都會受到相應懲罰。這確保了AI學習到的是真正有效的策略,而不是游戲規則的漏洞。
四、MVToolBench:檢驗多工具協作能力的新標準
為了全面評估AI的工具使用能力,研究團隊構建了一個全新的基準測試——MVToolBench。這個測試的設計理念是創造真正需要多個工具協作才能解決的挑戰,就像現實世界中的復雜任務往往需要多種技能配合一樣。
MVToolBench的構建過程充分考慮了實際應用場景。研究團隊從HierText數據集中選擇了包含豐富文本標注的圖片,然后進行精心篩選,只保留那些目標文字區域占整張圖片面積不到0.01%的樣本。這種嚴格篩選確保了測試的挑戰性——如果不使用裁剪工具放大目標區域,幾乎不可能準確識別其中的文字內容。
接下來,研究團隊針對這些篩選后的圖片設計了各種類型的問題,包括文字識別、計數任務和信息提取等。問題設計的一個重要原則是避免使用任何位置提示,比如不會說"左邊的文字"或"第三行的內容",而是通過內容描述來指定目標,如"以'Busy'開頭的那行文字說了什么"。這種設計迫使AI必須依靠自己的理解能力來定位目標區域。
最后的關鍵步驟是為每張圖片隨機應用方向變換,包括90度、180度、270度旋轉,以及水平翻轉或垂直翻轉。這樣,解決任何一個問題都需要至少兩個步驟:首先糾正圖片方向,然后裁剪目標區域。這種設計確保了測試真正評估的是多工具協作能力,而不是單一工具的使用技巧。
在MVToolBench上的測試結果令人印象深刻。CodeVision系列模型在這個挑戰性基準上取得了顯著優勢,其中CodeVision-7B模型達到了60.1分,幾乎是第二名Gemini2.5-Pro(32.6分)的兩倍。這種巨大差距表明,CodeVision框架在處理需要多步驟工具協作的復雜任務方面具有明顯優勢。
更值得注意的是,在傳統的單工具基準測試(如V*和HRBench)上,CodeVision模型的表現與現有最佳模型相當,這說明新方法在保持原有能力的同時,顯著提升了多工具協作能力。這種平衡發展體現了框架設計的巧妙之處。
五、實驗驗證:從理論到實踐的全面檢驗
研究團隊進行了大規模的實驗來驗證CodeVision框架的有效性。實驗設計覆蓋了多個維度,包括不同規模的模型、不同類型的任務和不同難度的挑戰,確保結果的全面性和可靠性。
在圖片方向識別能力測試中,CodeVision模型展現出了令人矚目的改進。以OCRBench數據集為例,當圖片經過180度旋轉時,基礎的Qwen2.5-VL-7B模型準確率僅為58.0%,而經過CodeVision訓練的同規模模型準確率達到了73.1%,提升了15個百分點。在垂直翻轉這個最困難的變換上,基礎模型準確率僅為17.0%,CodeVision模型則達到了67.4%,提升幅度達到50個百分點。
在ChartQAPro圖表理解任務中,改進同樣顯著。這個任務主要測試AI對圖表內容的理解和推理能力,而不是對每個字符的精確識別。CodeVision-8B模型在處理水平翻轉的圖表時準確率達到39.7%,而基礎模型僅為21.3%。這種改進表明,工具使用能力不僅提升了視覺感知,還增強了高層次的推理能力。
訓練過程的分析揭示了CodeVision學習策略的有效性。獎勵曲線顯示,模型在訓練過程中不僅提高了最終答案的正確率,還學會了更加戰略性的工具使用方法。特別值得注意的是,"涌現工具使用"獎勵的持續上升表明,模型正在主動發現和使用訓練數據中未明確要求的有益工具。
通過具體案例分析,研究團隊展示了CodeVision模型的多項高級能力。在一個典型案例中,模型需要處理一張既旋轉又需要裁剪的復雜圖片。模型首先分析圖片狀態,識別出需要90度旋轉,然后編寫代碼執行旋轉操作。接著,它分析旋轉后的圖片,確定目標文字區域的大致位置,編寫裁剪代碼提取該區域。最后,基于清晰的裁剪圖片,模型準確回答了問題。
更令人印象深刻的是模型的錯誤恢復能力。在另一個案例中,模型最初選擇了錯誤的變換操作(水平翻轉而非90度旋轉)。當接收到執行結果后,模型能夠分析結果,意識到選擇錯誤,然后自動修正策略,選擇正確的旋轉操作。這種自我糾正能力在傳統AI系統中是很難實現的。
模型還展現出了創造性的工具組合能力。在一個需要增強圖片對比度并轉換為灰度圖的任務中,模型將對比度增強和灰度轉換操作巧妙地組合在一次代碼執行中,而這兩個工具在訓練數據中從未以這種方式組合出現過。這種創造性組合能力表明,模型真正理解了工具的功能,而不是簡單地記憶固定的使用模式。
六、技術細節:構建智能工具使用的關鍵要素
CodeVision框架的成功離不開多個技術層面的精心設計。首先是代碼生成和執行環境的構建。研究團隊創建了一個安全的代碼執行沙盒,允許AI生成的代碼在受控環境中運行,同時防止潛在的安全風險。這個執行環境支持主流的Python圖像處理庫,如OpenCV、PIL、numpy等,為AI提供了豐富的工具選擇。
模型架構方面,CodeVision在現有的多模態大語言模型基礎上進行了適配性改進。研究團隊選擇了Qwen2.5-VL和Qwen3-VL系列作為基礎模型,這些模型在視覺理解和代碼生成方面都具有良好的基礎能力。通過在這些模型上進行專門的工具使用訓練,實現了視覺理解、代碼生成和工具調用的有機統一。
訓練數據的構建過程體現了研究團隊的深厚經驗。他們從多個領域收集了訓練樣本,包括手寫文字數據集、野外OCR數據集、表格圖表數據集和數學推理數據集。為了確保數據質量,團隊開發了自動驗證機制,通過比較工具操作前后的結果來判斷操作的正確性。只有通過驗證的高質量示例才被納入最終的訓練數據集。
強化學習的實現采用了GRPO(Group Relative Policy Optimization)算法,這是一種改進的策略優化方法,特別適合處理具有復雜獎勵結構的任務。訓練過程中,每個樣本會生成8個不同的解決方案,通過比較這些方案的獎勵來指導模型學習更好的策略。
約束懲罰機制的設計特別精巧。研究團隊識別了三類需要懲罰的行為:超出合理回合數的冗余操作、在目標區域IoU很低情況下聲稱正確答案的低質量推理,以及在不需要工具時錯誤使用方向調整工具的不當操作。這些懲罰機制確保了模型學習到高效、準確的工具使用策略。
七、突破與局限:技術進步的真實畫像
CodeVision框架在多個方面實現了顯著突破,但也存在一些需要進一步改進的局限性。研究團隊以客觀態度分析了這些優勢和不足,為未來發展指明了方向。
最顯著的突破是工具使用的靈活性。傳統方法需要為每個工具預定義接口和參數,而CodeVision通過代碼作為通用接口,實現了真正的工具使用靈活性。這種設計不僅支持現有工具的使用,還為未來工具的整合提供了無限可能。模型能夠調用訓練時從未見過的新工具,并且能夠創造性地組合多個工具來解決復雜問題。
在錯誤恢復能力方面,CodeVision也展現出了傳統方法難以企及的優勢。當代碼執行失敗或結果不理想時,模型能夠分析錯誤信息,理解失敗原因,并相應調整策略。這種能力使得AI系統在面對意外情況時具有更好的魯棒性。
訓練效率的提升是另一個重要優勢。通過兩階段訓練策略,模型能夠在相對較少的訓練數據上獲得顯著的性能提升。監督學習階段為模型提供了基礎能力,強化學習階段則優化了策略選擇,這種分工明確的訓練方式比端到端訓練更加高效。
然而,研究團隊也坦誠地指出了一些局限性。首先是工具范圍相對有限。目前的研究主要集中在圖像的基礎操作上,如旋轉、裁剪、對比度調整等。雖然這些操作在實際應用中很重要,但要構建真正通用的視覺助手,還需要整合更多類型的工具,如圖像生成、多圖像對比、三維處理等。
精確定位能力是另一個需要改進的方面。雖然模型能夠大致確定目標區域的位置,但在生成精確的裁剪坐標時仍有不足。研究團隊觀察到,模型有時會采用"安全策略",裁剪出比實際需要更大的區域以確保包含目標內容,這雖然能夠完成任務,但效率不夠理想。
計算成本也是一個現實考慮因素。由于需要多輪代碼生成和執行,CodeVision的推理過程比傳統的單次前向傳播需要更多計算資源。在實際部署時,需要在性能提升和計算成本之間找到合適的平衡點。
評估基準的構建雖然有所創新,但仍有擴展空間。目前的基準主要關注文本相關的任務,未來需要構建更多樣化的評估場景,涵蓋不同類型的視覺理解和推理任務。
八、實際應用前景:從實驗室到日常生活的轉化
CodeVision框架的潛在應用前景十分廣闊,幾乎涵蓋了所有需要智能圖像處理的場景。在文檔處理領域,這項技術能夠自動處理各種方向和格式的掃描文檔,無論是歪斜的發票、旋轉的合同還是模糊的身份證件,都能通過自動調整和增強來提高識別準確率。
在教育技術方面,CodeVision可以大大改善在線學習體驗。學生上傳的作業照片往往質量參差不齊,可能存在角度傾斜、光線不佳、字跡模糊等問題。傳統的AI批改系統在處理這些"非標準"圖片時效果很差,而配備CodeVision技術的系統能夠自動糾正這些問題,準確識別學生的答案和解題過程。
醫療影像分析是另一個重要應用領域。醫療設備產生的圖像有時需要調整對比度、旋轉角度或裁剪特定區域才能進行準確分析。CodeVision技術能夠讓AI系統像經驗豐富的影像醫生一樣,自動進行這些預處理操作,然后進行精確的病理分析。
在社交媒體和內容管理方面,這項技術能夠自動處理用戶上傳的各種圖片。無論是自拍時的鏡像效果、風景照的方向問題,還是文檔照片的質量問題,都能通過智能處理來改善用戶體驗。平臺可以在用戶上傳圖片后自動進行優化,提供更清晰、更準確的顯示效果。
工業檢測和質量控制領域也將大大受益。生產線上的產品圖像可能因為攝像頭角度、光照條件或產品位置的變化而需要動態調整。CodeVision技術能夠讓檢測系統自動適應這些變化,確保檢測的準確性和可靠性。
無人駕駛汽車的視覺系統同樣可以從這項技術中獲益。在復雜的駕駛環境中,攝像頭可能因為震動、污垢或角度問題而影響圖像質量。配備智能圖像處理能力的視覺系統能夠實時調整和優化輸入圖像,提供更準確的環境感知能力。
值得注意的是,CodeVision的代碼生成特性還為個性化應用開辟了新的可能性。不同用戶可能有不同的圖像處理需求,系統能夠根據具體情況生成定制化的處理代碼,而不是依賴預設的處理流程。
九、深入剖析:獎勵機制設計的智慧
CodeVision框架中最精巧的部分之一是其獎勵函數的設計,這個看似技術性的細節實際上體現了深刻的教育哲學和心理學洞察。研究團隊在設計這個獎勵系統時,必須解決一個根本性問題:如何讓AI不僅學會得出正確答案,還學會使用正確的方法。
傳統的AI訓練往往只關注最終結果——答案對了就是好,答案錯了就是壞。但這種簡單的獎勵機制在復雜任務中會導致AI學會"取巧"行為。就像學生可能通過猜測或作弊得到正確答案,但實際上沒有真正理解知識一樣。
CodeVision的獎勵設計采用了"過程導向"的思路。系統不僅要求AI得出正確答案,還要求它使用恰當的工具和合理的步驟。這就像一個好老師不僅看學生的答案,還要看學生的解題過程,確保學生真正掌握了解題方法。
"必需工具獎勵"機制特別有趣。當一張圖片確實需要旋轉時,AI必須使用旋轉工具才能獲得這部分獎勵,即使它可能通過其他方式勉強得出答案。這種設計強化了AI對任務本質的理解,避免了投機取巧的行為。
更巧妙的是"建議工具發現"機制。系統會自動分析哪些額外工具確實有助于提高成功率,然后獎勵那些使用這些有益工具的解決方案。這種機制鼓勵AI主動探索和創新,而不是僅僅依賴預定義的要求。這就像鼓勵學生不僅要完成基本作業,還要主動學習額外的有用技能。
約束懲罰機制則起到了"規則意識"培養的作用。當AI為了獲得獎勵而進行無意義的重復操作,或者在不需要時強行使用工具時,系統會給予相應懲罰。這種設計確保AI學習到的是真正有效的策略,而不是鉆系統漏洞的技巧。
研究團隊還發現,不同類型的任務需要不同的獎勵權重。對于需要精確裁剪的任務,IoU(交并比)獎勵的權重會更高;對于方向糾正任務,工具使用的獎勵會更重要。這種動態調整體現了獎勵設計的精細化程度。
十、技術演進的更大圖景:從工具使用到通用智能
CodeVision框架的意義不僅僅在于解決了圖像處理中的具體問題,更在于它為AI系統的發展開辟了一個新方向。這個方向可以概括為"從被動感知到主動操作"的轉變。
在AI發展的早期階段,系統主要扮演"觀察者"的角色——接收輸入,處理信息,給出輸出。就像一個只能看書但不能寫字的學者,這樣的AI雖然能夠理解很多內容,但在面對需要動手解決的問題時就顯得力不從心。
CodeVision代表的是AI向"操作者"角色的進化。系統不再滿足于被動接受輸入,而是能夠主動改善輸入質量,優化工作環境。這種能力的獲得意味著AI開始具備了類似人類的"元認知"能力——不僅知道如何思考,還知道如何創造更好的思考條件。
這種演進的影響是深遠的。在自然語言處理領域,類似的思路已經開始出現,AI系統開始學會搜索信息、調用計算器、運行代碼來增強自己的推理能力。在多模態領域,CodeVision展示了如何讓AI獲得視覺工具使用能力。未來,我們可以預見AI將具備更多維度的工具使用能力,包括音頻處理、3D建模、科學計算等。
從更宏觀的角度來看,工具使用能力的發展標志著AI向通用人工智能邁出了重要一步。人類智能的一個關鍵特征就是工具的創造和使用,從簡單的石器到復雜的計算機,工具使用能力一直是人類文明進步的重要推動力。AI系統開始掌握工具使用能力,意味著它們開始具備了人類智能的一個核心特征。
CodeVision框架還暗示了AI系統架構的未來發展方向。傳統的AI系統往往是單一的、封閉的,而具備工具使用能力的AI系統則是開放的、可擴展的。這種系統可以通過整合新工具來不斷擴展自己的能力邊界,而不需要從頭重新訓練。
這種開放性和可擴展性對AI的實際部署具有重要意義。在快速變化的技術環境中,固定能力的AI系統很容易過時,而具備工具使用能力的系統則能夠通過整合新工具來保持競爭力。這就像智能手機通過安裝新應用來獲得新功能一樣,AI系統也將通過學習使用新工具來持續進化。
當然,這種發展也帶來了新的挑戰。如何確保AI系統安全地使用工具?如何防止惡意工具的使用?如何處理工具之間的沖突和兼容性問題?這些都是需要深入研究和解決的重要問題。
CodeVision框架為這些挑戰提供了一些初步的解決思路。通過代碼作為中介接口,系統可以在受控環境中執行工具操作,提供了安全性保障。通過精心設計的獎勵機制,系統學會了合理和高效的工具使用方式,避免了濫用和誤用。
說到底,CodeVision代表的不僅僅是一個技術框架,更是AI發展理念的一次重要轉變。它告訴我們,未來的AI系統不應該是封閉的黑盒子,而應該是開放的、能夠與環境互動的智能體。這種AI將不僅僅是信息處理器,更將成為能夠改造和優化自身工作環境的主動參與者。
這項研究表明,當我們的圖像識別AI學會了像人類一樣"動手"處理圖片后,它們在處理現實世界復雜視覺任務時的能力將得到質的提升。隨著技術的不斷發展和完善,我們有理由期待更加智能、靈活和實用的AI助手出現在我們的日常生活中,真正實現人工智能與人類需求的無縫對接。
Q&A
Q1:CodeVision跟普通的AI圖像識別有什么不同?
A:普通AI只能"看"圖片然后給出答案,就像一個只能讀書不能動手的學生。而CodeVision教會了AI"動手"處理圖片——當發現圖片角度不對時會自動旋轉,文字太小時會自動放大,就像人類遇到問題時會本能地調整一樣。這讓AI在處理現實中那些不完美的圖片時表現更好。
Q2:這個技術能解決什么實際問題?
A:主要解決現實中圖片質量不完美的問題。比如你掃描文檔時角度歪了,或者拍照時文字太小看不清,普通AI的識別準確率會大幅下降甚至降低80%。CodeVision通過讓AI自動糾正這些問題,大大提高了在真實場景中的實用性,特別適用于文檔處理、教育批改、醫療影像等領域。
Q3:CodeVision是怎么學會使用工具的?
A:研究團隊采用了兩階段訓練法。第一階段像教小學生一樣,用5000個精心設計的例子教AI基礎的工具使用方法。第二階段采用強化學習,設計了復雜的獎勵機制,不僅獎勵正確答案,還獎勵使用恰當工具的過程,同時懲罰取巧行為。這樣AI就學會了既要答對,又要方法對。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.