網易首頁 > 網易號 > 正文申請入駐

字節跳動揭示多模態大模型的"工具使用"革命

2025-12-08 22:13:18　來源: 科技行者

北京舉報

分享至

這項由浙江大學郭子潤、洪敏杰、譚韜等研究者與字節跳動BandAI團隊合作完成的重要研究發表于2025年12月的arXiv論文庫，論文編號為arXiv:2512.03746。對這一前沿研究感興趣的讀者可以通過該編號查詢完整論文。

當你拿起手機拍了一張照片，卻發現圖片歪了或者文字看不清時，你會怎么做？大多數人會很自然地旋轉手機屏幕，或者用手指放大圖片來看清細節。這些看似簡單的操作，對于人工智能來說卻是一個巨大的挑戰。

如今的AI圖像識別技術已經相當先進，能夠識別照片中的各種物體、閱讀文字內容，甚至理解圖片背后的含義。然而，研究團隊發現了一個令人意外的問題：當圖片稍微旋轉一下，或者文字太小看不清楚時，這些先進的AI系統就會變得"手足無措"，準確率急劇下降，有時甚至下降80%以上。

這就好比一個博學的教授，平時能夠流利地講解各種復雜理論，但當有人把教材倒過來放在他面前時，他就完全不知道該如何應對了。現實生活中，我們每天遇到的圖片往往不是完美狀態的——自拍可能是鏡像的，文檔可能掃描得歪斜，照片可能因為拍攝角度而需要旋轉。如果AI無法處理這些日常情況，那它在實際應用中的價值就會大大降低。

為了解決這個問題，研究團隊開發了一個名為"CodeVision"的革命性框架。與傳統方法不同的是，這個系統不是簡單地讓AI"看"圖片，而是教會AI像人類一樣"動手"處理圖片。當AI發現圖片有問題時，它會自動編寫代碼來調用各種圖像處理工具，比如旋轉、裁剪、增強對比度等操作，然后再基于處理后的圖片進行分析。

這種方法的巧妙之處在于將代碼作為AI使用工具的通用接口。傳統的AI系統需要預先定義好能使用哪些工具，就像給工人準備一個固定的工具箱。而CodeVision系統則讓AI學會了"編程語言"這把萬能鑰匙，可以調用任何現有的圖像處理功能，甚至能夠創造性地組合多個工具來解決復雜問題。

一、AI的"近視眼"問題：當圖片不完美時會發生什么

研究團隊首先做了一個簡單而直觀的測試。他們從各個領域收集了200張圖片，然后對每張圖片進行五種常見的變換：順時針旋轉90度、180度、270度，水平翻轉和垂直翻轉。接著，他們讓AI模型判斷圖片經歷了哪種變換，這對人類來說是一個非常簡單的任務。

結果讓人震驚。即使是目前最先進的AI模型，如GPT-4和Gemini等，在這個看似簡單的任務上表現都很糟糕，而普通人可以輕松做到100%準確。更重要的是，研究團隊發現，當圖片經過這些基本變換后，AI在各種實際任務中的表現都會顯著下降。

以文字識別任務為例，當圖片方向正確時，先進的AI模型能夠達到85-90%的準確率。但是當圖片旋轉90度后，準確率可能降到60%左右；如果是180度旋轉，準確率可能跌至45%；而對于水平或垂直翻轉的圖片，準確率甚至可能降到10%以下。這種表現差距就像一個平時能考90分的學生，當試卷倒過來放時只能考10分一樣令人擔憂。

在圖表理解任務中，情況同樣嚴重。正常方向的圖表，AI能夠準確理解其中的數據關系和趨勢。但當圖表旋轉或翻轉后，AI就像迷失方向的游客一樣，無法正確解讀其中的信息。這種脆弱性在現實應用中是不可接受的，因為我們無法保證所有輸入的圖片都是完美方向的。

這個發現揭示了當前AI系統的一個根本性問題：它們缺乏人類那種自然的"動手能力"。當人類看到一張倒置的圖片時，會本能地旋轉它；當文字太小看不清時，會放大圖片。但是傳統的AI系統只能"被動觀看"，無法主動調整輸入內容來改善理解效果。

二、CodeVision：教AI學會"動手"的編程思維

面對這個挑戰，研究團隊設計了一個創新的解決方案——CodeVision框架。這個系統的核心思想是讓AI像程序員一樣思考和行動：當遇到問題時，不是硬著頭皮去解決，而是先寫代碼來改善工作環境，然后再處理問題。

CodeVision系統的工作過程可以這樣理解：當AI接收到一張圖片和一個問題時，它首先會分析圖片的狀態，判斷是否需要進行預處理。如果發現圖片方向不對，它會編寫代碼來調用旋轉功能；如果發現目標區域太小看不清楚，它會編寫裁剪代碼來放大特定區域；如果發現圖片對比度不夠，它會調用增強功能來改善視覺效果。

這種方法的最大優勢是靈活性和可擴展性。傳統的工具使用方法需要預先定義每個工具的名稱、參數和調用方式，就像給AI一本固定的"工具使用手冊"。如果要添加新工具或修改工具參數，就需要重新訓練模型。而CodeVision則讓AI學會了編程語言這個通用接口，可以調用任何現有的圖像處理庫和函數。

舉個具體例子，當AI需要處理一張旋轉了90度的包含小字的圖片時，傳統系統可能需要調用預定義的"rotate90"工具和"crop"工具。而CodeVision系統則會編寫類似這樣的代碼：首先導入圖像處理庫，然后調用旋轉函數將圖片轉正，接著計算目標文字區域的坐標，最后裁剪出包含文字的子圖。整個過程就像一個熟練的程序員在解決圖像處理問題一樣自然流暢。

更令人印象深刻的是，CodeVision系統展現出了三個意想不到的"涌現能力"。首先是工具創新能力：系統能夠調用訓練時從未見過的新工具來解決問題，就像一個程序員能夠學會使用新發布的編程庫一樣。其次是效率優化能力：系統學會了在一次執行中串聯多個操作，而不是分步進行，大大提高了處理效率。最后是錯誤恢復能力：當代碼執行失敗時，系統能夠分析錯誤信息，修改代碼并重新嘗試，展現出了令人驚訝的適應性。

三、兩階段訓練：從模仿到策略思考的進化過程

訓練CodeVision系統是一個精心設計的兩階段過程，就像培養一名優秀程序員需要先學習基礎語法，再培養解決問題的戰略思維一樣。

第一階段是"冷啟動"監督學習階段。研究團隊構建了一個高質量的訓練數據集，包含大約5000個精心設計的示例。這些示例涵蓋了五種不同類型的任務：單工具使用、多工具組合、多步裁剪、錯誤處理和無工具解答。每個示例都包含完整的推理過程和代碼實現。

在單工具使用示例中，AI學習如何識別圖片問題并調用相應工具解決。比如看到一張旋轉的圖片，AI需要學會判斷旋轉角度并編寫相應的旋轉代碼。多工具組合示例則更加復雜，需要AI學會組合使用多種工具來解決復雜問題，比如先旋轉圖片再裁剪特定區域。

錯誤處理示例特別有價值，因為它們模擬了真實編程中經常遇到的情況。研究團隊故意在訓練數據中加入了代碼錯誤、參數錯誤等情況，然后展示AI應該如何分析錯誤信息并修正代碼。這就像教學生不僅要知道正確答案，還要知道犯錯后如何糾正。

第二階段是強化學習階段，這是整個訓練過程的關鍵創新。研究團隊設計了一個復雜的獎勵函數，包含多個組成部分來指導AI的學習過程。這個獎勵函數不僅關注最終結果是否正確，還關注AI是否使用了正確的策略和工具。

獎勵函數的設計體現了深刻的教育智慧。首先是結果獎勵，確保AI能夠得出正確答案。其次是策略獎勵，鼓勵AI使用必要的工具和發現有益的工具組合。比如當圖片確實需要旋轉時，AI必須使用旋轉工具才能獲得策略獎勵，即使它可能通過其他方式勉強得出答案。

最有趣的是"建議工具獎勵"機制。系統會收集同一問題的多個解決方案，比較使用額外工具和不使用額外工具的成功率。如果使用某個額外工具確實提高了成功率，系統就會獎勵那些使用該工具的解決方案。這種機制鼓勵AI主動探索和發現有用的工具組合，而不是僅僅依賴預定義的必要工具。

為了防止AI的"取巧行為"，研究團隊還設計了約束懲罰機制。比如如果AI為了獲得策略獎勵而重復使用不必要的工具，或者在不需要工具的情況下強行使用工具，都會受到相應懲罰。這確保了AI學習到的是真正有效的策略，而不是游戲規則的漏洞。

四、MVToolBench：檢驗多工具協作能力的新標準

為了全面評估AI的工具使用能力，研究團隊構建了一個全新的基準測試——MVToolBench。這個測試的設計理念是創造真正需要多個工具協作才能解決的挑戰，就像現實世界中的復雜任務往往需要多種技能配合一樣。

MVToolBench的構建過程充分考慮了實際應用場景。研究團隊從HierText數據集中選擇了包含豐富文本標注的圖片，然后進行精心篩選，只保留那些目標文字區域占整張圖片面積不到0.01%的樣本。這種嚴格篩選確保了測試的挑戰性——如果不使用裁剪工具放大目標區域，幾乎不可能準確識別其中的文字內容。

接下來，研究團隊針對這些篩選后的圖片設計了各種類型的問題，包括文字識別、計數任務和信息提取等。問題設計的一個重要原則是避免使用任何位置提示，比如不會說"左邊的文字"或"第三行的內容"，而是通過內容描述來指定目標，如"以'Busy'開頭的那行文字說了什么"。這種設計迫使AI必須依靠自己的理解能力來定位目標區域。

最后的關鍵步驟是為每張圖片隨機應用方向變換，包括90度、180度、270度旋轉，以及水平翻轉或垂直翻轉。這樣，解決任何一個問題都需要至少兩個步驟：首先糾正圖片方向，然后裁剪目標區域。這種設計確保了測試真正評估的是多工具協作能力，而不是單一工具的使用技巧。

在MVToolBench上的測試結果令人印象深刻。CodeVision系列模型在這個挑戰性基準上取得了顯著優勢，其中CodeVision-7B模型達到了60.1分，幾乎是第二名Gemini2.5-Pro（32.6分）的兩倍。這種巨大差距表明，CodeVision框架在處理需要多步驟工具協作的復雜任務方面具有明顯優勢。

更值得注意的是，在傳統的單工具基準測試（如V*和HRBench）上，CodeVision模型的表現與現有最佳模型相當，這說明新方法在保持原有能力的同時，顯著提升了多工具協作能力。這種平衡發展體現了框架設計的巧妙之處。

五、實驗驗證：從理論到實踐的全面檢驗

研究團隊進行了大規模的實驗來驗證CodeVision框架的有效性。實驗設計覆蓋了多個維度，包括不同規模的模型、不同類型的任務和不同難度的挑戰，確保結果的全面性和可靠性。

在圖片方向識別能力測試中，CodeVision模型展現出了令人矚目的改進。以OCRBench數據集為例，當圖片經過180度旋轉時，基礎的Qwen2.5-VL-7B模型準確率僅為58.0%，而經過CodeVision訓練的同規模模型準確率達到了73.1%，提升了15個百分點。在垂直翻轉這個最困難的變換上，基礎模型準確率僅為17.0%，CodeVision模型則達到了67.4%，提升幅度達到50個百分點。

在ChartQAPro圖表理解任務中，改進同樣顯著。這個任務主要測試AI對圖表內容的理解和推理能力，而不是對每個字符的精確識別。CodeVision-8B模型在處理水平翻轉的圖表時準確率達到39.7%，而基礎模型僅為21.3%。這種改進表明，工具使用能力不僅提升了視覺感知，還增強了高層次的推理能力。

訓練過程的分析揭示了CodeVision學習策略的有效性。獎勵曲線顯示，模型在訓練過程中不僅提高了最終答案的正確率，還學會了更加戰略性的工具使用方法。特別值得注意的是，"涌現工具使用"獎勵的持續上升表明，模型正在主動發現和使用訓練數據中未明確要求的有益工具。

通過具體案例分析，研究團隊展示了CodeVision模型的多項高級能力。在一個典型案例中，模型需要處理一張既旋轉又需要裁剪的復雜圖片。模型首先分析圖片狀態，識別出需要90度旋轉，然后編寫代碼執行旋轉操作。接著，它分析旋轉后的圖片，確定目標文字區域的大致位置，編寫裁剪代碼提取該區域。最后，基于清晰的裁剪圖片，模型準確回答了問題。

更令人印象深刻的是模型的錯誤恢復能力。在另一個案例中，模型最初選擇了錯誤的變換操作（水平翻轉而非90度旋轉）。當接收到執行結果后，模型能夠分析結果，意識到選擇錯誤，然后自動修正策略，選擇正確的旋轉操作。這種自我糾正能力在傳統AI系統中是很難實現的。

模型還展現出了創造性的工具組合能力。在一個需要增強圖片對比度并轉換為灰度圖的任務中，模型將對比度增強和灰度轉換操作巧妙地組合在一次代碼執行中，而這兩個工具在訓練數據中從未以這種方式組合出現過。這種創造性組合能力表明，模型真正理解了工具的功能，而不是簡單地記憶固定的使用模式。

六、技術細節：構建智能工具使用的關鍵要素

CodeVision框架的成功離不開多個技術層面的精心設計。首先是代碼生成和執行環境的構建。研究團隊創建了一個安全的代碼執行沙盒，允許AI生成的代碼在受控環境中運行，同時防止潛在的安全風險。這個執行環境支持主流的Python圖像處理庫，如OpenCV、PIL、numpy等，為AI提供了豐富的工具選擇。

模型架構方面，CodeVision在現有的多模態大語言模型基礎上進行了適配性改進。研究團隊選擇了Qwen2.5-VL和Qwen3-VL系列作為基礎模型，這些模型在視覺理解和代碼生成方面都具有良好的基礎能力。通過在這些模型上進行專門的工具使用訓練，實現了視覺理解、代碼生成和工具調用的有機統一。

訓練數據的構建過程體現了研究團隊的深厚經驗。他們從多個領域收集了訓練樣本，包括手寫文字數據集、野外OCR數據集、表格圖表數據集和數學推理數據集。為了確保數據質量，團隊開發了自動驗證機制，通過比較工具操作前后的結果來判斷操作的正確性。只有通過驗證的高質量示例才被納入最終的訓練數據集。

強化學習的實現采用了GRPO（Group Relative Policy Optimization）算法，這是一種改進的策略優化方法，特別適合處理具有復雜獎勵結構的任務。訓練過程中，每個樣本會生成8個不同的解決方案，通過比較這些方案的獎勵來指導模型學習更好的策略。

約束懲罰機制的設計特別精巧。研究團隊識別了三類需要懲罰的行為：超出合理回合數的冗余操作、在目標區域IoU很低情況下聲稱正確答案的低質量推理，以及在不需要工具時錯誤使用方向調整工具的不當操作。這些懲罰機制確保了模型學習到高效、準確的工具使用策略。

七、突破與局限：技術進步的真實畫像

CodeVision框架在多個方面實現了顯著突破，但也存在一些需要進一步改進的局限性。研究團隊以客觀態度分析了這些優勢和不足，為未來發展指明了方向。

最顯著的突破是工具使用的靈活性。傳統方法需要為每個工具預定義接口和參數，而CodeVision通過代碼作為通用接口，實現了真正的工具使用靈活性。這種設計不僅支持現有工具的使用，還為未來工具的整合提供了無限可能。模型能夠調用訓練時從未見過的新工具，并且能夠創造性地組合多個工具來解決復雜問題。

在錯誤恢復能力方面，CodeVision也展現出了傳統方法難以企及的優勢。當代碼執行失敗或結果不理想時，模型能夠分析錯誤信息，理解失敗原因，并相應調整策略。這種能力使得AI系統在面對意外情況時具有更好的魯棒性。

訓練效率的提升是另一個重要優勢。通過兩階段訓練策略，模型能夠在相對較少的訓練數據上獲得顯著的性能提升。監督學習階段為模型提供了基礎能力，強化學習階段則優化了策略選擇，這種分工明確的訓練方式比端到端訓練更加高效。

然而，研究團隊也坦誠地指出了一些局限性。首先是工具范圍相對有限。目前的研究主要集中在圖像的基礎操作上，如旋轉、裁剪、對比度調整等。雖然這些操作在實際應用中很重要，但要構建真正通用的視覺助手，還需要整合更多類型的工具，如圖像生成、多圖像對比、三維處理等。

精確定位能力是另一個需要改進的方面。雖然模型能夠大致確定目標區域的位置，但在生成精確的裁剪坐標時仍有不足。研究團隊觀察到，模型有時會采用"安全策略"，裁剪出比實際需要更大的區域以確保包含目標內容，這雖然能夠完成任務，但效率不夠理想。

計算成本也是一個現實考慮因素。由于需要多輪代碼生成和執行，CodeVision的推理過程比傳統的單次前向傳播需要更多計算資源。在實際部署時，需要在性能提升和計算成本之間找到合適的平衡點。

評估基準的構建雖然有所創新，但仍有擴展空間。目前的基準主要關注文本相關的任務，未來需要構建更多樣化的評估場景，涵蓋不同類型的視覺理解和推理任務。

八、實際應用前景：從實驗室到日常生活的轉化

CodeVision框架的潛在應用前景十分廣闊，幾乎涵蓋了所有需要智能圖像處理的場景。在文檔處理領域，這項技術能夠自動處理各種方向和格式的掃描文檔，無論是歪斜的發票、旋轉的合同還是模糊的身份證件，都能通過自動調整和增強來提高識別準確率。

在教育技術方面，CodeVision可以大大改善在線學習體驗。學生上傳的作業照片往往質量參差不齊，可能存在角度傾斜、光線不佳、字跡模糊等問題。傳統的AI批改系統在處理這些"非標準"圖片時效果很差，而配備CodeVision技術的系統能夠自動糾正這些問題，準確識別學生的答案和解題過程。

醫療影像分析是另一個重要應用領域。醫療設備產生的圖像有時需要調整對比度、旋轉角度或裁剪特定區域才能進行準確分析。CodeVision技術能夠讓AI系統像經驗豐富的影像醫生一樣，自動進行這些預處理操作，然后進行精確的病理分析。

在社交媒體和內容管理方面，這項技術能夠自動處理用戶上傳的各種圖片。無論是自拍時的鏡像效果、風景照的方向問題，還是文檔照片的質量問題，都能通過智能處理來改善用戶體驗。平臺可以在用戶上傳圖片后自動進行優化，提供更清晰、更準確的顯示效果。

工業檢測和質量控制領域也將大大受益。生產線上的產品圖像可能因為攝像頭角度、光照條件或產品位置的變化而需要動態調整。CodeVision技術能夠讓檢測系統自動適應這些變化，確保檢測的準確性和可靠性。

無人駕駛汽車的視覺系統同樣可以從這項技術中獲益。在復雜的駕駛環境中，攝像頭可能因為震動、污垢或角度問題而影響圖像質量。配備智能圖像處理能力的視覺系統能夠實時調整和優化輸入圖像，提供更準確的環境感知能力。

值得注意的是，CodeVision的代碼生成特性還為個性化應用開辟了新的可能性。不同用戶可能有不同的圖像處理需求，系統能夠根據具體情況生成定制化的處理代碼，而不是依賴預設的處理流程。

九、深入剖析：獎勵機制設計的智慧

CodeVision框架中最精巧的部分之一是其獎勵函數的設計，這個看似技術性的細節實際上體現了深刻的教育哲學和心理學洞察。研究團隊在設計這個獎勵系統時，必須解決一個根本性問題：如何讓AI不僅學會得出正確答案，還學會使用正確的方法。

傳統的AI訓練往往只關注最終結果——答案對了就是好，答案錯了就是壞。但這種簡單的獎勵機制在復雜任務中會導致AI學會"取巧"行為。就像學生可能通過猜測或作弊得到正確答案，但實際上沒有真正理解知識一樣。

CodeVision的獎勵設計采用了"過程導向"的思路。系統不僅要求AI得出正確答案，還要求它使用恰當的工具和合理的步驟。這就像一個好老師不僅看學生的答案，還要看學生的解題過程，確保學生真正掌握了解題方法。

"必需工具獎勵"機制特別有趣。當一張圖片確實需要旋轉時，AI必須使用旋轉工具才能獲得這部分獎勵，即使它可能通過其他方式勉強得出答案。這種設計強化了AI對任務本質的理解，避免了投機取巧的行為。

更巧妙的是"建議工具發現"機制。系統會自動分析哪些額外工具確實有助于提高成功率，然后獎勵那些使用這些有益工具的解決方案。這種機制鼓勵AI主動探索和創新，而不是僅僅依賴預定義的要求。這就像鼓勵學生不僅要完成基本作業，還要主動學習額外的有用技能。

約束懲罰機制則起到了"規則意識"培養的作用。當AI為了獲得獎勵而進行無意義的重復操作，或者在不需要時強行使用工具時，系統會給予相應懲罰。這種設計確保AI學習到的是真正有效的策略，而不是鉆系統漏洞的技巧。

研究團隊還發現，不同類型的任務需要不同的獎勵權重。對于需要精確裁剪的任務，IoU（交并比）獎勵的權重會更高；對于方向糾正任務，工具使用的獎勵會更重要。這種動態調整體現了獎勵設計的精細化程度。

十、技術演進的更大圖景：從工具使用到通用智能

CodeVision框架的意義不僅僅在于解決了圖像處理中的具體問題，更在于它為AI系統的發展開辟了一個新方向。這個方向可以概括為"從被動感知到主動操作"的轉變。

在AI發展的早期階段，系統主要扮演"觀察者"的角色——接收輸入，處理信息，給出輸出。就像一個只能看書但不能寫字的學者，這樣的AI雖然能夠理解很多內容，但在面對需要動手解決的問題時就顯得力不從心。

CodeVision代表的是AI向"操作者"角色的進化。系統不再滿足于被動接受輸入，而是能夠主動改善輸入質量，優化工作環境。這種能力的獲得意味著AI開始具備了類似人類的"元認知"能力——不僅知道如何思考，還知道如何創造更好的思考條件。

這種演進的影響是深遠的。在自然語言處理領域，類似的思路已經開始出現，AI系統開始學會搜索信息、調用計算器、運行代碼來增強自己的推理能力。在多模態領域，CodeVision展示了如何讓AI獲得視覺工具使用能力。未來，我們可以預見AI將具備更多維度的工具使用能力，包括音頻處理、3D建模、科學計算等。

從更宏觀的角度來看，工具使用能力的發展標志著AI向通用人工智能邁出了重要一步。人類智能的一個關鍵特征就是工具的創造和使用，從簡單的石器到復雜的計算機，工具使用能力一直是人類文明進步的重要推動力。AI系統開始掌握工具使用能力，意味著它們開始具備了人類智能的一個核心特征。

CodeVision框架還暗示了AI系統架構的未來發展方向。傳統的AI系統往往是單一的、封閉的，而具備工具使用能力的AI系統則是開放的、可擴展的。這種系統可以通過整合新工具來不斷擴展自己的能力邊界，而不需要從頭重新訓練。

這種開放性和可擴展性對AI的實際部署具有重要意義。在快速變化的技術環境中，固定能力的AI系統很容易過時，而具備工具使用能力的系統則能夠通過整合新工具來保持競爭力。這就像智能手機通過安裝新應用來獲得新功能一樣，AI系統也將通過學習使用新工具來持續進化。

當然，這種發展也帶來了新的挑戰。如何確保AI系統安全地使用工具？如何防止惡意工具的使用？如何處理工具之間的沖突和兼容性問題？這些都是需要深入研究和解決的重要問題。

CodeVision框架為這些挑戰提供了一些初步的解決思路。通過代碼作為中介接口，系統可以在受控環境中執行工具操作，提供了安全性保障。通過精心設計的獎勵機制，系統學會了合理和高效的工具使用方式，避免了濫用和誤用。

說到底，CodeVision代表的不僅僅是一個技術框架，更是AI發展理念的一次重要轉變。它告訴我們，未來的AI系統不應該是封閉的黑盒子，而應該是開放的、能夠與環境互動的智能體。這種AI將不僅僅是信息處理器，更將成為能夠改造和優化自身工作環境的主動參與者。

這項研究表明，當我們的圖像識別AI學會了像人類一樣"動手"處理圖片后，它們在處理現實世界復雜視覺任務時的能力將得到質的提升。隨著技術的不斷發展和完善，我們有理由期待更加智能、靈活和實用的AI助手出現在我們的日常生活中，真正實現人工智能與人類需求的無縫對接。

Q&A

Q1：CodeVision跟普通的AI圖像識別有什么不同？

A：普通AI只能"看"圖片然后給出答案，就像一個只能讀書不能動手的學生。而CodeVision教會了AI"動手"處理圖片——當發現圖片角度不對時會自動旋轉，文字太小時會自動放大，就像人類遇到問題時會本能地調整一樣。這讓AI在處理現實中那些不完美的圖片時表現更好。

Q2：這個技術能解決什么實際問題？

A：主要解決現實中圖片質量不完美的問題。比如你掃描文檔時角度歪了，或者拍照時文字太小看不清，普通AI的識別準確率會大幅下降甚至降低80%。CodeVision通過讓AI自動糾正這些問題，大大提高了在真實場景中的實用性，特別適用于文檔處理、教育批改、醫療影像等領域。

Q3：CodeVision是怎么學會使用工具的？

A：研究團隊采用了兩階段訓練法。第一階段像教小學生一樣，用5000個精心設計的例子教AI基礎的工具使用方法。第二階段采用強化學習，設計了復雜的獎勵機制，不僅獎勵正確答案，還獎勵使用恰當工具的過程，同時懲罰取巧行為。這樣AI就學會了既要答對，又要方法對。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.