通信世界網消息(CWW)生成式AI與智能手機的深度融合引發了多模態交互場景的爆發,導致終端功能檢測的復雜性與狀態不確定性激增[1]。傳統腳本回放方案難以應對動態彈窗、跨系統協同等復雜邏輯,導致約30%的場景仍需要人工干預,測試效率與一致性瓶頸凸顯。
與此同時,智能流程自動化(Intelligent Process Automation,IPA)融合計算機視覺、自然語言處理等技術,在財務、審計等領域已展現出處理非結構化數據與支持復雜決策的能力[2]。然而,目前IPA研究對具備多模態感知、實時交互與跨系統協同特征的手機測試場景關注不足[3]。本文首次系統性探索將IPA框架引入手機檢測領域,旨在實現“智能識別—動態決策—自動執行”的閉環。
感知層:集成YOLOv11(一種目標檢測算法)與OCR(光學字符識別技術),實現PC與移動端彈窗的統一目標檢測與文本識別。
決策層:通過關鍵語義提取與模糊匹配,將測試需求映射為原子化動作序列,以提升腳本在動態環境中的穩健性。
執行層:結合ADB(安卓調試橋)與視覺驅動RPA(機器人流程自動化),實現跨系統端到端協同控制。
實踐表明,在無線緊急警報(WEA)等復雜場景下,該方法使測試效率提升超50%,并支持多終端一致性無人值守測試,為AI時代智能終端的自動化檢測提供了高效的技術方案。
1 相關領域現狀
IPA作為RPA智能化演進的成果,通過集成機器學習、計算機視覺(CV)與自然語言處理(NLP)技術,實現了從“基于規則”向“數據驅動決策”的范式轉型[2]。雖然在金融、制造及網絡運維等領域,IPA處理非結構化數據與復雜業務的能力得到驗證[1,2],但在手機測試這類界面變更頻繁、數據形態復雜,以及流程因操作反饋或系統狀態不同而存在多種可能路徑的場景中應用尚淺。
在技術并行層面,基于YOLO與OCR的視覺感知技術有效提升了移動端UI檢測的魯棒性[1,4];與此同時,基于大模型構建、以Trident為代表的多模態框架,在GUI自動化探索方面取得了顯著進展[5]。然而,現有研究仍存在以下局限性:首先是協同缺失,多聚焦單端App或特定目標識別,缺乏PC測試平臺與移動終端之間的跨系統協同控制;其次是映射斷層,難以實現復雜測試規程與彈窗語義之間的深度映射;最后是閉環能力不足,尚未形成系統性的端到端自動化流程。
綜上所述,雖然IPA的有效性及多模態技術的感知能力已得到驗證[1,2,5],但將IPA的“感知—決策—執行”閉環能力系統性引入手機檢測領域的研究仍是空白。本文以此為切入點,旨在探索能夠應對高復雜度多模態交互的智能化測試方案。
2 多模態IPA手機檢測平臺架構與模塊設計
本文在IPA思路的基礎上,構建了面向手機檢測的多模態動態閉環架構,整體由感知層、決策層和執行層三部分組成,如圖1所示。系統通過“智能識別—動態決策—自動執行”的閉環控制,將傳統腳本驅動的靜態自動化測試升級為可應對復雜場景的智能自動化測試。
![]()
圖1 多模態IPA手機檢測平臺架構
2.1感知模塊設計
感知模塊作為IPA平臺的底層支撐,可實現跨終端界面的高魯棒性統一感知。
彈窗目標檢測:為適配測試過程中頻繁出現的各類彈窗提示,本文利用 YOLOv11構建檢測模型,針對PC與手機端異構界面(不同分辨率及風格)進行實時掃描,實現彈窗區域的精確回歸與定位,為后續分析鎖定感興趣區(ROI)。
文本與圖標語義解析:在獲得彈窗區域后,集成PaddleOCR并融合空間拓撲特征,對ROI內的文本與功能圖標進行分塊提取。
2.2 決策模塊設計
決策模塊的任務是將感知結果映射為具體測試任務和操作意圖。該模塊首先將復雜的測試規程解構為文本校驗、圖標匹配及屏幕交互等原子化任務。針對異構系統版本差異、多語言環境下提示語的不規范,該模塊引入了基于萊文斯坦距離(Levenshtein Distance)的模糊匹配機制,通過度量感知文本與預期規程之間的語義相似度,實現操作意圖的精準判定。這種機制有效解決了傳統腳本依賴固定字符匹配的問題,顯著增強了系統在語義表述差異場景下的自適應性與決策魯棒性,實現了復雜測試路徑的閉環。
2.3 執行模塊與原子動作庫
執行模塊旨在將高層決策意圖轉化為針對終端及環境的具體物理操作,是實現端到端自動化的關鍵一環。
原子動作庫設計:針對屏幕交互、系統設置(如飛行模式、時鐘同步)及多模態通信等底層規程,構建標準化原子動作集。通過將復雜操作解構為參數化、可調用的獨立函數接口,確保執行層對異構終端的高效驅動與高度適配。
低代碼封裝與流程編排:遵循IPA架構理念,將原子動作進一步封裝為高階邏輯組件。系統可依據決策模塊輸出的指令序列,通過動作庫的自動化組合與流程編排,實現測試路徑的動態構建。
3 IPA手機檢測方法的實現細節
基于IPA架構的多模態測試平臺以無線緊急警報場景為牽引,實現了“用例管理—界面感知—決策路由—閉環執行”的自動化流水線。
3.1 彈窗檢測模型設計與訓練
為兼顧檢測精度與實時性,感知層采用輕量化YOLOv11n網絡,采集并人工標注涵蓋PC與移動端的1000個異構彈窗樣本,在RTX 3060硬件環境下進行300輪次迭代(Batch Size=64),模型實現了對多分辨率、多風格彈窗區域的精準回歸。
3.2 文字識別與關鍵語義提取算法
語義解析的準確性直接影響決策邏輯的穩健性,針對YOLO返回的檢測框,通過對彈窗內關鍵元素(如警告文本、交互按鈕)的空間分布統計,引入比例分割算法進行區域預處理。該算法有效解決了異構界面下的內容偏移問題,配合OCR顯著提升了關鍵語義的識別精度,為后續決策路由提供了高質量的結構化數據支撐。
將目標區域分割成上、中、下三部分之后(如圖2所示),即可對內容進行分塊提取。其中,中間區域的內容主要用于提取操作的關鍵提示詞;下面區域的內容主要用于提取按鈕所在的位置,以便后續的點擊操作。所有提取的信息均須進行統一的大小寫格式轉換,以免因格式差異導致匹配錯誤,進而影響執行準確率。
![]()
圖2目標區域分割結果
3.3 基于萊文斯坦距離的模糊匹配策略
針對OCR識別噪聲及多版本語境下的“語義漂移”問題,本文引入萊文斯坦距離構建模糊匹配機制,即通過計算感知文本與標準詞條間的歸一化相似度,實現測試意圖的語義對齊。該策略彌補了精確匹配規則的脆弱性,顯著增強了系統在非結構化提示語環境下的決策魯棒性。
3.4原子動作庫的設計與執行流程實現
原子動作庫將復雜規程解構為ADB指令、內容校驗及點擊執行子庫,通過封裝ADB底層驅動,實現主機對終端狀態切換(如飛行模式、時鐘同步)及多模態交互的自主控制。該設計實現了業務邏輯與底層驅動的深度解耦,顯著提升了測試執行效能與系統的跨平臺適配力。
4實驗設計與效果驗證
本研究選取10個典型用例,構建PC與移動端耦合的測試環境。通過50輪蒙特卡羅實驗,從執行效能、跨終端穩健性及故障檢出率三個維度,量化對比IPA與人工測試的性能差異,系統驗證了該方案的工程可行性與可靠性。
由圖3可知,IPA系統能夠快速向手機端發送相關指令,自動完成測試信息比對,全程無需人工干預,相比人工操作測試效率提升了約50%。此外,IPA系統還可在夜間自動執行測試任務,因此在測試效率上具有顯著優勢。
![]()
圖3 終端測試工作時間對比
表1為不同被測終端測試效果對比,表2為部分測試用例執行結果清單。綜合分析結果表明,該系統在異構終端測試中表現出優異的泛化性。故障注入實驗證實,系統能精準識別所有異常樣本,具備高可靠的錯誤檢出能力與決策穩健性,實現了復雜規程下的閉環自動化檢測。
表1不同被測終端測試效果對比
![]()
表2 部分測試用例執行結果清單
![]()
5 結束語
本文旨在探索構建集成人工智能視覺、原子動作庫技術的IPA自動化測試平臺,并在實際測試環境中檢驗了所提方法的有效性和可靠性。未來,筆者將根據實際測試需求,進一步完善和優化測試平臺功能,并探索大模型等先進人工智能技術在手機測試自動化領域的應用。
參考文獻
[1] 周映. 基于RPA技術的網絡安全運營自動化實踐應用研究[J]. 電信科學, 2024, 40(7): 164-174.
[2] 劉勤. 智能財務之流程自動化變革:從RPA到IPA. 財會月刊[J], 2024(9): 33-40.
[3] 霍麗霞. 基于圖像內容識別的移動應用智能檢測系統[J]. 警察技術, 2025(1): 61-64.
[4] Anilkumar C, Rani M S, Venkatesh B, et al. Automated License Plate Recognition for Non-Helmeted Motor Riders Using YOLO and OCR[J]. Journal of Mobile Multimedia, 2024(9): 239-265.
[5] Liu Z, Li C, Chen C Y, et al. Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model[EB/OL]. (2024-07-03) [2025-11-20]. https://arxiv.org/abs/2407.03037.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.