Leapwork 研究顯示，測試中的 AI 仍然依賴于可靠性，而不僅僅是創(chuàng)新

2026-03-13 11:14:14　來源: InfoQ

北京舉報

分享至

作者 | Craig Risi

譯者 | 張衛(wèi)濱

Leapwork 近期發(fā)布的最新研究顯示，盡管人們對 AI 驅(qū)動的軟件測試信心快速增長，但準(zhǔn)確性、穩(wěn)定性和持續(xù)的人工投入，仍是團(tuán)隊愿意在多大程度上信任自動化的決定性因素。這項研究基于全球 300 多名軟件工程師、QA 負(fù)責(zé)人和 IT 決策者的反饋，結(jié)果表明，企業(yè)將 AI 視為未來測試的核心，但前提是 AI 能夠提供可靠、可維護(hù)的結(jié)果。

調(diào)查顯示，88% 的受訪者表示 AI 已經(jīng)成為其組織測試戰(zhàn)略的優(yōu)先事項，近半數(shù)將其列為關(guān)鍵或高優(yōu)先級事項。樂觀情緒同樣高漲，80% 的人相信未來兩年 AI 將對測試產(chǎn)生積極影響。但應(yīng)用仍不均衡，盡管 65% 的人表示已在部分測試活動中使用或探索 AI，但目前僅有 12.6% 在關(guān)鍵測試工作流中全面應(yīng)用 AI，反映出謹(jǐn)慎、漸進(jìn)式的落地態(tài)度。

熱情與信心之間的差距，主要源于對準(zhǔn)確性和測試穩(wěn)定性的擔(dān)憂。超過半數(shù)（54%）的受訪者表示，對質(zhì)量和可靠性的顧慮阻礙了 AI 的更廣泛應(yīng)用。團(tuán)隊提到的最大挑戰(zhàn)包括，測試用例脆弱、難以跨系統(tǒng)實現(xiàn)端到端的流程自動化，以及維護(hù)更新測試所需的時間。事實上，45% 的人表示，在關(guān)鍵系統(tǒng)變更后更新測試需要三天或更久，這拖慢了發(fā)布周期，并削弱了對自動化的信任。

人工投入同樣在持續(xù)限制進(jìn)展。目前平均只有 41% 的測試實現(xiàn)了自動化。71% 的受訪者認(rèn)為測試用例編寫是最大的瓶頸，其次是測試維護(hù)（56%）。超過半數(shù)的受訪者（54%）表示時間不足是采用或改進(jìn)測試自動化的主要障礙，這也解釋了為何許多團(tuán)隊在部署 AI 時仍保持謹(jǐn)慎。

Leapwork 首席執(zhí)行官 Kenneth Ziegler 表示，“測試團(tuán)隊是否會在工作中運(yùn)用智能體的能力，這已經(jīng)不再是問題。問題在于他們能多有信心、多可預(yù)測地依賴它。我們的研究表明，團(tuán)隊希望 AI 幫助他們更快地推進(jìn)、擴(kuò)大覆蓋范圍并減少工作量，但準(zhǔn)確性仍是基本要求。真正的機(jī)會在于將 AI 與穩(wěn)定的自動化結(jié)合應(yīng)用，讓團(tuán)隊在不犧牲結(jié)果可信度的前提下獲得速度與規(guī)模。”

研究結(jié)果表明，企業(yè)將 AI 與成熟、穩(wěn)健的自動化底座結(jié)合，而非將其視為獨立的解決方案，才能實現(xiàn)最大的價值。隨著系統(tǒng)日益復(fù)雜、變更愈發(fā)頻繁，在創(chuàng)新與可靠性之間取得平衡的團(tuán)隊，將更有信心規(guī)模化落地 AI 驅(qū)動的測試。

Leapwork 的調(diào)查與行業(yè)內(nèi)多項研究結(jié)論一致：

Puppet 很具影響力的 DevOps 調(diào)查顯示，高績效團(tuán)隊在測試自動化、穩(wěn)定性和快速反饋環(huán)上投入顯著更多，而 CI/CD 流水線不穩(wěn)定的團(tuán)隊交付速度更慢、對自動化信心更低。在其 2024 年 DevOps 現(xiàn)狀的報告中，Puppet 指出，擁有成熟自動化測試實踐的團(tuán)隊在可靠性、交付周期和部署頻率等方面表現(xiàn)更佳，但前提是測試可靠且易于維護(hù)。不可靠或不穩(wěn)定的測試被列為自動化交付流程的首要阻礙之一。

GitLab 年度調(diào)研收集了數(shù)千名開發(fā)者與 DevOps 從業(yè)者的反饋，發(fā)現(xiàn)超過 70% 的受訪者認(rèn)為 AI 將重塑軟件開發(fā)工作流，包括測試與安全。但與 Leapwork 的發(fā)現(xiàn)類似，目前只有少數(shù)人在生產(chǎn)工作流中深度使用 AI 工具。許多受訪者對可信度、可解釋性以及與現(xiàn)有工具鏈的集成表示擔(dān)憂，尤其是在受監(jiān)管或企業(yè)級場景中。

Tricentis 全球質(zhì)量報告對全球企業(yè)開展調(diào)研后發(fā)現(xiàn)，各類測試（單元、功能、性能等）的自動化覆蓋率平均在 30%–50% 之間，與 Leapwork 約 41% 的結(jié)果相符。受訪者再次將維護(hù)成本、測試不穩(wěn)定、缺乏熟練人才列為進(jìn)一步提升的主要制約因素。報告還指出一個新興趨勢：AI 輔助測試生成工具正受到關(guān)注，但由于風(fēng)險與準(zhǔn)確性顧慮，許多團(tuán)隊不愿完全取代人工驗證。

DORA 研究（通常通過 Google Cloud 發(fā)布）雖然并非只聚焦 AI，但其結(jié)果強(qiáng)調(diào)，擁有成熟的測試自動化、可觀測性和故障恢復(fù)實踐的團(tuán)隊，在部署頻率、變更交付周期等關(guān)鍵指標(biāo)上的表現(xiàn)要優(yōu)于同行。在近期版本中，DORA 調(diào)查加入了 AI 工具相關(guān)的問題。反饋顯示，在 DevOps 工具中采用 AI 功能的團(tuán)隊，同樣在可觀測性和自動化驗證上投入巨大，這表明 AI 在堅實的自動化基礎(chǔ)之上效果最佳。

IDC 發(fā)布的更廣泛企業(yè) AI 調(diào)查顯示，盡管 60%–70% 的公司正在各業(yè)務(wù)部門試點 AI 場景，但僅有 20%–30% 將 AI 部署為穩(wěn)定、生產(chǎn)級的應(yīng)用。被問及原因時，受訪者提到了治理風(fēng)險、人才短缺和運(yùn)營復(fù)雜度，這與 Leapwork 受訪者對測試工具采用持謹(jǐn)慎態(tài)度的原因相似。

查看英文原文：

Leapwork Research Shows Why AI in Testing Still Depends on Reliability, Not Just Innovation(https://www.infoq.com/news/2026/02/leapwork-ai-testing/)

聲明：本文為 InfoQ 翻譯，未經(jīng)許可禁止轉(zhuǎn)載。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.