![]()
智東西
作者 王涵
編輯 漠影
最近,圖像模型打得可謂是如火如荼。
OpenAI釋出新一代圖像模型GPT Image 1.5,劍指谷歌Nano Banana Pro。國產大模型廠商也紛紛推出自己的新一代圖像模型,生成效果一個比一個驚艷。
就拿谷歌的Nano Banana Pro來舉例,你能分辨出以下圖片哪張是AI生成的,哪張是現實的圖片嗎?
![]()
▲左為Nano Banana Pro生成,右為實景圖
除了生成圖畫,作為打工人的我們也開始嘗試在工作中使用AI工具生成PPT、海報等,試圖減輕工作負擔,但AI生成的PPT或海報很難進行二次編輯。一是AI生圖模型通常都有付費額度限制,二則是受制于AI生圖技術本身。
但有這樣一個應用,可以直接將AI生成的圖片轉換成PPT的形式,將文字、圖標、背景等元素,分離成一個個可挪動的圖層和可編輯的文本框。而這個應用我們經常會用到卻時常忽視,那就是WPS。
智東西上手體驗了WPS AIPPT的圖片轉PPT功能,整體上,圖片轉換為PPT的過程較為流暢,文本框可以隨意拖動,圖標元素也可以移動和放大縮小。文本和圖標識別較為準確,會有偶爾漏掉一些圖標和文字的情況,但整體上已經十分可用。
一、為什么AI生成的圖片不能改?WPS:這個難題,我們早就破解了
在體驗WPS功能之前,我們要先理清兩個問題:為什么文生圖模型所生成的圖片無法編輯?為什么WPS卻可以做到?
1、AI其實是在“畫字”
文生圖模型本質上是一個“圖像分布建模器”。它通過學習海量“圖像-文本”配對數據,建立從文本語義到圖像像素的映射。其目標是生成視覺上逼真或合理的像素陣列,而非理解并生成結構化的、可編輯的符號信息。
簡單來說,目前的文生圖模型生成的文字往往是“像素”而非“矢量字符”。文生圖模型生成文字不是在寫字,而是在“畫字”,而這就導致圖像中的文字無法二次編輯,但在辦公領域,最重要的就是“可編輯”。
2、WPS結合OCR和AI,打破不可編輯“魔咒”
在AI普及之前,有一種格式的文件也是不可編輯的——PDF。跨格式轉換對于現在來說并不是新鮮功能,但早期的辦公軟件對PDF文件幾乎只能“打印”或“只讀”。
WPS投入大量資源研發了自主的PDF渲染引擎,要知道,實現“Word轉PDF”(保真打印)很容易,但實現“PDF轉Word/PPT”(反向解析)非常難。通過多年在版面分析、字體還原、表格識別等方面的算法優化,WPS讓PDF的可編輯不再是難題。
如今,WPS的“圖片轉PPT”、“掃描件轉可編輯文檔”等功能,已經不僅僅是跨格式轉換,而是結合了OCR(光學字符識別)和AI智能排版的高級能力。
11月,金山辦公與華中科技大學合作自研的統一視覺-語言文檔解析框架算法MonkeyOCR v1.5,在全能多模態文檔解析基準OmniDocBench v1.5中拿下93.01分的成績,獲得綜合性能全球第一。特別是在表格解析方面,該算法的表格結構還原的準確率高達95%。
![]()
正是基于在OCR技術、文檔解析和智能排版領域沉淀的多年技術壁壘,WPS將這套成熟的能力遷移至AI生成圖片的編輯場景中,順理成章地破解了“AI生圖不可編輯”的行業痛點。
二、把文字圖片分離,還能編輯和換字體,WPS直擊文生圖模型痛點
話不多說,我們直接來看看WPS的效果。
首先我們讓Nano Banana Pro生成一張中國剪紙模板的北京今日天氣預報頁面,生成圖片如下:
![]()
而后,我們打開WPS AIPPT官網,找到圖片轉PPT功能專區,將剛剛生成的圖片上傳。
![]()
![]()
僅幾秒鐘的時間,WPS就完成了對圖片的識別和對圖層的拆解,我們點擊在線編輯,即可跳轉到WPS里的PPT編輯頁面,對剛剛轉換成功的圖片進行編輯。
可以看到,轉換為PPT后,頁面中的大部分文字和圖標元素都可以自由拖動和修改,并且頁面的風格元素與原圖保持一致,不用擔心會出現風格“魔改”等問題。
![]()
再來試試英文頁面,我們用Nano Banana Pro生成了一張制作豆蔻奶茶的流程圖,看看WPS的轉換效果如何:
![]()
原圖中的圖表和文字都比較多且比較密集,從生成效果來看,WPS AIPPT可以很清晰地將文字和底層圖片分離開,并且每一小段文字都形成了獨立的編輯框可以單獨拖動。
但仔細看,有一些原圖中較為模糊的文字并沒有被識別出來,依舊停留在了底圖上。
![]()
那如果不是非常規字體呢,WPS還可以識別出來嗎?我們用Nano Banana Pro生成了一張手繪漫畫分鏡:
![]()
從生成結果可以看出,WPS能夠十分清晰地識別出手繪字體的文字,四個分鏡畫面也可以分別拖動,生成效果較為穩定,可以大大縮短工作流程,提高工作效率。
同樣的,用手機拍下來的PPT也可以輕松獲取。就比如這張世界人工智能大會上對“AI教父”辛頓教授的介紹頁面,我們可以用WPS將其轉為可編輯的PPT,不用再到處找類似的模版了。
![]()
![]()
三、不止做AI搭子,WPS其實是“原生Office AI”
WPS AI 的技術理念并非簡單地將AI功能嵌入辦公軟件,而是致力于打造一種全新的“原生Office AI”體驗,其核心在于Agentic Software(智能體軟件)的概念。
WPS AI 不滿足于傳統的“問一句答一句”的被動響應模式,它的核心能力在于自主規劃。當用戶提出一個模糊需求時,AI會像人一樣主動思考,自動進行“任務拆解-執行規劃-反思修正”全流程。
如果說自主規劃是智能體的“大腦”,那么深度工具調用能力就是WPS AI的“雙手”。憑借其37年的技術積累,金山辦公將辦公軟件中最核心、最高頻的操作,比如字號調整、表格對齊、文本框插入、樣式應用等,抽象為AI可精準理解的工具集,實現了辦公軟件核心功能的無損調用。
這讓AI不僅能“想”,還能“做”。它能直接在文檔內部進行精確操作,確保格式完美保留,沒有亂碼或隱藏標簽,實現雙向無損互通,這正是通用大模型所不具備的“動手能力”。
WPS AI打破了AI操作的“黑箱”,將執行過程全面透明化、可視化。用戶在下達指令后,能實時看到AI的思考路徑,用戶可以在AI思考的任意環節介入糾正,掌控權始終在用戶手中。
作為一個辦公軟件,它將AI能力原生嵌入Office全流程,用戶無需在多個工具間切換搬運內容,可在熟悉的辦公環境中完成人與AI的協作。通過接管“Dirty work”,WPS AI讓用戶能專注于內容本身、邏輯思考、審美判斷和最終決策。
可以說,WPS AI的終極目標不是炫技或生成內容,而是成為一個能真正“交付結果”的智能體。
結語:WPS給AI辦公領域提供范例
AI落地發展到現在,僅僅是“AI+”已經不能滿足市場的呼喚。如何才能做到“AI原生”是當下各類應用都在思考的問題。
當前AI辦公賽道已形成千億元規模的市場空間,國內外廠商如谷歌微軟等紛紛布局,從單點工具突破到全場景套件構建,競爭焦點正轉向技術架構與業務流程的融合。
WPS通過數十年的技術積累和Office辦公軟件的技術基礎,將AI原生融合到工作流中,簡化了用戶使用AI的流程、削弱了割裂感,真正做到了原生Office AI。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.