2023年4月的一天,印度的數(shù)字藝術(shù)家戈庫爾·皮萊(Gokul Pillai),在社交網(wǎng)站上發(fā)布的“貧民窟的億萬富翁”的人工智能(AI)畫作。特朗普、馬斯克和比爾·蓋茨等億萬富豪們變成了貧民窟居民,衣衫襤褸,蓬頭垢面,與周圍環(huán)境毫無違和感,看起來非常真實。戈庫爾·皮萊是從電影《貧民窟的百萬富翁》獲得靈感,他用Midjourney工具制作了圖像,并在Photoshop軟件里進行調(diào)整,前后花了兩天的時間。
![]()
這兩年,逼真,真實,或者說像真的一樣,成為了AI作畫生圖是否成功的一個重要標準。就像人會有記憶混亂和錯覺的時候,人工智能生成圖片時,想要一張愛因斯坦的,結(jié)果臉是濮存昕的,這就離了個大譜。
過去24個月大模型基本消除了幻覺,一個解決方案浮出水面
準確性是評估AI生成圖像效果的首要標準。但人有錯覺,AI也有幻覺。用一個開源模型生成北京天壇的圖,游覽過的人甚至古建筑專家看出了問題,原來真正的天壇是3層建筑,卻生成了4層。
![]()
這種“一眼假”是怎么回事呢?在大模型進化過程中,人類世界很快解決了文生文的生成式人工智能迭代,但是文生圖遇到了AI幻覺問題,生成的圖片給人明顯不夠逼真的感覺。檢索增強生成,也就是RAG(Retrieval-augmented Generation)技術(shù),是業(yè)內(nèi)解決大模型幻覺的一種有效方法,它是結(jié)合檢索和生成的技術(shù)方法,可以提升生成內(nèi)容的可靠性和準確性。
很多基于大語言模型的文生圖系統(tǒng),目前生成的圖片還不夠真實,甚至不符合邏輯。這很大程度上限制了多模態(tài)大模型的規(guī)模化應(yīng)用。2024年年初,百度決定解決圖像生成的幻覺問題,自研了文心iRAG技術(shù)。
文心iRAG技術(shù)作為解決方案浮出水面,百度還確實有一點優(yōu)勢。那就是百度搜索收錄了海量特定事物的可信圖片資源。大模型的生成能力與這個“外掛知識庫”相結(jié)合,iRAG就可以做到在生成特定物品、特定人物以及特定人物與任意背景結(jié)合的圖像時,提高生成圖像的準確率,減少幻覺無限接近真實感。現(xiàn)在,中國有模型可以代表人工智能世界說,過去24個月大模型基本消除了幻覺。
文心iRAG,專為去AI味兒
在文心iRAG技術(shù)的支持下,大模型生成一套“讓愛因斯坦環(huán)游世界”的圖片,悉尼歌劇院、巨石陣、萬里長城、鳥巢、南極……和愛因斯坦這個特定人物,生成融合的非常逼真。盡管鳥巢是愛因斯坦去世后才有的建筑,但是文心iRAG技術(shù)處理得沒有違和感。
![]()
將百度搜索的億級圖片資源跟強大的基礎(chǔ)模型能力相結(jié)合,生成各種超真實的圖片,整體效果遠遠超過文生圖的原生系統(tǒng),去掉了那一股AI味兒。這里面就包括了特定人物精準生成的選項。用文心iRAG,生成一張奧黛麗赫本寫書法的圖,會發(fā)現(xiàn)連赫本身上的衣服都很中式,顏色與書法藝術(shù)、環(huán)境都很搭,簡直就像真的一樣。
![]()
2023年初,人們剛開始了解ChatGPT或者文心一言時,最大的擔(dān)憂就是模型的幻覺,很多人無法相信AI給出的答案。現(xiàn)在這個問題已經(jīng)基本得到解決。今天,跟文心大模型交流,有了iRAG技術(shù),可以很大程度或者基本相信它給出的答案。特別是生成式的圖片,非常靠譜的滿足了用戶的文本需求,這是人類社會人工智能進化的一個巨大的標志。
“超級有用”的行業(yè)應(yīng)用降本增效,解放人類生產(chǎn)力
隨著iRAG技術(shù)的日益成熟和穩(wěn)定,AI生成圖片的可用性大大提高,那么iRAG技術(shù)的最大價值在哪里呢?答案清晰的:落地應(yīng)用。在某個品牌宣傳場景,以前拍一組海報動輒需要一二十萬,甚至大幾十萬,但是現(xiàn)在使用iRAG技術(shù)的大模型,創(chuàng)作的成本接近于零。廣告行業(yè)、品牌傳播、影視娛樂、公司文化……一系列的行業(yè),會在iRAG技術(shù)的加持下優(yōu)化作品和提升效率。
![]()
如果要總結(jié)iRAG的優(yōu)點,那就主要是四項:無幻覺、超真實、沒成本,立等可取。印度的數(shù)字藝術(shù)家戈庫爾·皮萊創(chuàng)作看起來逼真的AI畫作需要兩天,文心iRAG只需要幾十秒。而在地球上,這才過去了18個月,人類讓大模型技術(shù)再次進化。
在李彥宏看來,中國AI的發(fā)展特色是應(yīng)用驅(qū)動。這也是中國與全球人工智能行業(yè)市場最明顯的區(qū)別。中國市場上有數(shù)百種基礎(chǔ)大模型,但人們更關(guān)心產(chǎn)品與市場的契合度(PMF),更關(guān)心哪些應(yīng)用將從大模型中獲益,許多初創(chuàng)公司都在研究如何運用大模型能力。
實用主義的視野下,這也是解放了人類生產(chǎn)力的iRAG技術(shù)會產(chǎn)生的貢獻。人類社會就是在一直進行降本增效的各種探索與創(chuàng)新,從未間斷。iRAG技術(shù)推動“超級有用”的行業(yè)應(yīng)用出現(xiàn),AI就會更充分更好的為人類所利用。這應(yīng)該是未來世界科學(xué)技術(shù)的一條應(yīng)用正道。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.