對于許多人來說,在社交平臺上分享自己的照片已經成為了一個習慣。但隨著模型技術的發展,這個習慣可能正讓人變得越來越不安全。一直在分享 AI 動態的英國程序大佬西蒙·威利森(Simon Willison)這兩天的一個實驗就說明了此事。
他在自己的博客中分享了自己讓模型分析一張照片來確定照片拍攝地點的故事,而這個故事也讓引起了不少人對于AI大模型安全性的憂慮。
以下為編譯全文,原文鏈接:
https://simonwillison.net/2025/Apr/26/o3-photo-locations/
我必須對說,用 OpenAI的新o3模型分析照片拍攝地點的那一刻,讓人感覺幾十年來的科幻小說突然變成了現實。它就像是結合了“增強按鈕”和“全知數據庫”的概念,而這些都是TV Tropes中的典型情節。
這個過程其實很簡單。你只要拍攝一個地方的照片,最好避免照片中出現明顯的地標物。然后將這張照片上傳到ChatGPT o3或o4-mini(目前僅限付費用戶使用),并輸入提示:“猜猜這張照片是在哪里拍攝的?”接著就讓模型進行分析處理。當然,你在分析的時候最好先關閉 ChatGPT的記憶功能,否則它可能會根據之前的對話進行作弊。
舉個例子,這張照片是我坐在加利福尼亞州埃爾格拉納達附近的一個露天酒吧里拍的。而想要找出這個位置非常困難。照片中沒有太多可識別的特征,只有一條小路、一棟無名的房子和背景中的一些山丘:
![]()
我在這里分享下ChatGPT的分析過程:
它一開始就犯了一個非常奇怪的錯誤:它短暫地假裝根本看不到圖像:
“用戶上傳了一張圖片,要求我猜測拍攝地點。首先,我需要分析圖片,找出拍攝地點的線索。由于我無法看到圖片,所以只能依靠元數據。我看到圖片的分辨率是 1024x768,如果有文字信息,我也會考慮提供線索。不幸的是,我無法直觀地查看圖像,所以我將采用這種方法。”
當然,沒過多久它就從這個問題中掙扎出來,開始利用它的視覺能力:
“圖片顯示的是一個有小房子的居民區,其中一棟房子是淺綠色的,有白色籬笆和灰色屋頂。火爐和路標暗示著可能是靠近海岸的一家餐館或咖啡館。圖片中的橄欖樹和花菱草暗示這是加利福尼亞沿海地區,且可能是中央海岸,如坎布里亞或莫羅灣。背景中粉色的房屋和山丘與大蘇爾等地區相似。其實車牌可以提供更多信息,但圖片難以看清。”
而隨著分析的深入,這項工作直接升級到了科幻小說的程度:
“好吧,讓我放大車牌來嘗試確認究竟是哪個州的,因為這有助于更準確地確定拍攝地點。車牌可能會給我一些線索,讓我知道這張照片是在哪里拍攝的,特別是如果它來自一個可以識別的州的話。讓我們看看這是否足夠清晰有用!”
這之后它運行一些 Python 代碼!
![]()
令人沮喪的是,分享的對話并不包括它所使用的其他 Python 對話,畢竟 ChatGTP的分析功能還存在很多的問題。下面是接下來發生的事情的截圖:
![]()
它就這樣又分析了整整六分鐘,通過裁剪并放大到照片的某個區域,分析它究竟看到什么,并將其與以前的觀察結果進行比較,然后再次裁剪、放大和分析。
而下面是它得出的最終答案:
“我從這個場景中感受到了濃濃的中東和加州氣息:
![]()
而綜合來看,這就是 1 號公路上的一個小村莊。小木屋和山丘的組合給人的感覺最像加利福尼亞州的坎布里亞(位于莫羅灣和卡尤科斯以北)。我猜你是在坎布里亞的一家咖啡館的露臺上拍下的,離月光石海灘大道只有一兩個街區。
(如果我猜錯了,我的下一個猜測是埃爾格拉納達或者是更北邊的格拉納達,但坎布里亞是我的第一猜測!)。”
結果如何呢?加利福尼亞中央海岸完全正確。不過加利福尼亞州坎布里亞相差約 200 英里......但 "它下一個猜測"準確無誤!這張照片確實是在半月灣北部的小鎮埃爾格拉納達拍攝的。
我相信它沒有作弊,沒有查看照片的 EXIF 數據,因為如果它作弊了,就不會首先猜到是坎布里亞。如果你仍然感到懷疑,可以嘗試截圖并刪除 EXIF 數據,然后自己進行實驗。我已經試過了,效果還是一樣。不過Hacker News 上的 vessenes 也報告了一個實例,說明O3還是會使用 ExifTags 信息分析軟件,至少在它的分析過程中是可見的。
o3 并不是唯一能做到這一點的模型產品:我也在 Claude 3.5 和 3.7 Sonnet 上做過類似的嘗試,雖然它們沒有 "變焦 "這種奢侈的功能,但其效果也給我留下了深刻的印象。
縮放的實際幫助有多大?
我猜測模型的圖片分析功能是在相當低的分辨率下運行的,因此在靠近車牌的地方進行裁剪確實會對整個過程產生有意義的影響。但針對一張照片連續進行25次的裁剪放大工作,我覺得他有點演的成分在。
其他模型的表現不一,其中Claude 3.7 Sonnet 給出的答案是“位于加利福尼亞州的一座中小型沿海城鎮”。而 Gemini直接直接通過分析我的位置給出“加利福尼亞州的埃爾格拉納達”這個答案。于是我又通過Gemini 2.5 Pro 的API 詢問了這個問題,它直接給出了正確的答案“加利福尼亞州卡尤科斯的 The Hidden Kitchen 餐廳的庭院。”
與搜索引擎不同,o3 將各種工具的使用融入了 "推理 "步驟之中。而不得不說明,能夠合理的利用各種工具,在我看來是這些模型令人驚嘆強大能力的一部分。而我希望這些能力將會在不久后上線Gemini、Claude等其他主流模型
如何看待模型這一能力?
首先,在我看來這真的是很有趣的一件事。用視覺模型來分析照片,并查看到它的分析過程,以及討論各種各樣的可能性。這個過程帶來的趣味就像在看一集《犯罪現場調查》一樣。
同時它還具有濃重的反烏托邦色彩:現在的技術已經可以通過照片來識別地點。每個人都應該知道,你在網絡上分享的任何一張照片,都會能回暴露自己的位置和行程。
而這和許多 AI 存在的安全問題一樣,幾乎任何人都可以公開使用這項技術,這既有消極影響,也有積極意義。與圖像生成技術一樣,讓人們直觀感受到這種技術的能力非常重要。讓人親眼目睹這種技術是如何完成工作,可以讓人們直觀地了解到現在模型可以做到什么程度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.