![]()
隨著生成式人工智能(GenAI)技術加速迭代與廣泛滲透,其應用場景已從技術探索階段延伸至日常商業運營與個人生產生活領域,并被用于重構整個政府和行業的工作流程,這一顛覆性技術正如同歷史上其他具有變革意義的技術一樣,在帶來機遇的同時,也可能引發諸多負面影響。因此,系統評估GenAI在社會與個人層面的實際影響顯得尤為必要,這有助于識別亟需應對的負面后果,并制定基于實證的有效政策。2025年1月,卡內基國際和平基金會發布了報告《衡量生成式人工智能引起的變化:奠定基礎》(Measuring Changes Caused by Generative Artificial Intelligence: Setting the Foundations),提出了一套用于評估GenAI對信息生態與輿論環境實際影響的方法框架。
一、填補量化研究的知識空白
在探討這一議題時,一個關鍵問題在于公眾對人工智能的認知尚不清晰。不同群體對人工智能的理解存在差異,導致討論對象常常被混淆。廣義上,人工智能是一系列使計算機能夠執行復雜功能的工具集合。GenAI作為其子集,依托深度學習系統,通過訓練數據生成高質量的文本、圖像等內容。鑒于GenAI在內容生成中的作用,其已知濫用行為往往與既有技術(如社交媒體)結合出現。據參與研討的研究人員介紹,GenAI已被用于創建虛假賬號、虛擬頭像和網站等,還有報道稱其被用于冒充他人、制造誹謗內容,或實施金融詐騙和網絡情感騙局。這些應用顯示,GenAI常與其他通信工具協同使用。信息生態的碎片化特性,加之對人工智能活動報道的不足,限制了我們對GenAI單獨或與其他技術結合時所發揮作用的理解。
盡管關于GenAI濫用威脅的研究論文不斷涌現,但對其社會影響的量化研究仍較為缺乏。由于GenAI發展時間尚短,現有文獻多聚焦于潛在風險的預測,而非實際觀察到的結果,且大多基于實驗環境。然而,實驗所能提供的認知有限,現實情況往往更為復雜。顯然,盡管GenAI使用引發的擔憂已引起社會廣泛關注,但對其影響的系統衡量在學術研究中仍屬空白。對于如何量化由特定GenAI應用引發的可觀測變化,研究團隊最終總結了七類主要關切:
1.醫療領域(包括將人工智能用于診斷、自我診斷及醫療記錄);
2.法律體系(包括人工智能輔助案件準備以及可能出現的人工智能生成證據);
3.各類詐騙行為;
4.人工智能生成的兒童性剝削材料(CSAM);
5.自然災害期間的信息流(包括快速傳播的準確信息與錯誤信息);
6.選舉過程(包括準確或誤導性信息的傳播);
7.生成未經同意的私密媒體。
雖然討論主題和衡量方法差異顯著,但最終參與者的意見聚焦于四個基礎性問題。回答這些問題將對設計實驗與方法至關重要,以便衡量在特定領域中因使用GenAI而引發的變化。
二、四個基礎性問題
(一)哪些檢測方法可靠可用?
研究人員普遍認為,首要問題是能否檢測出某一內容是否由GenAI生成。目前雖存在多種潛在檢測方法,但其在大規模應用中的可靠性仍需進一步驗證。現有方法主要分為三類,前兩類作用于內容生成后,第三類則嵌入生成過程之中。
1.感知檢測法依賴人工判斷內容真實性,例如識別人工智能生成人臉的面部不對稱、眼睛異常,或察覺視頻與音頻不同步。但這種方法實際上把檢測負擔轉嫁給用戶和調查人員,且隨著生成內容質量提高,檢測難度會進一步加大。
2.計算檢測法借助技術手段進行識別,例如使用機器學習分類器或虛假內容數據庫,但兩類方法在可靠性與擴展性上均存在差異。
3.第三類方法側重于追溯內容來源,試圖將輸出關聯至生成源頭。一種常見提議是對內容添加標簽或水印,以標識其為人工智能生成。該方法將來源驗證機制嵌入合成內容生成流程,通過數字水印使內容可追溯至特定生成引擎。另一種方法是開發來源驗證技術,以證明某一媒體非人工智能生成且與聲稱內容一致。非人工智能生成內容的來源驗證可參考“內容真實性倡議”,該計劃制定了端到端技術規范,用于驗證內容真實性,并推動采集設備與應用程序支持“內容憑證”。
然而,這兩類方法均存在局限。水印易被偽造、移除或忽略,而對開源模型等非主流GenAI服務,來源驗證機制也難以有效實施。此外,若將來源驗證作為可信度標準,可能強化主流GenAI提供商的主導地位,導致模型單一化與權力進一步集中。這些挑戰都將為衡量GenAI引發的變化增加難度。
(二)應以何種基準衡量變化?
從本質上講,變化是指事物狀態與以往相比產生了差異。要衡量變化,就必須觀察到可察覺的改變,這需要以之前的狀態為基準,評估后續狀態是否發生變化及其程度。然而,若過去未對相關信息進行系統整理,或需衡量如公眾情緒等難以量化的因素,基準數據的收集就會變得困難。有時還需多個基準,使研究更為復雜。
在某些領域,基準對比相對容易。例如,詐騙案例與經濟損失在GenAI出現前就已有追蹤,可通過對比當前詐騙成功數量與已報告損失,衡量是否出現增長。盡管在釣魚郵件等場景中全面識別GenAI的應用存在挑戰,但仍可單獨分析偽造圖像、音頻或視頻詐騙。而在其他領域,設定基準則更為困難。例如,盡管多項研究指出GenAI可能擴大虛假信息或影響力操作的規模,但要衡量其加劇程度,仍需以該技術出現前的活動規模為基準。目前相關案例研究仍零散片面,亟需綜合分析確立基準。因此,回答這一問題可能需要設定多個基準而非單一指標。
(三)所研究的系統是復雜的還是相對可控的?
在探索衡量方法時,需明確信息系統是相對可控(輸入與變量較少)還是復雜龐大(變量與子系統多且相互影響)。相對可控的系統更便于衡量,尤其是在有常規記錄GenAI使用的情況下。例如,法院系統是典型相對可控的系統,因其通常具備長期記錄,有利于設定基準進行比較。可通過記錄研究人工智能生成或篡改證據是否增加冤錯案,監測GenAI應用后使用媒體信息作為證據的案件,識別GenAI使用痕跡并對比案件結果變化;還可對比GenAI出現前后因證據偽造獲無罪判決的比例,評估使用GenAI準備文書對案件結果的影響,例如要求相關方說明GenAI使用情況再對比案件結果。相反,復雜系統變量更多,各技術與子系統相互作用、共同影響整體,且數據所有權與研究途徑高度分散。例如,分析社會或民主制度等復雜系統的變化時,研究人員無法像在法院系統研究中那樣依賴單一渠道,而必須評估多個甚至相互矛盾的信息來源。因此,研究GenAI在復雜系統中引發的變化挑戰更大,在設計實驗或研究方案時必須充分考慮這些因素。
(四)系統的復雜程度如何,該如何考量其復雜性?
系統的復雜程度取決于其中影響結果的關聯因素數量。這種復雜性既體現在技術層面,也反映在人文層面。技術上,GenAI與社交媒體等其他技術交互作用,使其影響難以單獨剝離;人文上,多種因素交織作用,導致無法明確GenAI與其他社會政治因素在人類決策中各自的作用。引發變化的可能不僅是GenAI本身,而是它與多種技術結合的結果,而許多技術在信息環境變化中的作用也尚未得到充分認識。除技術因素外,人們對GenAI的諸多關切還涉及人類決策,無論是在危機情境還是政治活動中。因此,回答這一問題需跨專業團隊協作。此類研究可能帶來極高價值,但我們絕不能低估其復雜性。
三、結論
即使在理想條件下,衡量信息環境中某一因素的影響也非易事,但我們仍需務實推進并明確目標。GenAI應用越直接、所引發的變化越具體,就越容易有效衡量其影響。若GenAI在復雜系統中僅是眾多流程之一,尤其當該系統還影響其他復雜系統時,衡量其變化將更為困難。封閉系統中的GenAI應用較易衡量,而復雜系統則因變量眾多,難以明確其具體影響。要開展可信且有價值的研究,需回答四個基礎問題:如何可靠檢測GenAI生成內容、如何確定衡量變化的基準、所研究系統是復雜還是可控、如何評估并降低系統復雜性的影響。隨著GenAI技術發展和更多服務商進入該領域,深入了解其在信息生態系統中的作用變得尤為關鍵。這四個基礎問題為后續研究指明了方向,有助于解決GenAI社會影響的識別與衡量難題。本文所提出的研究路徑也可供研究人員參考,并為政策制定者評估相關衡量工作的質量提供依據。
免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!
轉自丨啟元洞見
研究所簡介
國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.