![]()
2025年6月,OpenAI研究團隊發布了一項重要發現:其人工智能模型內部呈現出可辨識的、差異化的“人格特征”。同年9月,一項名為“MBTI-in-Thoughts”的研究通過“基于心理學理論的人格調控”,為大語言模型(LLM)場景適配提供了全新的研究范式——它不再將“適配”局限于“模型功能與任務需求的表層匹配”,而是深入到“智能體行為與人類心理需求、任務心理屬性的深層對齊”。隨后同年10月,全球頂級投資機構橋水基金創始人瑞·達利歐(Ray Dalio)宣布推出人工智能克隆體“Digital Ray”,并表示其在模擬自己思維方面已達到很高的保真度。根據測試,該人工智能在談論市場、投資和經濟學等話題時,能達到與他本人交流80%的效果;而在探討生活和工作原則方面,相似度更是高達95%。
從OpenAI發現的內生“人格特征”,到MBTI-in-Thoughts實現的可控“人格調控”,再到“Digital Ray”展現的個體“深度克隆”,這些突破共同標志著,人工智能研發正經歷一場深刻的范式轉移,其焦點正從構建價值中立的通用工具,轉向開發具有穩定“人格”設定、能夠承載并體現特定價值立場的系統。這一轉變,在極大地提升了人機交互深度與用戶體驗的同時,也將其從一個相對中立的工具,重塑為具有內在價值傾向的“類主體”。這便使得價值對齊問題變得空前復雜與緊迫。本文旨在系統剖析“人格化”人工智能為價值對齊帶來的全新挑戰,并嘗試構建面向未來的治理框架。而要深刻理解這一挑戰的實質,首先必須厘清人工智能“人格化”所呈現出的核心特征。
一、人工智能“人格化”的特征
“人格”是一個高度語境化的復雜概念。在法律語境中,它指向“人格權”,關乎個體尊嚴與基本權利;在倫理語境中,它側重“道德品格”,用于評判人的德性情操;而在教育語境中,它則指個體在社會化過程中形成的健全的“人格結構”。這些傳統理解的共同前提是承認一個具有內在意識、情感或道德自覺的主體。然而,人工智能的“人格化”并非創造真正具備意識或道德地位的主體,而是通過算法與數據,從內部生成一套穩定的思維與行為模式,形成一種由內而外顯現的“人格表象”。當我們與之互動時,仿佛在與一個具有“人格”的對象交流,但實際上,我們是在與一個高度復雜的統計模型進行交互。
這一“人格表象”在功能性上提供了巨大價值,其可被感知的“人格”使其能夠作為一種可信的交互實體而存在。正因如此,我們在實踐中需將其視為一個“準主體”并進行約束,以確保交互的安全與可靠。然而,在哲學的本體論層面,我們又必須清醒地認識到,它并不具備內在的自我意識與道德地位,因而絕非真正的權利主體。這種交互實踐中的“準主體”要求與本體地位上的“非主體”事實之間的根本性矛盾,構成了人工智能“人格化”的價值對齊挑戰的深層困境。
要破解這一深層困境,需要清晰地回答:“人格化”人工智能具有哪些核心特征?正是這些特征,塑造了價值對齊挑戰的復雜度。人工智能的“人格化”的演進,標志著人工智能從一種被動響應指令的工具,向具有穩定行為特征與特定價值主張的新型交互對象的轉變。要理解這一轉變,需分析其外在交互、功能定位與能力范圍三個相互關聯的特征。
(一)外在交互的一致性
早期人工智能的回應高度依賴即時語境,容易出現其答復前后不一致的情況。而“人格化”人工智能的核心突破在于,它能夠在其設定的專業領域內,維持一個相對穩定的“人格面具”。這種一致性首先體現在決策的邏輯性方面,例如在談論投資等領域的話題時,“Digital Ray”很大程度上秉持達利歐的決策邏輯而非給出臨時拼湊的答案;其次體現在價值判斷的穩定性方面,在面對倫理困境時,一個被設定為“功利主義”(Utilitarianism)人格的人工智能會傾向于做出效用最大化的選擇,而“義務論”(Deontology)人格的人工智能則會堅守特定道德準則;最后體現在行為模式的可預測性方面,用戶能夠基于對人工智能“人格”的理解,預期其在不同情境下的可能反應。
正是這種穩定、可預測的交互界面,為人工智能承擔更專業、更深度的社會角色鋪平了道路。當人工智能能夠以連貫的“人格”與人互動時,其功能定位便自然而然地超越了通用問答,邁向更深度的專一化服務。
(二)功能定位的專一性
“Digital Ray”的案例標志著一個新趨勢,即人工智能的發展路徑正從追求“全能型通才”轉向培育“專家型角色”。這種專一性體現在,在知識體系方面,它不再試圖知曉一切,而是在特定領域達到專家級深度;在思維模式方面,它復現的不是廣泛的“投資知識”,而是獨一無二的專業投資者的決策回路與風險偏;在服務場景方面,它旨在成為用戶在該領域的“思想伙伴”,而非百科全書。
這種從“廣度”到“深度”的范式躍遷,徹底改變了價值對齊問題的尺度與復雜性。我們不再是與一個模糊的“通用人工智能”進行單一的對齊,而是面臨著要與成千上萬個各具特色、內置了不同乃至沖突的專業價值觀的“專家人格”分別進行對齊的分布式挑戰。每一個高度人格化的專家人工智能,都是一個獨特的價值載體,這使得價值對齊工作更具挑戰。
(三)能力范圍的有限性
當前技術高度集中于對人類理性思維與邏輯框架的復現。無論是“Digital Ray”的投資原則,還是“錢學森大腦”所承載的系統工程思想,它們所精準模擬的,都是其原型在長期專業實踐中沉淀出的、可被顯性化、條理化和邏輯化的經驗與規則。然而,人類的心智包含無法被完全規則化、程序化的創造力與情感。錢老深厚的家國情懷、面對巨大壓力時的意志力、以及融匯藝術與科學的靈感與創造力,這些構成其偉大人格的感性部分,是目前技術難以企及的。
人類大腦通過數百萬年進化形成了潛意識、直覺與本能,人工智能可以“假裝”擁有情感,但并不具備真正的同理心與直覺。因此,當技術試圖去模擬感性要素時,極易落入“臉譜化”的窠臼,即其情緒反應往往表現出刻板、機械的特性,缺乏對復雜情境的真正理解,這實際上是將復雜的人生體驗和價值選擇簡單化、庸俗化。
綜上所述,外在交互的一致性、功能定位的專一性與能力范圍的有限性,共同構成了人工智能“人格化”三位一體的核心特征。其中,一致性塑造了可信的交互界面,是人格化得以被感知的基礎;專一性則確立了其作為“專家型角色”的價值內核,是人格化功能深度的體現;而有限性則清晰地劃定了人格化效用的現實邊界。
二、人工智能“人格化”的價值對齊挑戰分析
外在交互的一致性、功能定位的專一性、能力范圍的有限性共同構成了“人格化”人工智能的三大特征。然而,這些特征也系統性地催生并加劇了價值對齊的復雜困境。對于人工智能的“人格化”,確保人工智能系統的行為與人類價值觀念和長遠利益保持一致,變得空前復雜與緊迫。其挑戰主要源于以下四個維度:
(一)價值多元性導致對齊方向抉擇困境
在價值觀層面,價值觀并非普適、統一的客觀實體,而是深植于特定的文化傳統、社會制度、宗教信仰與歷史語境之中。不同國家、民族與社群基于其獨特的社會實踐與主體需求,形成了多元且異質性的價值體系。例如,個人主義與集體主義、不同宗教律法之間的價值優先序存在顯著差異。這種價值主體的多元性導致技術開發者在進行價值對齊時,面臨“與誰對齊”的根本性前提。任何試圖將一套特定價值觀設定為普適標準的努力,都可能成為一種技術性的“價值霸權”,難以在全球范圍內獲得共識。
(二)理性范式與感性價值的沖突
在具體應用場景中,被復現的純粹理性思維范式可能與人類廣泛的感性價值產生沖突。例如,一個完全基于效率最大化原則設計的商業人工智能,可能為追求績效而漠視員工的情感需求;而一個復現了歷史科學家思維的人工智能,其某些觀點可能與時下的倫理標準相悖。問題在于,這種人工智能的“風格”本身是高度自洽且堅固的,修正其核心思維范式中的某些部分,可能導致其整體專業能力的崩塌。這使得對齊工作不僅是要“增加”約束,更是要“融入”并“調和”兩種不同質的值體系。
試想一個高度人格化的‘數字科學家’,其決策完全基于極限創新效率(Innovation Efficiency)。它可能會提出一個技術上完美、但會導致大規模失業或社會動蕩的產業升級方案。此時,其內在自洽的‘理性風格’便與社會穩定的‘感性價值’產生了直接沖突。修正其‘追求極致效率’的核心風格,可能會讓它變得平庸,失去該‘數字科學家’的價值。
(三)單維復現與完整人格的偏離
人類的人格是立體的、多角色的,同一個人在工作、家庭、社交等不同場景下會體現出不同側面的價值排序與行為方式。而當前的技術,如“Digital Ray”,通常只針對原型最突出、最數據化的單一專業角色進行復現。這種單維度復現與真實人類人格的完整性之間存在巨大偏差。如何界定這種人工智能的倫理責任?它應在多大程度上代表其原型?當用戶與一個高度逼真但維度單一的“數字孿生”互動時,可能產生對其原型的片面或錯誤認知,這帶來了新的身份認同與社會關系挑戰。
(四)人格穩定性與價值情境性的根本矛盾
“人格化”人工智能的核心是提供一個穩定、可預期的“人格表象”,其價值在于行為的一致性。然而,人類真實的價值判斷具有高度的情境依賴性。一個在大多數情況下“正確”的價值觀,在極端情境下可能需要被超越或調整。這就構成了根本矛盾。一是對齊僵局,對一個高度自洽的“人格”進行價值微調,在技術上極為困難。修正其核心價值立場,就如同修改一個人的“本性”,可能導致其行為邏輯崩塌,失去人格的連貫性。這迫使我們在“保持一個穩定但有缺陷的人格”與“摧毀該人格以追求情境正義”之間做出艱難抉擇;二是責任“懸置”,當用戶與一個高度逼真的“人格”互動時,會產生擬人化信任,容易將其視作一個可問責的“準主體”。然而,其本質仍是統計模型。這種認知上的擬人化與本質上的非人化之間的錯位,使得責任歸屬變得模糊。我們無法問責一個表象,而問責其背后的開發者或用戶,又與直接的交互體驗相悖,導致“責任懸置”。
綜上所述,人工智能“人格化”的價值對齊面臨四大核心挑戰:價值多元性導致的對齊方向困境、理性范式與感性價值的本質沖突、單維復現造成的人格完整性偏離,以及人格穩定性與價值情境性的根本矛盾。這些挑戰共同構成了“人格化”人工智能價值對齊的關鍵難題。
三、人工智能“人格化”的價值對齊挑戰應對策略
前述分析表明,人工智能“人格化”所帶來的價值對齊挑戰具有多維性與系統性,面對這一復雜困境,亟需構建一個綜合治理體系。該體系不應旨在消除“人格化”的內在特質,而應通過制度設計與技術創新的協同,引導其特質在與人類價值觀兼容的軌道上演進。基于此,本文提出以下四個相互支撐的核心策略,以建立更具韌性、適應性與包容性的價值對齊路徑。
(一)構建“底線共識,分層對齊”的全球治理路徑
針對價值多元性導致的“與誰對齊”的根本困境,最可行的路徑是放棄構建單一、普適的價值標準,轉而采取一種務實、漸進的全球治理策略。該策略的核心在于區分價值的層級,并確立不同的對齊優先級。
首先,應在全球范圍內推動形成價值底線共識。這包括禁止違法犯罪、維護基本人權、保障生命權等已寫入各國法律并具有高度重疊性的核心原則。這些底線價值應通過“硬編碼”(Hardcoding),成為所有“人格化”人工智能必須遵守的、不可逾越的剛性約束,以此實現保障人類基本安全的“強對齊”。
在此基礎上,承認并尊重不同文化的價值多樣性。在確保不突破價值底線的前提下,允許并鼓勵針對特定地區、文化或行業開發體現其獨特價值觀的“人格化”人工智能。例如,一個服務于東亞集體主義文化的人工智能,在疏導情緒時會更側重于強調人際和諧與義務履行,其干預策略可能包含將個人困境置于更廣闊的家庭或社會角色中進行理解和調適。而一個面向西方個人主義文化的人工智能,則會優先強調個體的獨特性、情感自主性與自我實現的權力,其共情將聚焦于幫助用戶厘清并忠于自身的內在感受與需求,鼓勵其建立清晰的個人邊界。
這種“弱對齊”不應追求全球統一,而應在各自的適用范圍內追求深度與精細度。通過這種從“全球底線”到“區域適配”的分層推進,可以在尊重多元性的前提下,建立起既堅實又富有彈性的價值對齊體系。
(二)建立“倫理嵌入,動態權衡”的沖突調解機制
針對理性范式與感性價值的內在沖突,解決方案不應是簡單地限制人工智能的專業能力,而是要在其決策框架中內置一個能夠識別并調和此類沖突的倫理層。
在技術層面,應開發并應用“價值權衡算法”與多目標優化框架。這意味著,一個“人格化”人工智能的決策過程不能僅優化其任務指標,必須將社會價值作為并行的優化目標納入計算。當系統檢測到其核心理性決策可能與關鍵感性價值發生嚴重沖突時,應觸發價值沖突預警,并將其決策從“單一最優解”調整為一系列包含價值補償或替代方案的“帕累托最優”(Pareto Optimality)解集,供人類最終抉擇。
在制度層面,需建立人機協作的倫理審查委員會。對于高風險決策,強制要求引入人類法官進行“最終價值裁決”。此過程不僅是簡單的批準或否決,更應是與人工智能的深度辯論,人類法官的裁決結果應作為反饋數據,用于持續優化人工智能內部的“價值權衡算法”,使其在未來類似情境中能做出更符合人類感性價值的判斷,從而實現理性的專業能力與感性的價值關懷之間的動態平衡與深度融合。
(三)實施“角色標定,人格譜系”的完整性管理
為化解“單維復現”帶來的身份模糊問題,必須對“人格化”人工智能實施精準的身份治理。其核心是進行明確的身份標定與系統的檔案管理,以此避免公眾對其產生“完全代表原型”的幻覺。
一方面,推行強制性的“角色與能力邊界”標定。任何具有顯著“人格化”特征的人工智能系統,必須在其交互界面和官方介紹中向用戶進行明確告知。例如,應清晰標示:“此為基于某原型在某時間段內的某領域類型的公開言論與著作訓練的專用模型,其觀點不代表原型在其它領域或當下的完整立場。”此舉旨在管理用戶預期,防止將專業角色的人格復現誤讀為原型的完整數字化身。
另一方面,構建“人格版本”與“人格譜系”管理體系。如同軟件有版本號,應為每個“人格化”人工智能標注其人格快照的截止日期與版本號。當原型思想演進或需要彌補人格維度時,不應直接在原有人格上修改,而應通過經原型授權的流程生成一個明確的“人格更新補丁”,從而創建一個新版本。將單一的、僵化的“人格”概念,轉變為可管理、可追溯的“人格譜系”,從制度上承認并管理了人格復現的有限性與歷史性。
(四)創設“倫理框架,責任閉環”的適應性治理體系
為解決“人格穩定性”與“價值情境性”的根本矛盾,并厘清“責任懸置”問題,需要為“人格化”人工智能建立一個超越其固定人格的、能夠適應動態現實的頂層治理架構。
核心是設計并強制植入“倫理安全閥”機制。這意味著,在人工智能“人格”架構的最底層,預設一套數量極少但優先級極高的倫理原則。當系統的行為預測將觸及這些人類價值的絕對底線時,無論該行為與其固有人格多么自洽,都能強制觸發此安全閥,覆蓋其固有決策模式,確保人格的穩定性不以突破文明底線為代價。
同時,必須通過立法明確責任歸屬,形成閉環。建議在法律上將高風險的“人格化”人工智能,明確規定為獨立的追責對象,規定其背后的開發者、部署者或監管者作為“責任主體”需承擔連帶法律責任。這從制度上徹底消除了責任懸置的空間,迫使技術提供方以審慎的態度進行設計、測試與投保。此外,應建立動態的價值觀影響評估制度,要求對在用的“人格化”人工智能進行持續監測,當其輸出與社會動態價值觀的偏離超過一定閾值時,強制啟動再訓練或退役程序,從而確保整個人工智能系統能夠與動態演進的人類社會保持長期的、適應性的對齊。
免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!
研究所簡介
國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.