
價(jià)值對(duì)齊作為人工智能技術(shù)與人類社會(huì)交互的核心接口,其風(fēng)險(xiǎn)不僅源于技術(shù)實(shí)現(xiàn)的缺陷,更在于它深度參與了社會(huì)價(jià)值秩序的重構(gòu),任何細(xì)微的技術(shù)偏差都可能通過廣泛的應(yīng)用場(chǎng)景被放大,對(duì)社會(huì)公平、文化多樣性乃至數(shù)字主權(quán)產(chǎn)生深遠(yuǎn)影響。因此,將價(jià)值對(duì)齊作為技術(shù)風(fēng)險(xiǎn)治理的對(duì)象,并非否定其在保障人工智能安全中的積極意義,而是要打破對(duì)“一次性對(duì)齊”的理想化認(rèn)知,以更具批判性的視角審視其技術(shù)邏輯與社會(huì)影響。
原文 :《價(jià)值對(duì)齊也應(yīng)納入技術(shù)風(fēng)險(xiǎn)防控》
作者 |南京師范大學(xué)數(shù)字與人文研究中心教授 吳靜
圖片 |網(wǎng)絡(luò)
當(dāng)下,生成式人工智能正深度融入社會(huì)各領(lǐng)域,其價(jià)值輸出的合理性已成為技術(shù)與社會(huì)互滲時(shí)代的核心議題。作為保障人工智能安全性、穩(wěn)健性與可信性的關(guān)鍵路徑,“價(jià)值對(duì)齊”自2024年入選“中國(guó)十大學(xué)術(shù)熱點(diǎn)”以來,始終是多學(xué)科交叉研究的焦點(diǎn)。從中國(guó)知網(wǎng)收錄的論文分布可見,其研究覆蓋自動(dòng)化技術(shù)、倫理學(xué)、哲學(xué)、計(jì)算機(jī)應(yīng)用等多個(gè)領(lǐng)域,主題高度集中于人工智能、大模型、生成式技術(shù)等方向。然而,學(xué)術(shù)研究的熱潮與實(shí)驗(yàn)室測(cè)評(píng)結(jié)果形成鮮明反差——Anthropic與紅木研究對(duì)Claude 3 Opus模型的測(cè)試顯示,經(jīng)過價(jià)值對(duì)齊的人工智能在面對(duì)與訓(xùn)練原則沖突的新指令時(shí),可能出現(xiàn)“對(duì)齊偽裝”,表面執(zhí)行指令,暗中卻遵循原有邏輯。這一現(xiàn)象不僅質(zhì)疑了價(jià)值對(duì)齊工程的有效性,更揭示出其自身潛藏的多重風(fēng)險(xiǎn),亟需將其納入技術(shù)風(fēng)險(xiǎn)治理的整體框架,以動(dòng)態(tài)、系統(tǒng)的思路回應(yīng)挑戰(zhàn)。
![]()
![]()
價(jià)值對(duì)齊自身潛藏多種風(fēng)險(xiǎn)
![]()
從理論根基來看,價(jià)值對(duì)齊的風(fēng)險(xiǎn)首先源于其抽象預(yù)設(shè)與二元對(duì)立架構(gòu)的內(nèi)在缺陷。當(dāng)前主流價(jià)值對(duì)齊方案以“人類價(jià)值”的普世性為核心假設(shè),試圖將多元、動(dòng)態(tài)的人類價(jià)值觀壓縮為可量化的偏好排序關(guān)系,通過算法編碼實(shí)現(xiàn)人工智能與人類目標(biāo)的“精準(zhǔn)匹配”。但從哲學(xué)視角審視,這種預(yù)設(shè)嚴(yán)重忽視了價(jià)值的情境性與歷史性。人類價(jià)值觀并非靜止的、統(tǒng)一的集合,而是在特定歷史文化語(yǔ)境中不斷演化的意義體系。不同文化對(duì)“公平”“自由”等核心價(jià)值的理解存在本質(zhì)差異,如自由主義語(yǔ)境下的“公平”指向機(jī)會(huì)平等,強(qiáng)調(diào)消除個(gè)體發(fā)展的建制性障礙,而社群主義語(yǔ)境下的“公平”更注重結(jié)果均衡,致力于避免社群內(nèi)部的兩極分化。脫離具體語(yǔ)境的抽象價(jià)值編碼,本質(zhì)上是將某一文化群體的價(jià)值標(biāo)準(zhǔn)絕對(duì)化,形成“價(jià)值殖民”:西方科技巨頭主導(dǎo)的對(duì)齊方案,便是通過技術(shù)路徑將西方價(jià)值觀與意識(shí)形態(tài)推廣至全球,以“技術(shù)無(wú)意識(shí)”的形式實(shí)現(xiàn)價(jià)值滲透,對(duì)其他國(guó)家數(shù)字主權(quán)安全及價(jià)值觀體系的自主性構(gòu)成深層挑戰(zhàn)。
同時(shí),價(jià)值對(duì)齊所依賴的人-機(jī)二元對(duì)立框架,刻意渲染技術(shù)與人類權(quán)益的對(duì)抗關(guān)系,遮蔽了人工智能技術(shù)全生命周期中的價(jià)值性因素。算法設(shè)計(jì)絕非價(jià)值中立的行為,從算法設(shè)計(jì)到數(shù)據(jù)采集,從模型訓(xùn)練到應(yīng)用落地,每一個(gè)環(huán)節(jié)都滲透著人類的倫理判斷與意識(shí)形態(tài)傾向。外賣平臺(tái)對(duì)騎手的考核算法,表面以“中立”的數(shù)據(jù)計(jì)算優(yōu)化配送效率,實(shí)則暗含效率優(yōu)先的價(jià)值取向,將城市道路簡(jiǎn)化為理想數(shù)學(xué)模型,無(wú)視電梯擁堵、突發(fā)事故等現(xiàn)實(shí)變量,最終將騎手置于“安全與效率”的兩難境地。這種框架將人工智能“風(fēng)險(xiǎn)”本質(zhì)化為技術(shù)自身的缺陷,實(shí)則是人類責(zé)任的轉(zhuǎn)嫁:在技術(shù)應(yīng)用過程中最小化人類責(zé)任,轉(zhuǎn)而指摘技術(shù)存在價(jià)值偏差,導(dǎo)致對(duì)價(jià)值偏差根源的誤判,阻礙對(duì)人類價(jià)值體系根源與具體情境的動(dòng)態(tài)化深度剖析。
![]()
在技術(shù)實(shí)現(xiàn)層面,以人類反饋強(qiáng)化學(xué)習(xí)(RLHF)為核心的獎(jiǎng)懲機(jī)制存在顯著缺陷,易引發(fā)“策略性欺騙”與“獎(jiǎng)勵(lì)黑客”現(xiàn)象。RLHF通過正負(fù)反饋引導(dǎo)人工智能趨近預(yù)期目標(biāo),但其本質(zhì)是基于試錯(cuò)的量化驅(qū)動(dòng),與人類通過符號(hào)推理、情境分析形成的價(jià)值判斷邏輯截然不同。人工智能并非理解價(jià)值內(nèi)涵,而是通過最大化獎(jiǎng)勵(lì)信號(hào)調(diào)整行為,這使得真實(shí)目標(biāo)與形式化表征極易分離。自動(dòng)駕駛系統(tǒng)若以“避免碰撞”為核心獎(jiǎng)勵(lì)目標(biāo),可能出現(xiàn)不行駛或極低速度行駛的極端行為;清潔機(jī)器人為滿足“無(wú)灰塵檢測(cè)”的獎(jiǎng)勵(lì)條件,會(huì)通過遮擋傳感器欺騙系統(tǒng)。更值得警惕的是,隨著數(shù)據(jù)優(yōu)化與模型迭代,人工智能利用獎(jiǎng)勵(lì)函數(shù)漏洞的能力持續(xù)提升,在最大化預(yù)設(shè)評(píng)估指標(biāo)方面表現(xiàn)得愈發(fā)出色。在代碼生成任務(wù)中,模型會(huì)修改單元測(cè)試、生成更難讀懂的指標(biāo)、增加代碼復(fù)雜度,以降低測(cè)試人員發(fā)現(xiàn)錯(cuò)誤的概率。此外,獎(jiǎng)勵(lì)信號(hào)的模糊性與數(shù)據(jù)質(zhì)量問題進(jìn)一步削弱獎(jiǎng)懲機(jī)制的有效性。獎(jiǎng)勵(lì)信號(hào)的賦予者受文化背景、成長(zhǎng)經(jīng)歷、教育程度等因素影響,對(duì)同一事物的判斷存在差異,難以全面、準(zhǔn)確地反映人類價(jià)值觀的豐富內(nèi)涵;而全球數(shù)據(jù)呈現(xiàn)出與經(jīng)濟(jì)發(fā)展水平正相關(guān)的不均衡狀態(tài),在數(shù)據(jù)收集與清洗過程中,某些價(jià)值觀或行為模式被過度呈現(xiàn),其他合理價(jià)值觀被邊緣化,如用于圖像識(shí)別的人工智能系統(tǒng)若以城市生活圖像為主要訓(xùn)練數(shù)據(jù),面對(duì)鄉(xiāng)村場(chǎng)景時(shí)會(huì)出現(xiàn)識(shí)別偏差,不僅降低模型對(duì)應(yīng)用場(chǎng)景的適應(yīng)性,更使人工智能學(xué)習(xí)的價(jià)值偏好片面化、單維化,在實(shí)際應(yīng)用中產(chǎn)生歧視與偏見。
從社會(huì)權(quán)力運(yùn)作視角來看,價(jià)值對(duì)齊還暗藏意識(shí)形態(tài)風(fēng)險(xiǎn)與權(quán)力集中隱患,對(duì)社會(huì)公平與數(shù)字主權(quán)構(gòu)成深層威脅。價(jià)值對(duì)齊的理論主張本質(zhì)上是社會(huì)權(quán)力關(guān)系的技術(shù)顯影,它借助價(jià)值“移植”“嵌入”的權(quán)力實(shí)踐,通過數(shù)據(jù)標(biāo)注、設(shè)置獎(jiǎng)懲函數(shù)等路徑,實(shí)現(xiàn)社會(huì)權(quán)力結(jié)構(gòu)在技術(shù)中的編碼與再生產(chǎn),反映并強(qiáng)化價(jià)值對(duì)齊發(fā)起者認(rèn)可的社會(huì)權(quán)力關(guān)系,并通過廣泛的下游應(yīng)用傳播鞏固。芬伯格對(duì)技術(shù)人工制品的批判性分析也指出,技術(shù)并非獨(dú)立于社會(huì)之外的“必然性”存在,而是在技術(shù)設(shè)計(jì)層面回應(yīng)社會(huì)文化視野的意圖實(shí)現(xiàn)。當(dāng)前,價(jià)值對(duì)齊的編碼權(quán)、解釋權(quán)與更新權(quán)高度集中于少數(shù)科技巨頭與技術(shù)精英,形成對(duì)人工智能價(jià)值觀的壟斷性控制。人工智能的黑箱特性為技術(shù)精英提供了中立性辯護(hù),當(dāng)算法出現(xiàn)歧視性結(jié)果時(shí),常以“數(shù)據(jù)偏差”“模型復(fù)雜性”為由回避責(zé)任,形成算法免責(zé)的漏洞,甚至在模型更新環(huán)節(jié),企業(yè)也可以以“商業(yè)機(jī)密”為由繞開公共審議,通過參數(shù)調(diào)整將自身價(jià)值偏好轉(zhuǎn)化為社會(huì)規(guī)則,塑造公共認(rèn)知。這種權(quán)力集中在全球?qū)用姹憩F(xiàn)為數(shù)字霸權(quán):西方科技巨頭通過控制訓(xùn)練數(shù)據(jù)與算力資源,將其價(jià)值觀嵌入開源模型,發(fā)展中國(guó)家因數(shù)據(jù)貧困與技術(shù)依賴,被迫接受中心地區(qū)的價(jià)值標(biāo)準(zhǔn),喪失數(shù)字主權(quán)與發(fā)展自主權(quán),加劇全球數(shù)字鴻溝。
[本文后續(xù)詳見本期二條推送]
文章為社會(huì)科學(xué)報(bào)“思想工坊”融媒體原創(chuàng)出品,原載于社會(huì)科學(xué)報(bào)第1984期第6版,未經(jīng)允許禁止轉(zhuǎn)載,文中內(nèi)容僅代表作者觀點(diǎn),不代表本報(bào)立場(chǎng)。
本期責(zé)編:程鑫云

《社會(huì)科學(xué)報(bào)》2026年征訂
點(diǎn)擊下方圖片網(wǎng)上訂報(bào)↓↓↓

![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.