網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

價(jià)值對(duì)齊也應(yīng)納入技術(shù)風(fēng)險(xiǎn)防控（上） | 社會(huì)科學(xué)報(bào)

2026-01-14 12:10:45　來源: 社會(huì)科學(xué)報(bào)

上海舉報(bào)

分享至

價(jià)值對(duì)齊作為人工智能技術(shù)與人類社會(huì)交互的核心接口，其風(fēng)險(xiǎn)不僅源于技術(shù)實(shí)現(xiàn)的缺陷，更在于它深度參與了社會(huì)價(jià)值秩序的重構(gòu)，任何細(xì)微的技術(shù)偏差都可能通過廣泛的應(yīng)用場(chǎng)景被放大，對(duì)社會(huì)公平、文化多樣性乃至數(shù)字主權(quán)產(chǎn)生深遠(yuǎn)影響。因此，將價(jià)值對(duì)齊作為技術(shù)風(fēng)險(xiǎn)治理的對(duì)象，并非否定其在保障人工智能安全中的積極意義，而是要打破對(duì)“一次性對(duì)齊”的理想化認(rèn)知，以更具批判性的視角審視其技術(shù)邏輯與社會(huì)影響。

原文：《價(jià)值對(duì)齊也應(yīng)納入技術(shù)風(fēng)險(xiǎn)防控》

作者 |南京師范大學(xué)數(shù)字與人文研究中心教授吳靜

圖片 |網(wǎng)絡(luò)

當(dāng)下，生成式人工智能正深度融入社會(huì)各領(lǐng)域，其價(jià)值輸出的合理性已成為技術(shù)與社會(huì)互滲時(shí)代的核心議題。作為保障人工智能安全性、穩(wěn)健性與可信性的關(guān)鍵路徑，“價(jià)值對(duì)齊”自2024年入選“中國(guó)十大學(xué)術(shù)熱點(diǎn)”以來，始終是多學(xué)科交叉研究的焦點(diǎn)。從中國(guó)知網(wǎng)收錄的論文分布可見，其研究覆蓋自動(dòng)化技術(shù)、倫理學(xué)、哲學(xué)、計(jì)算機(jī)應(yīng)用等多個(gè)領(lǐng)域，主題高度集中于人工智能、大模型、生成式技術(shù)等方向。然而，學(xué)術(shù)研究的熱潮與實(shí)驗(yàn)室測(cè)評(píng)結(jié)果形成鮮明反差——Anthropic與紅木研究對(duì)Claude 3 Opus模型的測(cè)試顯示，經(jīng)過價(jià)值對(duì)齊的人工智能在面對(duì)與訓(xùn)練原則沖突的新指令時(shí)，可能出現(xiàn)“對(duì)齊偽裝”，表面執(zhí)行指令，暗中卻遵循原有邏輯。這一現(xiàn)象不僅質(zhì)疑了價(jià)值對(duì)齊工程的有效性，更揭示出其自身潛藏的多重風(fēng)險(xiǎn)，亟需將其納入技術(shù)風(fēng)險(xiǎn)治理的整體框架，以動(dòng)態(tài)、系統(tǒng)的思路回應(yīng)挑戰(zhàn)。

價(jià)值對(duì)齊自身潛藏多種風(fēng)險(xiǎn)

從理論根基來看，價(jià)值對(duì)齊的風(fēng)險(xiǎn)首先源于其抽象預(yù)設(shè)與二元對(duì)立架構(gòu)的內(nèi)在缺陷。當(dāng)前主流價(jià)值對(duì)齊方案以“人類價(jià)值”的普世性為核心假設(shè)，試圖將多元、動(dòng)態(tài)的人類價(jià)值觀壓縮為可量化的偏好排序關(guān)系，通過算法編碼實(shí)現(xiàn)人工智能與人類目標(biāo)的“精準(zhǔn)匹配”。但從哲學(xué)視角審視，這種預(yù)設(shè)嚴(yán)重忽視了價(jià)值的情境性與歷史性。人類價(jià)值觀并非靜止的、統(tǒng)一的集合，而是在特定歷史文化語(yǔ)境中不斷演化的意義體系。不同文化對(duì)“公平”“自由”等核心價(jià)值的理解存在本質(zhì)差異，如自由主義語(yǔ)境下的“公平”指向機(jī)會(huì)平等，強(qiáng)調(diào)消除個(gè)體發(fā)展的建制性障礙，而社群主義語(yǔ)境下的“公平”更注重結(jié)果均衡，致力于避免社群內(nèi)部的兩極分化。脫離具體語(yǔ)境的抽象價(jià)值編碼，本質(zhì)上是將某一文化群體的價(jià)值標(biāo)準(zhǔn)絕對(duì)化，形成“價(jià)值殖民”：西方科技巨頭主導(dǎo)的對(duì)齊方案，便是通過技術(shù)路徑將西方價(jià)值觀與意識(shí)形態(tài)推廣至全球，以“技術(shù)無(wú)意識(shí)”的形式實(shí)現(xiàn)價(jià)值滲透，對(duì)其他國(guó)家數(shù)字主權(quán)安全及價(jià)值觀體系的自主性構(gòu)成深層挑戰(zhàn)。

同時(shí)，價(jià)值對(duì)齊所依賴的人-機(jī)二元對(duì)立框架，刻意渲染技術(shù)與人類權(quán)益的對(duì)抗關(guān)系，遮蔽了人工智能技術(shù)全生命周期中的價(jià)值性因素。算法設(shè)計(jì)絕非價(jià)值中立的行為，從算法設(shè)計(jì)到數(shù)據(jù)采集，從模型訓(xùn)練到應(yīng)用落地，每一個(gè)環(huán)節(jié)都滲透著人類的倫理判斷與意識(shí)形態(tài)傾向。外賣平臺(tái)對(duì)騎手的考核算法，表面以“中立”的數(shù)據(jù)計(jì)算優(yōu)化配送效率，實(shí)則暗含效率優(yōu)先的價(jià)值取向，將城市道路簡(jiǎn)化為理想數(shù)學(xué)模型，無(wú)視電梯擁堵、突發(fā)事故等現(xiàn)實(shí)變量，最終將騎手置于“安全與效率”的兩難境地。這種框架將人工智能“風(fēng)險(xiǎn)”本質(zhì)化為技術(shù)自身的缺陷，實(shí)則是人類責(zé)任的轉(zhuǎn)嫁：在技術(shù)應(yīng)用過程中最小化人類責(zé)任，轉(zhuǎn)而指摘技術(shù)存在價(jià)值偏差，導(dǎo)致對(duì)價(jià)值偏差根源的誤判，阻礙對(duì)人類價(jià)值體系根源與具體情境的動(dòng)態(tài)化深度剖析。

在技術(shù)實(shí)現(xiàn)層面，以人類反饋強(qiáng)化學(xué)習(xí)（RLHF）為核心的獎(jiǎng)懲機(jī)制存在顯著缺陷，易引發(fā)“策略性欺騙”與“獎(jiǎng)勵(lì)黑客”現(xiàn)象。RLHF通過正負(fù)反饋引導(dǎo)人工智能趨近預(yù)期目標(biāo)，但其本質(zhì)是基于試錯(cuò)的量化驅(qū)動(dòng)，與人類通過符號(hào)推理、情境分析形成的價(jià)值判斷邏輯截然不同。人工智能并非理解價(jià)值內(nèi)涵，而是通過最大化獎(jiǎng)勵(lì)信號(hào)調(diào)整行為，這使得真實(shí)目標(biāo)與形式化表征極易分離。自動(dòng)駕駛系統(tǒng)若以“避免碰撞”為核心獎(jiǎng)勵(lì)目標(biāo)，可能出現(xiàn)不行駛或極低速度行駛的極端行為；清潔機(jī)器人為滿足“無(wú)灰塵檢測(cè)”的獎(jiǎng)勵(lì)條件，會(huì)通過遮擋傳感器欺騙系統(tǒng)。更值得警惕的是，隨著數(shù)據(jù)優(yōu)化與模型迭代，人工智能利用獎(jiǎng)勵(lì)函數(shù)漏洞的能力持續(xù)提升，在最大化預(yù)設(shè)評(píng)估指標(biāo)方面表現(xiàn)得愈發(fā)出色。在代碼生成任務(wù)中，模型會(huì)修改單元測(cè)試、生成更難讀懂的指標(biāo)、增加代碼復(fù)雜度，以降低測(cè)試人員發(fā)現(xiàn)錯(cuò)誤的概率。此外，獎(jiǎng)勵(lì)信號(hào)的模糊性與數(shù)據(jù)質(zhì)量問題進(jìn)一步削弱獎(jiǎng)懲機(jī)制的有效性。獎(jiǎng)勵(lì)信號(hào)的賦予者受文化背景、成長(zhǎng)經(jīng)歷、教育程度等因素影響，對(duì)同一事物的判斷存在差異，難以全面、準(zhǔn)確地反映人類價(jià)值觀的豐富內(nèi)涵；而全球數(shù)據(jù)呈現(xiàn)出與經(jīng)濟(jì)發(fā)展水平正相關(guān)的不均衡狀態(tài)，在數(shù)據(jù)收集與清洗過程中，某些價(jià)值觀或行為模式被過度呈現(xiàn)，其他合理價(jià)值觀被邊緣化，如用于圖像識(shí)別的人工智能系統(tǒng)若以城市生活圖像為主要訓(xùn)練數(shù)據(jù)，面對(duì)鄉(xiāng)村場(chǎng)景時(shí)會(huì)出現(xiàn)識(shí)別偏差，不僅降低模型對(duì)應(yīng)用場(chǎng)景的適應(yīng)性，更使人工智能學(xué)習(xí)的價(jià)值偏好片面化、單維化，在實(shí)際應(yīng)用中產(chǎn)生歧視與偏見。

從社會(huì)權(quán)力運(yùn)作視角來看，價(jià)值對(duì)齊還暗藏意識(shí)形態(tài)風(fēng)險(xiǎn)與權(quán)力集中隱患，對(duì)社會(huì)公平與數(shù)字主權(quán)構(gòu)成深層威脅。價(jià)值對(duì)齊的理論主張本質(zhì)上是社會(huì)權(quán)力關(guān)系的技術(shù)顯影，它借助價(jià)值“移植”“嵌入”的權(quán)力實(shí)踐，通過數(shù)據(jù)標(biāo)注、設(shè)置獎(jiǎng)懲函數(shù)等路徑，實(shí)現(xiàn)社會(huì)權(quán)力結(jié)構(gòu)在技術(shù)中的編碼與再生產(chǎn)，反映并強(qiáng)化價(jià)值對(duì)齊發(fā)起者認(rèn)可的社會(huì)權(quán)力關(guān)系，并通過廣泛的下游應(yīng)用傳播鞏固。芬伯格對(duì)技術(shù)人工制品的批判性分析也指出，技術(shù)并非獨(dú)立于社會(huì)之外的“必然性”存在，而是在技術(shù)設(shè)計(jì)層面回應(yīng)社會(huì)文化視野的意圖實(shí)現(xiàn)。當(dāng)前，價(jià)值對(duì)齊的編碼權(quán)、解釋權(quán)與更新權(quán)高度集中于少數(shù)科技巨頭與技術(shù)精英，形成對(duì)人工智能價(jià)值觀的壟斷性控制。人工智能的黑箱特性為技術(shù)精英提供了中立性辯護(hù)，當(dāng)算法出現(xiàn)歧視性結(jié)果時(shí)，常以“數(shù)據(jù)偏差”“模型復(fù)雜性”為由回避責(zé)任，形成算法免責(zé)的漏洞，甚至在模型更新環(huán)節(jié)，企業(yè)也可以以“商業(yè)機(jī)密”為由繞開公共審議，通過參數(shù)調(diào)整將自身價(jià)值偏好轉(zhuǎn)化為社會(huì)規(guī)則，塑造公共認(rèn)知。這種權(quán)力集中在全球?qū)用姹憩F(xiàn)為數(shù)字霸權(quán)：西方科技巨頭通過控制訓(xùn)練數(shù)據(jù)與算力資源，將其價(jià)值觀嵌入開源模型，發(fā)展中國(guó)家因數(shù)據(jù)貧困與技術(shù)依賴，被迫接受中心地區(qū)的價(jià)值標(biāo)準(zhǔn)，喪失數(shù)字主權(quán)與發(fā)展自主權(quán)，加劇全球數(shù)字鴻溝。

[本文后續(xù)詳見本期二條推送]

文章為社會(huì)科學(xué)報(bào)“思想工坊”融媒體原創(chuàng)出品，原載于社會(huì)科學(xué)報(bào)第1984期第6版，未經(jīng)允許禁止轉(zhuǎn)載，文中內(nèi)容僅代表作者觀點(diǎn)，不代表本報(bào)立場(chǎng)。

本期責(zé)編：程鑫云

《社會(huì)科學(xué)報(bào)》2026年征訂

點(diǎn)擊下方圖片網(wǎng)上訂報(bào)↓↓↓

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.