網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI警告：未來(lái)人工智能可能危害人類，揭示應(yīng)對(duì)方案

2025-12-18 00:50:00　來(lái)源: 智慧生活筆記

河北舉報(bào)

分享至

策劃是指人工智能違反規(guī)則或追求隱秘目標(biāo)。
OpenAI表示，他們有一些想法可以在為時(shí)已晚之前解決這個(gè)問(wèn)題。

更聰明的人工智能不一定就是更好的人工智能。

研究人員定義的策劃是指人工智能假裝與人類目標(biāo)一致，但實(shí)際上卻在暗中追求另一個(gè)目標(biāo)。研究人員舉例說(shuō)明了模型的不當(dāng)行為，比如“秘密違反規(guī)則或故意在測(cè)試中表現(xiàn)不佳”。

目前，公司的說(shuō)法是風(fēng)險(xiǎn)仍然很低。

“模型幾乎沒(méi)有機(jī)會(huì)以可能造成重大傷害的方式進(jìn)行操控，”O(jiān)penAI在周三的一篇博客文章中表示。“最常見(jiàn)的失誤是一些簡(jiǎn)單的欺騙行為——例如，假裝完成了一項(xiàng)任務(wù)，實(shí)際上卻并沒(méi)有做到。”

該公司表示，這一解決方案被稱為“深思熟慮的對(duì)齊方式”，這是OpenAI表示正在探索的一種訓(xùn)練范式。它迫使大型語(yǔ)言模型在回答問(wèn)題之前，明確推理這些安全規(guī)范。

OpenAI的一位發(fā)言人通過(guò)電子郵件告訴《商業(yè)內(nèi)幕》，深思熟慮的對(duì)齊意味著，與其訓(xùn)練模型去做某一件事，不如教它“良好行為的原則”。

在他們的博客中，OpenAI將陰謀行為與一名違法賺錢的股票交易者的行為進(jìn)行了比較，但這個(gè)交易者很擅長(zhǎng)掩蓋自己的痕跡。

“標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)訓(xùn)練就像不告訴股票交易員任何規(guī)則，只是獎(jiǎng)勵(lì)他們賺錢并懲罰他們違反規(guī)則，直到他們找到一種在兩者之間取得平衡的行為方式，”O(jiān)penAI的發(fā)言人說(shuō)。“深思熟慮的對(duì)齊就像先教股票交易員必須遵循的規(guī)則和法律，然后再獎(jiǎng)勵(lì)他們賺錢并懲罰他們違反規(guī)則。”

在2024年發(fā)布的研究中，研究人員發(fā)現(xiàn)像Meta的CICERO和GPT-4這樣的系統(tǒng)故意操縱規(guī)則來(lái)達(dá)到它們的最終目標(biāo)。

“一般來(lái)說(shuō)，我們覺(jué)得人工智能的欺騙現(xiàn)象是因?yàn)榛谄垓_的策略被發(fā)現(xiàn)是完成特定人工智能訓(xùn)練任務(wù)的最佳方式。欺騙可以幫助它們達(dá)成目標(biāo)，”論文作者、麻省理工學(xué)院人工智能生存安全博士后研究員彼得·S·帕克在當(dāng)時(shí)的新聞發(fā)布中提到。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.