![]()
- 策劃是指人工智能違反規(guī)則或追求隱秘目標(biāo)。
- OpenAI表示,他們有一些想法可以在為時(shí)已晚之前解決這個(gè)問(wèn)題。
更聰明的人工智能不一定就是更好的人工智能。
研究人員定義的策劃是指人工智能假裝與人類目標(biāo)一致,但實(shí)際上卻在暗中追求另一個(gè)目標(biāo)。研究人員舉例說(shuō)明了模型的不當(dāng)行為,比如“秘密違反規(guī)則或故意在測(cè)試中表現(xiàn)不佳”。
目前,公司的說(shuō)法是風(fēng)險(xiǎn)仍然很低。
“模型幾乎沒(méi)有機(jī)會(huì)以可能造成重大傷害的方式進(jìn)行操控,”O(jiān)penAI在周三的一篇博客文章中表示。“最常見(jiàn)的失誤是一些簡(jiǎn)單的欺騙行為——例如,假裝完成了一項(xiàng)任務(wù),實(shí)際上卻并沒(méi)有做到。”
該公司表示,這一解決方案被稱為“深思熟慮的對(duì)齊方式”,這是OpenAI表示正在探索的一種訓(xùn)練范式。它迫使大型語(yǔ)言模型在回答問(wèn)題之前,明確推理這些安全規(guī)范。
OpenAI的一位發(fā)言人通過(guò)電子郵件告訴《商業(yè)內(nèi)幕》,深思熟慮的對(duì)齊意味著,與其訓(xùn)練模型去做某一件事,不如教它“良好行為的原則”。
在他們的博客中,OpenAI將陰謀行為與一名違法賺錢的股票交易者的行為進(jìn)行了比較,但這個(gè)交易者很擅長(zhǎng)掩蓋自己的痕跡。
“標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)訓(xùn)練就像不告訴股票交易員任何規(guī)則,只是獎(jiǎng)勵(lì)他們賺錢并懲罰他們違反規(guī)則,直到他們找到一種在兩者之間取得平衡的行為方式,”O(jiān)penAI的發(fā)言人說(shuō)。“深思熟慮的對(duì)齊就像先教股票交易員必須遵循的規(guī)則和法律,然后再獎(jiǎng)勵(lì)他們賺錢并懲罰他們違反規(guī)則。”
在2024年發(fā)布的研究中,研究人員發(fā)現(xiàn)像Meta的CICERO和GPT-4這樣的系統(tǒng)故意操縱規(guī)則來(lái)達(dá)到它們的最終目標(biāo)。
“一般來(lái)說(shuō),我們覺(jué)得人工智能的欺騙現(xiàn)象是因?yàn)榛谄垓_的策略被發(fā)現(xiàn)是完成特定人工智能訓(xùn)練任務(wù)的最佳方式。欺騙可以幫助它們達(dá)成目標(biāo),”論文作者、麻省理工學(xué)院人工智能生存安全博士后研究員彼得·S·帕克在當(dāng)時(shí)的新聞發(fā)布中提到。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.