隨著人工智能(AI)技術(shù)的快速發(fā)展,大語(yǔ)言模型(如DeepSeek)因其強(qiáng)大的語(yǔ)言理解和生成能力,逐漸被應(yīng)用于心理學(xué)領(lǐng)域,尤其是在生成“虛擬被試”上。但這些虛擬被試能否準(zhǔn)確反映真實(shí)人群的心理特征,尤其是不同地區(qū)人群心理結(jié)構(gòu)差異呢?近日,由我課題組撰寫(xiě)的論文“大語(yǔ)言模型模擬區(qū)域心理結(jié)構(gòu)的有效性:人格與幸福感的實(shí)證檢驗(yàn)”發(fā)表在國(guó)內(nèi)心理學(xué)權(quán)威期刊《心理科學(xué)》上。
本研究旨在評(píng)估大語(yǔ)言模型(DeepSeek)基于人口統(tǒng)計(jì)特征條件下,模擬群體心理特征的能力。基于與中國(guó)家庭追蹤調(diào)查(2018年)人口學(xué)特征相匹配的樣本(N = 2943),構(gòu)建AI生成的“虛擬被試”,與真實(shí)被試數(shù)據(jù)進(jìn)行對(duì)比,分析中國(guó)人大五人格與幸福感的區(qū)域差異及其關(guān)系。研究發(fā)現(xiàn),模擬數(shù)據(jù)在幸福感和大五人格的區(qū)域分布趨勢(shì)上與真實(shí)數(shù)據(jù)總體一致,僅在細(xì)節(jié)上表現(xiàn)出特異性,且部分人格維度對(duì)幸福感具有預(yù)測(cè)作用。這表明,以DeepSeek為代表的大語(yǔ)言模型模擬區(qū)域心理結(jié)構(gòu)方面的潛力,但其應(yīng)用需要關(guān)注文化敏感性和細(xì)粒度特征的建模。研究為評(píng)估大語(yǔ)言模型在人群心理特征建模的有效性提供了實(shí)證支持。
研究結(jié)果表明(見(jiàn)下圖),DeepSeek模型在總體上成功再現(xiàn)了真實(shí)數(shù)據(jù)的大致趨勢(shì),比如經(jīng)濟(jì)發(fā)達(dá)的華東地區(qū)表現(xiàn)出較高的幸福感。然而在具體人格特質(zhì)方面,虛擬樣本表現(xiàn)出明顯的偏差,例如外向性和開(kāi)放性明顯低于真實(shí)樣本,尤其是在西北地區(qū);宜人性和神經(jīng)質(zhì)則顯著高于真實(shí)數(shù)據(jù),東北地區(qū)尤為突出。此外,AI模擬數(shù)據(jù)中的幸福感普遍偏低,東北地區(qū)的幸福感更是顯著低估。
![]()
進(jìn)一步的區(qū)域分析顯示,無(wú)論是真實(shí)還是虛擬樣本,各區(qū)域的心理特征和幸福感都存在顯著差異,但虛擬樣本對(duì)區(qū)域心理特質(zhì)的再現(xiàn)仍有局限性。例如,真實(shí)樣本中東北地區(qū)幸福感較高,而虛擬樣本卻顯示華東地區(qū)幸福感最高。這表明模型可能過(guò)于依賴(lài)經(jīng)濟(jì)發(fā)展指標(biāo),未充分考慮文化與社會(huì)因素對(duì)幸福感的綜合影響。最后,在對(duì)大五人格特質(zhì)與幸福感之間關(guān)系的回歸分析中,真實(shí)數(shù)據(jù)表明盡責(zé)性、外向性、開(kāi)放性與低神經(jīng)質(zhì)顯著預(yù)測(cè)較高的幸福感;而AI模擬數(shù)據(jù)則呈現(xiàn)了顯著差異,例如外向性在虛擬數(shù)據(jù)中甚至負(fù)向預(yù)測(cè)幸福感,宜人性被過(guò)度強(qiáng)調(diào),而盡責(zé)性則失去了預(yù)測(cè)作用。這種差異顯示了大語(yǔ)言模型在捕捉人類(lèi)情感體驗(yàn)和社會(huì)互動(dòng)復(fù)雜性上的局限性。
本研究在方法論上具有創(chuàng)新性,首次嘗試在心理學(xué)領(lǐng)域以大語(yǔ)言模型作為“虛擬被試”與大規(guī)模的真人數(shù)據(jù)進(jìn)行對(duì)比,為大規(guī)模區(qū)域差異研究提供新的工具和研究范式。研究明確指出了AI模擬數(shù)據(jù)的應(yīng)用價(jià)值,包括預(yù)測(cè)真實(shí)調(diào)查趨勢(shì)、預(yù)實(shí)驗(yàn)驗(yàn)證假設(shè),以及解決真實(shí)樣本獲取困難等實(shí)際問(wèn)題。然而,文中強(qiáng)調(diào)AI模擬數(shù)據(jù)不可完全替代真實(shí)調(diào)查,只能作為輔助工具使用。同時(shí),還探討了當(dāng)前AI模擬方法的局限與未來(lái)改進(jìn)的方向,包括豐富模型訓(xùn)練語(yǔ)料、增強(qiáng)情感模擬能力、提高文化敏感性等。特別指出,當(dāng)前的大語(yǔ)言模型可能存在強(qiáng)化社會(huì)刻板印象的風(fēng)險(xiǎn),例如東北地區(qū)幸福感的低估可能源于模型語(yǔ)料中負(fù)面刻板印象的過(guò)度強(qiáng)化。
總體而言,本研究驗(yàn)證了DeepSeek在宏觀趨勢(shì)模擬方面的潛力,揭示了AI在心理結(jié)構(gòu)模擬上的局限性。這一成果對(duì)跨文化和區(qū)域心理學(xué)研究提供了新視角,同時(shí)也明確指出了AI在心理測(cè)量與數(shù)據(jù)模擬領(lǐng)域未來(lái)的發(fā)展方向和研究潛力。
本文的第一作者為我系2021級(jí)博士生柯羅馬,通訊作者為我與原課題組助理研究員/博士后童松(現(xiàn)北京師范大學(xué)碩士生導(dǎo)師)。本研究得到了清華大學(xué)水木學(xué)者計(jì)劃(2021SM157)、國(guó)家博士后國(guó)際交流引進(jìn)計(jì)劃(YJ20210266)、清華大學(xué)支持基礎(chǔ)文科博士后計(jì)劃的支持;同時(shí)也得到了清華大學(xué)產(chǎn)業(yè)研究院自選課題的資助(2024-06-18-LXHT003)。
論文鏈接: https://jps.ecnu.edu.cn/CN/10.16719/j.cnki.1671-6981.20250412
柯羅馬, 李增逸, 廖江群, 童松, 彭凱平. 大語(yǔ)言模型模擬區(qū)域心理結(jié)構(gòu)的有效性:人格與幸福感的實(shí)證檢驗(yàn)*[J]. 心理科學(xué), 2025, 48(4): 907-919.
Ke Luoma, Li Zengyi, Liao Jiangqun, Tong Song, Peng Kaiping. Effectiveness of Large Language Models in Simulating Regional Psychological Structures: An Empirical Examination of Personality and Subjective Well-being[J]. Journal of Psychological Science, 2025, 48(4): 907-919.
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.