![]()
Ke, L., Tong, S., Cheng, P., & Peng, K. (2025). Exploring the frontiers of llms in psychological applications: A comprehensive review. Artificial Intelligence Review, 58(10), 305.https://doi.org/10.1007/s10462-025-11297-5
6
大語言模型作為心理學的研究工具
在第 2–5 節探討了 LLMs 在認知與行為心理學中的理論基礎與實踐應用,并強調其在推動心理學研究方法發展中的作用之后,本節將重點關注 LLMs 在研究中最重要的應用之一:其在系統綜述與元分析自動化與優化方面的潛力。這一部分凸顯了 LLMs 作為基于認知與行為原理的工具,如何能夠革新證據綜合(evidence synthesis)過程,并為心理學家提供可操作的洞見。換句話說,盡管前文主要聚焦于 LLMs 作為心理學研究中客觀性工具的作用,但本節將關注點轉向心理學家自身的科研工作流程。與第 5 節中討論的生產力提升類似,LLMs 也能夠在心理學家工作的各個環節提升效率。具體而言,LLMs 作為科學研究工具,可以幫助心理學家完成從文獻綜述、假設生成、實驗設計、實驗被試、數據分析到促進學術交流的全鏈條任務(見表 5)。
![]()
![]()
表5.大語言模型(LLMs)作為心理學研究工具的應用
6.1 自動化文獻綜述和元分析
進行文獻綜述與元分析是一項復雜而繁重的工作,需要大量時間與專業知識(Michelson & Reuter, 2019)。《Nature》曾報道,研究人員已開始使用 GPT 作為科研助理來總結文獻(Dis 等,2023)。在一項研究中,研究人員利用 GPT 完成了部分系統性文獻綜述任務(Qureshi 等,2023)。在另一項研究中,作者借助 GPT 撰寫了一篇關于數字孿生在健康領域應用的文獻綜述,結果顯示,在 LLMs 的幫助下,知識匯編與表達得到了加速,但其學術有效性仍需進一步驗證(Ayd?n & Karaarslan, 2022)。此外,研究人員還專門訓練 LLMs 以支持科學研究的實際需求(Taylor 等,2022),包括執行系統性文獻綜述的能力。
近期研究進一步強調了 LLMs 在支持元分析方面的高效性。例如,Luo 等(2024)證明,LLMs 可以對文獻進行篩選、數據提取,并生成用于元分析的統計代碼,在顯著減少工作量的同時,保持了與人工整理相當的召回率。類似地,Tong 等(2024)使用 LLMs 從 43,312 篇心理學文章中提取因果對,通過自適應提示實現了 86.98% 的提取成功率。正如第 3 節所述,LLMs 在從大型文本數據集中提取因果關系方面表現出很強的能力,這凸顯了其在簡化系統綜述與元分析的證據綜合過程中的潛力。然而,盡管 LLMs 在整理定性數據與識別概念模式方面表現優異,但在提取元分析所需的精確數值數據時仍存在挑戰。例如,雖然基于 LLM 的工具可以檢索并總結結果指標,但在處理復雜圖表或數據表時,人工驗證仍然必不可少,以確保準確性。
總之,LLMs 可以加快文獻綜述與元分析的進程。研究人員可以利用此類模型系統性地回顧與整合現有研究,從而提高循證心理學的研究效率。
6.2 假設生成和實驗設計
假設驅動型研究是科學活動的核心。LLMs 能夠從科學文獻中生成假設、基于數據進行推斷,并通過解釋來澄清結論(Banker 等,2024;Zheng 等,2023)。盡管 LLMs 具備成為“假設生成機器”的潛力,但其邏輯推理與數學推導能力仍需提升,以消除事實性錯誤、快速檢驗假設并從錯誤中學習(Y. J. Park 等,2024)。作為創新性工具,LLMs 在心理學實驗中具有巨大應用潛力,尤其是其能夠為實驗設計提供基于文本的材料,從而優化研究流程并降低實驗復雜性。研究人員可以利用此類模型輕松創建實驗刺激、設計測試題目,甚至在受控環境中模擬交互環節(Aher, Arriaga, & Kalai, 2022;Akata 等,2023),從而在實驗過程中實現高度的可控性與精確性。
總之,從假設生成到實驗設計,LLMs 為心理學研究提供了功能強大且靈活多樣的工具,能夠幫助研究人員實現更精準、高效的科研目標。
6.3 大語言模型作為心理學實驗的受試者
盡管大語言模型(LLMs)能夠模擬某些人類行為和反應——這為檢驗有關人類行為的理論與假設提供了機會(Grossmann 等, 2023)——但關于 LLMs 是否可以作為心理學研究中人類被試的替代者仍存在爭議。盡管研究者認識到仍有一些問題存在(例如偏差和訓練數據不足),一些學者建議,LLMs 可以作為人類被試的替代方案,以節省時間和成本,并可應用于不適合人類參與的實驗(Hutson, 2023)。還有研究者提出,根據其在特定研究主題、任務和樣本等因素下的表現,在合適的情況下可以將 LLMs 作為研究被試的一種替代方法(Dillion 等, 2023)。然而,也有人認為,盡管 LLMs 可能會對科學研究產生重大影響,但它們不太可能以任何有意義的方式取代人類被試(Harding 等, 2023)。與此同時,一些關于將 LLMs 作為被試的研究表明,LLMs 的表現與人類相似(Orru 等, 2023;P. S. Park 等, 2024),這可能意味著 LLMs 在一定程度上有潛力取代人類被試。
總之,雖然 LLMs 能夠模擬人類的判斷,但其對人類思維的模擬仍然有限,因此在將其作為心理學被試時,其輸出結果應謹慎驗證和解讀。
6.4 數據分析的工具
各種形式的人工智能(AI)早已被用于分析心理學數據,例如用于飛行員選拔的飛行數據分析(Ke 等, 2023)。機器學習算法能夠促進大規模數據集的處理,識別原本可能被忽視的模式和相關性。然而,大語言模型(LLMs)將這一能力提升到了新的水平;它們能夠以前所未有的規模高效分析海量文本數據,從而獲得有關人類行為和情緒的洞察(Patel & Fan, 2023)。對于心理學研究而言,這意味著更快速且更全面的數據分析,從而產生更加可靠和細致的研究發現。LLMs 可以分析多種語言的文本數據,準確識別其中的心理結構(Rathje 等, 2023),并能基于社交媒體數據生成心理畫像(Peters & Matz, 2023)。LLMs 還在醫學領域展現出一定的能力,例如,它們能夠針對特定的臨床表現預測最優的神經影像學檢查方式。然而,LLMs 仍無法超越經驗豐富的神經放射科醫生,這表明在醫學應用中仍需持續改進(Nazario-Johnson 等, 2023)。這些研究結果表明,LLMs 在數據評估與分析方面具有巨大潛力。
6.5 促進學術交流
學術交流是學術研究的基石,涵蓋了知識的創造、評估與傳播過程。這包括撰寫研究論文、開展同行評審,以及確保研究成果的透明與合倫理傳播。在心理學領域,由于其理論框架和方法路徑的多樣性——從實驗研究到質性研究——這一過程尤其復雜。該學科關注人類行為,并與技術產生交叉,因此對精確且合乎倫理的交流實踐有著更高的要求。
有觀點認為,當前的大語言模型(LLMs)尚不能完全取代人類寫作,而只能回答問題并生成自然流暢且信息豐富的內容,但缺乏真正的智能——即基于先前所見詞匯模式生成的文本(Stokel-Walker, 2022)。一項研究中,學生在寫作時使用了 GPT 作為輔助工具。結果發現,使用 GPT 的實驗組在寫作質量、速度和真實性方面與對照組相似;作者認為,這可能是因為有經驗的研究人員能夠更好地引導 GPT 生成高質量的信息。相比之下,寫作經驗不足的學生發現 GPT 的表現不夠理想(Ba?i? 等, 2023)。另一篇文章討論了 GPT 在學術寫作中的前景與潛在威脅,并強調在學術研究中使用 GPT 時應優先依賴經過同行評議的學術來源。同時,該文也指出了 GPT 在學術研究中的潛在優勢,包括處理海量文本數據、自動生成摘要和研究問題(Dergaa 等, 2023)。此外,LLMs 還可在同行評審中發揮潛在作用(Van Dis 等, 2023)。在一項文本評估任務中,LLMs 的判斷結果與人類專家保持一致(Chiang & Lee, 2023)。
總之,像 GPT 這樣的大語言模型是心理學學術交流的有力工具,能夠處理海量文本數據,并自動化完成原本需要人工進行的任務。它們可以用于掃描學術論文并提取關鍵信息,生成客觀且無偏的摘要,并在社會心理學中提出研究問題(Banker 等, 2023;Tong 等, 2024)。然而,研究人員在使用它們時必須保持謹慎,因為它們也可能將虛假或有偏見的信息引入論文,從而導致無意的抄襲或概念的錯誤歸屬(Van Dis 等, 2023)。
7
挑戰與未來方向
7.1 挑戰與局限性
大語言模型(LLMs)在模擬復雜認知過程方面具有巨大潛力,為研究者提供了全新的工具,以探索人類認知與行為的機制,并在臨床與咨詢心理學、教育與發展心理學、社會與文化心理學等多個領域廣泛應用。然而,LLM 的輸出不應被誤認為具備思維,而應視為基于概率建模的復雜模式匹配(Floridi & Chiriatti, 2020)。盡管 LLM 的表現令人印象深刻,但這與意識或真正的理解不同。對 LLM 能力的解讀必須建立在對其局限性和運行機制本質的理解之上,而這些可能與人類認知存在根本差異。因此,必須在關注 LLM 在心理學研究潛力的同時,正視可能出現的技術與倫理挑戰。
首先,盡管 LLM 的能力不斷涌現(Wei 等, 2022),但從認知與行為心理學的角度,其內部工作機制仍是“黑箱”。例如,LLM 在需要形式語言能力(包括對特定語言規則與模式的掌握)的任務中表現優異,但在需要功能性語言能力(理解并在真實世界中使用語言所需的認知能力)的測試中卻屢屢失利(Mahowald 等, 2023)。它們在類比推理與道德推理任務中表現出色,但在空間推理任務中表現不佳(Agrawal, 2023)。
其次,雖然 LLM 加速了人工智能在臨床與咨詢心理治療中的應用,但也可能帶來隱私與倫理問題(Graber-Stiehl, 2023)。例如,守門人、患者,甚至使用 GPT 評估自殺風險或輔助決策的心理健康專業人員,可能會收到低估風險的不準確評估(Elyoseph & Levkovich, 2023),或在臨床決策中受到偏見影響,從而導致醫療不公平(Pal 等, 2023)。此外,在精神病學研究與實踐中,LLM 的使用還可能帶來潛在的偏差與隱私侵犯風險(Zhong 等, 2023)。
第三,LLM 在教育、發展以及社會與文化心理學等領域的應用同樣面臨挑戰。在教育應用中,LLM 可能出現輸出偏差與被濫用的風險(Kasneci 等, 2023)。有研究發現,GPT 生成的文本并不總是一致或邏輯自洽,有時甚至相互矛盾(Stojanov, 2023)。在社會與文化心理學中,LLM 展現出與人類相似的認知偏差(Talboy & Fuller, 2023)與文化偏差(Atari 等, 2023),并隱含更為負面的個性特征(X. Li 等, 2022)。Bender 等(2021)指出,LLM 的訓練數據可能反映并延續社會偏見,這些偏見可能在研究環境中被進一步固化。
最后,LLM 作為科學研究的輔助工具也存在一定局限。例如在寫作方面,當前的 LLM 尚不能完全替代人類,而是通過回答問題與生成自然流暢、信息豐富的內容來輔助,但并不具備真正的智能(Stokel-Walker, 2022)。盡管宏語言模型在作為實驗被試時可以模擬人類判斷,但它們對人類思維的“理解”仍有限(Dillion 等, 2023)。Van Dis 等(2023)指出,LLM 可能加速創新、縮短發表周期,并提升科研的多樣性與公平性,但也可能降低研究的質量與透明度,并從根本上改變科學家作為研究者的自主性。
綜上所述,LLM 在心理學研究中具備非凡能力,但同時也伴隨偏差、倫理問題、數據安全、透明度以及技術能力等方面的挑戰。研究人員在使用 LLM 時應充分認識到這些挑戰,并在研究項目中采取負責任的應對措施。表 6 總結了 LLM 在心理學應用中的挑戰與局限性。
![]()
![]()
![]()
![]()
表6.大語言模型(LLMs)在心理學應用中的挑戰與局限
7.2 未來方向與新興趨勢
目前,大語言模型(LLMs)已被應用于心理學的不同領域,包括認知與行為心理學、臨床與咨詢心理學、教育與發展心理學,以及社會與文化心理學。隨著 LLM 能力的不斷提升,其在心理學中的潛在應用將持續發展。
首先,在認知與行為心理學領域,隨著多模態 LLM 的出現(OpenAI, 2023),有可能將視覺、聽覺信息與文本數據相結合,更好地理解和建模情緒、行為與心理狀態,以促進認知研究。此外,神經影像數據可用于優化 LLM 的架構與參數,并與傳統文本數據相融合,從而構建更為準確且符合生物學原理的人類語言與思維模型。
其次,在臨床與咨詢心理學領域,一方面,可以利用個人數據(如社交媒體發布內容、病歷記錄或可穿戴設備數據)來創建個性化的 LLM,從而更精準、更具針對性地洞察個體心理狀態。同時,將人類臨床與咨詢專業知識的優勢,與 LLM 的可擴展性和計算能力相結合,有望開發出新的診斷、治療與干預工具。此外,在教育與發展心理學以及社會與文化心理學領域,構建具備倫理性的 LLM 至關重要,并需確保其設計與應用過程尊重隱私、合理且負責任地使用數據。
歸根結底,LLM 是一項系統性工程,其未來發展離不開心理學、計算機科學、語言學等多個領域研究者的跨學科協作。對于心理學研究者而言,易于獲取的開源 LLM 框架與工具或將成為未來科研工作的重要組成部分。表 7 總結了 LLM 在心理學應用中的未來發展方向與新興趨勢。
![]()
![]()
表 7. 大語言模型(LLMs)在心理學應用中的未來方向與新興趨勢
8
結論
隨著人工智能技術的快速發展,尤其是大語言模型(LLMs)的不斷進步,機器學習已能夠識別人類語言并生成自然語言。這一發展不僅是心理學領域的技術突破,更為一系列潛在應用打開了大門。
首先,在認知與行為心理學領域,LLMs 在多種認知任務中表現優異。盡管在因果認知與規劃方面仍存在一定局限,這些模型復興了“聯想”這一原理,展現出跨距離聯想和復雜推理的能力。同時,將 LLMs 與認知模型相結合的能力,是心理學研究的一大優勢,使得研究者能夠對人類認知與行為加工機制展開新的探索。
其次,在臨床與咨詢心理學領域,LLMs 可用作心理健康的初步診斷工具。傳統心理健康診斷依賴專業人員的經驗以及與患者的直接交流,而 LLMs 可以通過分析個體的語言表達與文本內容,快速識別潛在的心理健康問題,如抑郁和焦慮。需要強調的是,這類診斷不能完全取代專業心理評估,但可作為一種有效的輔助手段,幫助心理學家更快了解患者的狀況,或在基礎心理健康干預中發揮作用。同時,個性化心理干預也是 LLMs 的重要應用方向之一。通過結合個體的健康數據與生活習慣信息,這些模型能夠提供定制化的心理建議與干預方案。這種個性化路徑有望顯著提升心理干預的有效性。
第三,LLMs 在教育與發展心理學,以及社會與文化心理學領域也具有廣闊的應用潛力。例如,LLMs 可以提供互動式、個性化的學習體驗,或基于真實情境生成研究任務,從而提升學習動機并促進學習效果。此外,通過分析海量社交媒體數據,這些模型還能幫助研究者追蹤與分析公眾情緒變化,更好地理解社會心理動態。
最后,在心理學研究中,LLMs 能夠顯著提升研究效率。研究人員可以利用這些模型快速整理與分析大量文獻,從而節省時間;它們還可輔助實驗設計、數據分析,甚至推動學術交流,使心理學研究更高效、更精準。
綜上所述,LLMs 在心理學中具有廣闊的應用前景,包括科研支持、認知建模、個性化干預以及個性化學習等。它們還有潛力顯著加深我們對人類交流、思維過程與行為的理解,從而推動更為全面的心智理論與認知科學的發展。然而,也必須正視相關的風險與挑戰,確保遵守倫理規范,尤其是在涉及個人隱私與數據安全時。同時,我們應認識到,無論技術多么先進,LLMs 也只能在一定程度上替代人類專業人員的判斷與經驗。因此,這類模型應被視為輔助工具,而非一體化的解決方案。
(完結)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.