撰文丨王聰
編輯丨王多魚
排版丨水成文
肺癌是全球最具侵襲性和普遍性的癌癥之一,2020 年預(yù)估新增病例達(dá) 220 萬(wàn)例,死亡病例達(dá) 180 萬(wàn)例。多數(shù)肺癌病例在進(jìn)展至晚期前無(wú)明顯癥狀,而晚期治療選擇往往有限,導(dǎo)致五年生存率低于 10%。
大語(yǔ)言模型(LLM)在臨床應(yīng)用中的探索日益增多,但其生成肺癌篩查管理建議的能力仍不確定。
2025 年 11 月 21 日,復(fù)旦大學(xué)中山醫(yī)院譚黎杰教授團(tuán)隊(duì)等在 Cell 子刊Cell Reports Medicine上發(fā)表了題為:Multi-center benchmarking of large language models for clinical decision support in lung cancer screening 的研究論文。
該研究進(jìn)行了多中心基準(zhǔn)測(cè)試,評(píng)估了六款大語(yǔ)言模型(LLM)在肺癌篩查臨床決策支持中的應(yīng)用,結(jié)果顯示,Claude 3 Opus生成的建議可讀性最高,而GPT-4的臨床準(zhǔn)確性最高。此外,GPT-4o和DeepSeek-R1,表現(xiàn)與 GPT-4 相當(dāng),均優(yōu)于 GPT-3.5。這些發(fā)現(xiàn)表明,大語(yǔ)言模型有可能在不同醫(yī)療環(huán)境中增強(qiáng)肺癌篩查的臨床決策支持。
![]()
自美國(guó)國(guó)家肺癌篩查試驗(yàn)證明年度低劑量計(jì)算機(jī)斷層掃描(LDCT)篩查可顯著降低肺癌死亡率后,LDCT 已成為改善預(yù)后和生存率的關(guān)鍵策略,尤其對(duì)肺癌高危人群而言。LDCT 掃描過程中有時(shí)會(huì)偶然發(fā)現(xiàn)被稱為肺結(jié)節(jié)的小團(tuán)塊(<3厘米)。發(fā)現(xiàn)結(jié)節(jié)后需立即決策:是采取正電子發(fā)射斷層掃描-CT、活檢甚至手術(shù)等即時(shí)干預(yù)措施,還是僅需制定不同間隔期的常規(guī)隨訪方案。此類決策通常由門診醫(yī)生完成,因此可能受益于專業(yè)的臨床決策支持系統(tǒng)。
大語(yǔ)言模型(LLM)是基于數(shù)十億來自文章、書籍和其他互聯(lián)網(wǎng)內(nèi)容的單詞訓(xùn)練而成的人工智能系統(tǒng)。在過去兩年中,越來越多的研究探索了 LLM 在支持診斷和治療決策方面的巨大潛力。在肺癌領(lǐng)域,LLM 已被用于回答非專業(yè)人士的肺癌相關(guān)問題、對(duì)自由文本 CT 報(bào)告進(jìn)行數(shù)據(jù)挖掘以及評(píng)估肺結(jié)節(jié)患者的縱向 CT 圖像。最近有兩項(xiàng)研究評(píng)估了開源大語(yǔ)言模型DeepSeek-R1在臨床決策中的表現(xiàn),結(jié)果表明,其與 OpenAI 的GPT-4o等領(lǐng)先的專有大語(yǔ)言模型不相上下。然而,這些研究?jī)H限于從醫(yī)學(xué)教科書和學(xué)術(shù)期刊中獲取的病例報(bào)告,因此在實(shí)際臨床應(yīng)用方面存在不足。
在這項(xiàng)最新研究中,研究團(tuán)隊(duì)開展了一項(xiàng)多中心的橫斷面研究,旨在評(píng)估大語(yǔ)言模型(LLM)是否適合作為決策支持工具,為首次低劑量計(jì)算機(jī)斷層掃描(LDCT)中偶然發(fā)現(xiàn)肺結(jié)節(jié)的患者提供常規(guī)癌癥篩查的管理建議,而這是肺癌篩查臨床管理中的一個(gè)緊迫挑戰(zhàn)。
為了盡可能真實(shí)地模擬癌癥篩查場(chǎng)景,研究團(tuán)隊(duì)從三家不同的醫(yī)療機(jī)構(gòu)收集了 LDCT 報(bào)告。將這些報(bào)告翻譯成英文并去除所有患者可識(shí)別信息后,準(zhǔn)備了 148 份匿名的 LDCT 報(bào)告以供大語(yǔ)言模型(LLM)使。在評(píng)估階段,研究團(tuán)隊(duì)系統(tǒng)地評(píng)估了四種廣泛使用的 LLM——GPT-3.5、GPT-4、Claude 3 Sonnet和Claude 3 Opus——在這些醫(yī)院中的可讀性、準(zhǔn)確性以及一致性。為了與該領(lǐng)域的最新進(jìn)展保持一致,研究團(tuán)隊(duì)還使用一家醫(yī)院的 LDCT 報(bào)告對(duì)兩種最先進(jìn)(SOAT)模型——專有的GPT-4o及開源的DeepSeek-R1進(jìn)行了探索性分析。
評(píng)估結(jié)果顯示,Claude 3 Opus生成的建議可讀性最高,而GPT-4達(dá)到了最高的臨床準(zhǔn)確性。重要的是,這些大語(yǔ)言模型對(duì)來自不同醫(yī)院的報(bào)告之間的性能差異并不顯著,這突顯了這些大語(yǔ)言模型對(duì)報(bào)告模板變化的穩(wěn)健性以及在不同醫(yī)療環(huán)境中的實(shí)用性。在探索性分析中,兩款最先進(jìn)(SOAT)模型——專有的GPT-4o及開源的DeepSeek-R1,表現(xiàn)與 GPT-4 相當(dāng),均優(yōu)于 GPT-3.5。
該研究的亮點(diǎn):
多中心橫斷面研究對(duì)六種大語(yǔ)言模型(LLM)在肺癌篩查中的表現(xiàn)進(jìn)行基準(zhǔn)測(cè)試;
真實(shí)世界的低劑量計(jì)算機(jī)斷層掃描(LDCT)報(bào)告評(píng)估了 LLM 在管理建議方面的表現(xiàn);
GPT-4 準(zhǔn)確度最高,而 Claude 3 Opus 的可讀性最佳;
GPT-4o 和 DeepSeek-R1 的表現(xiàn)與 GPT-4 相當(dāng),并且優(yōu)于 GPT-3.5。
![]()
總的來說,這些發(fā)現(xiàn)表明,大語(yǔ)言模型(LLM)有可能在不同醫(yī)療環(huán)境中增強(qiáng)肺癌篩查的臨床決策支持。
論文鏈接:
https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00538-5
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.