也許,最靠譜的AI產(chǎn)品,不是我們作為談資經(jīng)常去跟人聊的,而是那個自己和家人遇到事的時候,真正想問的。
夸克健康大模型最近剛發(fā)布,說實話,我是心存慎重的。
很多AI大模型會刻意繞開“健康”這一類低容錯、專業(yè)要求度高的領(lǐng)域,主打更人畜無害、無關(guān)痛癢的一些功能。
但是夸克好像總是踩在老百姓的剛需線上。
之前的高考報志愿是,今天的健康大模型也是。
是讓我覺得真正應(yīng)該出現(xiàn)在“相親相愛一家人”群里的AI產(chǎn)品。
![]()
不止醫(yī)學(xué)知識,更有醫(yī)學(xué)思維
通用大模型在醫(yī)療領(lǐng)域的局限性在于,它們通常擅長基于海量文本進行信息提取和概括,但難以形成嚴謹?shù)?b>臨床推理(Clinical Reasoning)。
臨床推理是醫(yī)生在面對患者時,通過有目的的提問、信息收集和邏輯推理,逐步形成診斷和決策的核心過程。
夸克健康大模型的核心目標,正是要讓模型“內(nèi)化”這種推理框架。
![]()
比如我問“頸部曲度變直如何緩解?”
這是個辦公室人群的常見毛病了,身邊同事十個里面可能七八個都有,體檢完想要詳細問問,反而被醫(yī)生三兩句話就打發(fā)了。
夸克給我的分析、解讀,可以說是非常貼心且周到了。
![]()
這種推理、診斷、決策、建議,是什么原理呢?
夸克團隊在數(shù)據(jù)結(jié)構(gòu)上進行了專門設(shè)計,采用了“問題-思考過程-最終答案”的三元組(Question-CoT-Answer)形式。
這種數(shù)據(jù)結(jié)構(gòu)要求模型不僅要得出正確的答案,還要提供一個符合醫(yī)學(xué)邏輯、可解釋、可信的推理過程。
這種數(shù)據(jù)的獲取成本遠高于普通問答數(shù)據(jù),但其價值在于,它能夠為模型提供一個可觀測的思維路徑,從而訓(xùn)練模型形成高質(zhì)量的推理能力。
![]()
比如,問到“糖尿病”時,模型不會直接給出診斷結(jié)論,而是會先進行“思考”。
這個思考過程被拆解為一系列可觀測的“思考行動(Action)”,如“問題重述”、“知識回憶”、“問題反思”和“總結(jié)”等。
這套體系深入刻畫了醫(yī)療思維路徑,解決了長期以來困擾醫(yī)療大模型訓(xùn)練的難題之一:如何衡量思維過程的質(zhì)量。
這就是帶有臨床推理的慢思考。
![]()
就像我問耳鳴是怎么回事,根據(jù)相應(yīng)信息,夸克可以綜合分析給出多種潛在的可能性。
一步一步的,追問我的身體情況、近期遭遇、過往病史、生活習(xí)慣等等,是現(xiàn)實生活里極少遇到的耐心。
通過這種方式,夸克大模型能夠從一個看似簡單的癥狀描述中,逐步推理出可能的疾病,并給出相應(yīng)的建議。
這就與通用模型直接給出答案的模式有著本質(zhì)區(qū)別。
夸克的數(shù)據(jù),更靠譜?
夸克健康大模型的不同,還體現(xiàn)在其為提高數(shù)據(jù)與模型質(zhì)量而構(gòu)建的“基礎(chǔ)設(shè)施”上。
這套基礎(chǔ)設(shè)施的核心是兩條平行的推理數(shù)據(jù)生產(chǎn)線,它們分別處理不同類型的數(shù)據(jù),并協(xié)同工作。
1. 可驗證數(shù)據(jù)生產(chǎn)線
![]()
這條生產(chǎn)線主要處理那些有明確、唯一答案的醫(yī)療任務(wù)數(shù)據(jù),如疾病診斷、手術(shù)名稱、藥物劑量和檢驗結(jié)果等。其流程包括:
冷啟動數(shù)據(jù)與模型微調(diào): 在這一階段,團隊使用SOTA語言模型生成高質(zhì)量的“問思答”數(shù)據(jù),并由專業(yè)的醫(yī)生團隊進行逐字逐句的校驗,確保醫(yī)學(xué)知識和邏輯的權(quán)威性與無風(fēng)險性。
推理強化學(xué)習(xí)訓(xùn)練: 在此階段,模型以激發(fā)健康醫(yī)學(xué)知識運用為目標,通過強化學(xué)習(xí)方法進行訓(xùn)練。這個過程旨在將模型能力推向極致,使其能夠處理更高難度的推理任務(wù)。
數(shù)據(jù)蒸餾與數(shù)據(jù)集生成: 經(jīng)過強化學(xué)習(xí)訓(xùn)練后,能力達到階段性最優(yōu)的策略模型被用于生成高質(zhì)量的“問思答”數(shù)據(jù)。這些數(shù)據(jù)再經(jīng)過蒸餾,形成最終的高質(zhì)量可驗證數(shù)據(jù)集,用于后續(xù)的訓(xùn)練和應(yīng)用。
![]()
比如我想知道貓毛過敏如何緩解,具體到吃什么藥,這就需要精準的高質(zhì)量數(shù)據(jù)。
需要是經(jīng)過反復(fù)驗證的清晰有效的建議。
這就很符合第一條數(shù)據(jù)生產(chǎn)線的情況,讓具體問題可以有標準答案。
2. 不可驗證數(shù)據(jù)生產(chǎn)線
![]()
這條生產(chǎn)線主要處理那些答案不唯一、形式多樣的任務(wù)數(shù)據(jù),如健康建議、科普文章等長文本。其流程包括:
數(shù)據(jù)蒸餾與原始數(shù)據(jù)生成: 同樣利用SOTA語言模型進行數(shù)據(jù)蒸餾,生成具備思維過程的答案輸出。這些問題來源于醫(yī)生檢查過的高質(zhì)量問題、醫(yī)學(xué)論壇提問以及夸克瀏覽器的搜索日志。
偏好獎勵模型篩選: 由于這類任務(wù)沒有唯一的標準答案,團隊采用強化學(xué)習(xí)中的偏好學(xué)習(xí)方法。引入多個維度的偏好獎勵模型,對答案的正確性、完整性、無害性、相關(guān)性、邏輯性進行打分。這些模型采用偏序建模方式,輸出判斷信號,從而篩選出質(zhì)量最優(yōu)的答案作為訓(xùn)練數(shù)據(jù)。
多維度質(zhì)量評估: 在這個階段,系統(tǒng)特別關(guān)注醫(yī)療中常見的“多解、多路徑”問題。模型生成的內(nèi)容即使不在預(yù)設(shè)的正確答案集合中,只要具有積極意義,就會被識別為“增益型”結(jié)果并給予正向獎勵。這鼓勵模型輸出更全面、更具啟發(fā)性的答案。
![]()
最近天氣熱又潮濕,很多朋友遇到過起小紅疹的情況。
原因可以很多樣,這就用到了第二條數(shù)據(jù)生產(chǎn)線的分析,能夠調(diào)用強大的知識庫的能力,盡可能全面給出補充。
夸克給出的答案就包羅萬象,從幾百個信息源中提煉共性,綜合評估內(nèi)容質(zhì)量,然后才給出了結(jié)果。
這兩條數(shù)據(jù)產(chǎn)線,確保了模型能夠從不同類型的數(shù)據(jù)中持續(xù)學(xué)習(xí),并形成穩(wěn)健而全面的能力。
夸克還有高情商?
夸克健康大模型并非一個孤立的技術(shù)項目,就在夸克里可以直接用。
用戶在夸克搜索中查詢健康問題時,即可即時調(diào)用該模型。
此外,模型還以“夸克健康助手”和“夸克深度研究產(chǎn)品”的形式,為用戶提供更深度的健康服務(wù)。
在用戶體驗層面,模型不僅追求回答的專業(yè)性,還通過共情話術(shù)體系來提升用戶感受。
![]()
遇到發(fā)燒的情況,夸克會在搜索框自動給出提示,還會給出一點安慰。
在處理用戶帶有焦慮、恐懼等情緒的問題時,模型會先進行情感上的安撫,再給出專業(yè)的醫(yī)療建議,避免因措辭不當而引發(fā)用戶焦慮。
這就是技術(shù)背后的人文關(guān)懷,也是在健康醫(yī)療領(lǐng)域建立用戶信任的關(guān)鍵。
![]()
說起感冒發(fā)燒,夸克就會先用有人情味的話語安慰我,然后再具體給我解決方案。
就讓人覺得不僅好用,而且暖心。
技術(shù)上有什么特別?
為了進一步提升模型的可靠性和可控性,夸克健康大模型設(shè)計了一套多維度的獎勵系統(tǒng)和多階段訓(xùn)練方法。
1. 過程獎勵模型(PRM)與結(jié)果獎勵模型(ORM)
這套系統(tǒng)旨在從兩個維度共同考量模型的表現(xiàn):“推理過程的合理性”與“結(jié)果的質(zhì)量”。
過程獎勵模型: 這個模型不依賴于最終答案,而是專注于評估“思考過程(CoT)”的質(zhì)量。通過讓醫(yī)學(xué)專家提煉出“排除法”、“反推法”等思維模式,并用這些模式作為提示詞來生成打分數(shù)據(jù),模型學(xué)會了評估思考過程是否合乎醫(yī)學(xué)邏輯、結(jié)構(gòu)是否清晰。
結(jié)果獎勵模型: 對于有明確答案的任務(wù),系統(tǒng)使用基于規(guī)則的驗證器,結(jié)合百萬級ICD編碼醫(yī)療術(shù)語集進行比對。對于沒有明確答案的任務(wù),則采用生成式獎勵模型,利用SOTA語言模型生成的評分作為訓(xùn)練數(shù)據(jù),來評估答案的正確性和全面性。
![]()
這也就解釋了為什么夸克健康大模型要比通用模型,在醫(yī)療場景效果要好很多。
2. 多階段訓(xùn)練與一致性校驗
夸克團隊還設(shè)計了多階段訓(xùn)練方法,以持續(xù)優(yōu)化模型能力并防止其“遺忘”。
混合訓(xùn)練: 在后訓(xùn)練階段,系統(tǒng)采用偏好獎勵模型(RLHF)和驗證器補充檢驗(RLVR)相結(jié)合的混合訓(xùn)練方式。偏好模型負責(zé)對齊回答的風(fēng)格,使其更具共情性,而驗證器則持續(xù)校驗醫(yī)學(xué)知識的規(guī)范性和推理邏輯,防止模型在風(fēng)格對齊過程中產(chǎn)生知識遺忘。
一致性驗證器與對抗“作弊”: 系統(tǒng)還引入了一致性驗證器,專門用于校驗思考路徑與最終答案之間是否存在邏輯斷裂。在訓(xùn)練過程中,團隊還針對模型可能出現(xiàn)的“作弊”行為進行對抗性訓(xùn)練,通過人工標注負面案例和迭代驗證器,持續(xù)壓縮模型的作弊空間,確保其優(yōu)化方向始終正確。
![]()
AI再好,還是給人用的
現(xiàn)在AI產(chǎn)品越來越多了,但我真正常用的越來越少了。
真正愿意推薦給身邊人的,更少了。
AI是一門技術(shù),但我更希望它是讓我們生活變得更好的藝術(shù),是每天能夠幫我們解決問題的好幫手。
對AI最高的評價,我想到兩個詞:
靠譜、有人味。
夸克健康大模型,在今天看來,足夠靠譜、足夠用心!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.