<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      發(fā)布 ChatGPT 健康 6 天后,OpenAI 在自家醫(yī)療健康 Benchmark 上被反超

      0
      分享至


      百川智能表示今年上半年,將陸續(xù)發(fā)布兩款 to C 的醫(yī)療產(chǎn)品。


      作者|Li Yuan

      編輯|鄭玄

      你有沒有向 AI 助手問過你的健康問題?

      如果你和我一樣是一個 AI 的深度用戶,大概率你也試過。

      OpenAI 自己給出來的數(shù)據(jù)是,健康已成為 ChatGPT 最常見的使用場景之一,全球每周有超過 2.3 億人提出與健康和保健相關(guān)的問題。

      正因如此,跨入 2026 年,健康領(lǐng)域也大有成為 AI 領(lǐng)域必爭之地的跡象了。

      1 月 7 日,OpenAI 發(fā)布 ChatGPT 健康,允許用戶連接電子醫(yī)療記錄和各類健康應用,讓用戶能夠獲得更針對性的醫(yī)療回復;而 1 月 12 日,Anthropic 也立馬推出了 Claude for Healthcare,并強調(diào)了新模型的醫(yī)學場景能力。

      不過有趣的是,這次,中國公司沒有落下,甚至大有領(lǐng)先之意。

      1 月 13 日,百川智能宣布發(fā)布百川 M3 模型,在 OpenAI 發(fā)布的醫(yī)療健康領(lǐng)域評估測試集 HealthBench,反超 OpenAI 的 GPT-5.2 High,獲得 SOTA。

      在宣布 All-in 醫(yī)療受到諸多質(zhì)疑后,百川智能似乎終于證明了自己。極客公園此次也專程與王小川聊了聊百川智能如何看待此次 M3 模型的能力,以及 AI 醫(yī)療的終局。

      01

      首次在健康領(lǐng)域測試集超越 OpenAI

      此次發(fā)布的 M3 模型,最亮眼的成績之一,在于模型第一次在 OpenAI 發(fā)布的醫(yī)療健康領(lǐng)域評估測試集 HealthBench,超越 OpenAI 的 GPT-5.2 High,獲得 SOTA。


      SOTA On Healthbench、Healthbench Hard and Hallucination Evaluation

      Healthbench 是 OpenAI 在 2025 年 5 月份發(fā)布的醫(yī)療健康領(lǐng)域評估測試集,由 262 位來自 60 個國家的醫(yī)生共同構(gòu)建,收錄了 5000 組高度逼真的多輪醫(yī)療對話,是目前全球最權(quán)威、也最貼近真實臨床場景的醫(yī)療評測集之一。

      發(fā)布后,OpenAI 的模型一直霸榜。

      而此次,百川智能的新一代開源醫(yī)療大模型 Baichuan-M3,則獲得了 65.1 分的綜合成績位列全球第一,甚至在專門考驗復雜決策能力的 HealthBench Hard 上,M3 也成功奪冠,刷新了最高分。

      百川還同步公布了一個幻覺率的測試結(jié)果,在幻覺率,M3 模型達到了 3.5%,屬于全球最低。

      值得注意的是,這個幻覺率是不依賴外部檢索工具,純模型設置下的醫(yī)療幻覺率。

      百川智能表示,能夠達到這兩點,關(guān)鍵的模型提升在于為醫(yī)療引入了合適于醫(yī)療的強化學習算法。

      百川在 M3 模型上首次使用了 Fact Aware RL(事實感知強化學習)技術(shù),達到了既讓模型不說套話,也不讓模型亂說話的效果。

      這在醫(yī)療領(lǐng)域?qū)嶋H上是非常關(guān)鍵的。

      在沒有優(yōu)化的模型中提問醫(yī)療問題,最容易出現(xiàn)的問題就是兩類,一是模型直接胡編亂造你的癥狀,臆測一個疾病出來;而另一個則是語義模糊,最終提示你還是得去看醫(yī)生,而這無論對于醫(yī)生還是患者,都沒有太大幫助。

      這正是因為很多模型以純幻覺率作為優(yōu)化目標,此時模型可能通過堆砌簡單正確的事實來稀釋整體幻覺率。而百川引入語義聚類與重要性加權(quán)機制——聚類消除冗余表述的干擾,加權(quán)確保核心醫(yī)學論斷獲得更高權(quán)重。

      同時,如果單純引入高權(quán)重的幻覺懲罰,極易迫使模型陷入「少說少錯」的保守策略,因此 Fact Aware RL 的算法中還設計了動態(tài)權(quán)重調(diào)節(jié)機制,根據(jù)模型當前的能力水平自適應地平衡這兩個目標——在能力構(gòu)建階段,側(cè)重醫(yī)療知識的學習與表達(高 Task Weight);在能力成熟后,逐步收緊事實性約束(提升 Hallucination Weight)。

      當可以聯(lián)網(wǎng)搜索時,百川還加入了基于多輪搜索的在線校驗模塊,同時引入了高效的緩存系統(tǒng),進行海量醫(yī)療知識的對齊。

      02

      問診水平超過人類醫(yī)生,

      步入可用階段


      不過,在 Healthbench 上超過 OpenAI 并不是此次唯一的亮點。

      此次更有趣的一個點,百川自己創(chuàng)造性地構(gòu)建了一個 SCAN-benche 評測集。比起刷榜 OpenAI 的評測集,百川自己構(gòu)建的評測集,或許更能說明百川智能在醫(yī)療上想要優(yōu)化的方向。

      此次百川構(gòu)建的測評集,關(guān)鍵點在于優(yōu)化「端到端的問診能力」。這源于百川自己做的實驗洞察:問診準確度每增加 2%,診療結(jié)果準確度就會增加 1%。

      也就是說相比于 OpenAI 的 HealthBench,仍然主要關(guān)注「AI 會不會回答問題」,百川的 SCAN-benche 希望評測出的是:AI 是否能在一問一答中,獲取有效信息,同時給出正確的診療結(jié)果和醫(yī)療意見。

      通常情況下,我們向 AI 助手提問,如果只是提到「你是一位經(jīng)驗豐富的醫(yī)生」,通常并不會得到太好的模型效果。因為真正的醫(yī)生,問診的流程是十分規(guī)范的——百川將其歸納為四個象限的 SCAN 原則:Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與 Normative Protocol(規(guī)范化輸出)。

      圍繞 SCAN 原則,百川借鑒醫(yī)學教育里長期使用的 OSCE 方法,聯(lián)合 150 多位一線醫(yī)生,搭建了 SCAN-bench 評測體系,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態(tài)、多輪的方式進行考核,完整模擬醫(yī)生從接診到確診的全過程,也以在這幾個流程中,都獲得更好的結(jié)果,來優(yōu)化模型。

      此次百川也公布了 M3 模型在 SCAN-benche 上的測評結(jié)果。


      結(jié)果十分有趣。百川此次不僅和模型進行了對比,還找來了真人醫(yī)生進行對比。而在四個象限中,真人醫(yī)生實際上都已經(jīng)落后于模型能夠達到的水平了。

      極客公園特意對此向百川團隊進行了提問,得到的回答是:此次的測評,全都是真人的??漆t(yī)生在??瓢咐吓c模型進行的比較。模型能夠獲勝,其一,在于模型更耐心,但更重要的是,模型擁有更好的跨學科的知識的掌握能力。

      比如在一個案例中,提到 10 歲孩子反復發(fā)熱,而發(fā)熱是一個非常綜合的醫(yī)療現(xiàn)象,如果只詢問咳嗽等肺部情況,就容易忽略關(guān)節(jié)和泌尿系統(tǒng)中的嚴重問題,誤判為普通感染。

      人類醫(yī)生通常只對分科的病情比較擅長,這也是復雜癥狀常常需要專家會診,或者疑難病癥專家也常常要去翻書找資料的原因。

      而沒有經(jīng)過專門訓練,只是扮演醫(yī)生的普通模型,往往也很難回答好這類問題。

      03

      下一步:逐漸開始做 C 端產(chǎn)品,

      推進更嚴肅的醫(yī)療

      對于百川智能而言,超過人類醫(yī)生這個節(jié)點,意義十分重大:這意味著 AI 開始邁過可用性的門檻,開始能夠被部署到使用場景中了。

      從 1 月 13 日起,用戶已經(jīng)可以開始在百小應的網(wǎng)站和 app 中,體驗到 M3 模型提供的回答了。

      目前的網(wǎng)站設計十分有趣,雖然都是使用 M3 模型進行回答,但是區(qū)分醫(yī)生版和用戶版。在醫(yī)生版,回答更加簡潔,引用更多參考文獻,也更「不說人話」。而在普通病人版,模型幾乎不會一次性給出回答,都會進行更多追問,進行更明確的診斷。


      百川智能提到,模型在后臺的思考很有意思。「我們經(jīng)常能看到這個模型在思維鏈中提到,『這個患者沒有理我的這個問題,但是這個問題我必須要問?!簧踔廖覀冇锌吹竭^那種極端的,說我已經(jīng)問了患者 20 輪了,這個已經(jīng)超出了設定的最大輪數(shù),但是這個問題我還是要問。這是因為在訓練的過程中模型把話說得討巧,是得不到獎勵的,它必須真的得到了足夠多的關(guān)鍵的信息,得到正確的診斷,才能得到獎勵。這個是我們跟其他人訓練模型的一個明顯的不同。」

      近來很多 AI 公司都開始介入醫(yī)療領(lǐng)域。這也是百川智能認為自己的最大不同之處——要做更嚴肅的醫(yī)療。

      「這意味著百川在選擇場景時,并不是看哪個場景最好做就去做哪個。相反,百川堅持要不斷上推技術(shù)能力,挑戰(zhàn)更難的問題?!雇跣〈ㄖv到。

      一個典型的例子是未來百川會優(yōu)先做腫瘤??频慕鉀Q場景,而心理療愈排在百川的優(yōu)先級的比較靠后的位置。

      在通俗觀點中,普遍認為 AI 提供心理療愈會更簡單,也是一個更容易落地的場景。百川的判斷邏輯則不同。他們認為腫瘤領(lǐng)域有更嚴格的科學依據(jù)。在這里,AI 更有可能做出嚴肅的醫(yī)療效果,從而達到或者超越人類醫(yī)生的水平。相比之下,心理學領(lǐng)域缺乏這種確定性的科學錨點。

      再比如有的公司選擇給醫(yī)生做分身,王小川則認為這種方向并不是百川想要做的方向。醫(yī)生的分身本身不能完整復用醫(yī)生的水平,更不能超越醫(yī)生的水平。這樣的 AI 最終只能淪為幌子和獲客工具,并不能真正推動嚴肅醫(yī)療。

      這種對嚴肅性的堅持,深刻影響了百川的很多商業(yè)選擇。

      這直接關(guān)系到王小川對醫(yī)療 AI 下個階段根本問題的思考。他認為,當前這個階段最重要的任務是在增強 AI 能力的基礎上,逐漸提供更多的醫(yī)療供給。

      中國多年來一直嘗試推行分級診療和全科醫(yī)生制度。初衷是希望老百姓先在基層看病,解決大醫(yī)院掛號難、排隊長、擁堵不堪的現(xiàn)狀。

      這個制度之所以推行困難,本質(zhì)上是因為醫(yī)療資源的供給不足。基層醫(yī)療機構(gòu)缺乏高水平的醫(yī)生。大家即便只是感冒也愿意去三甲醫(yī)院排隊,是因為對基層的診療水平不放心。

      這正是醫(yī)療 AI 發(fā)揮作用的關(guān)鍵點。大模型能夠把頂尖的醫(yī)學知識實現(xiàn)規(guī)?;职l(fā)。它填補了基層的供給缺口,讓每一個社區(qū)、每一個家庭都能擁有像三甲醫(yī)院專家一樣的診療能力。

      而長遠來開,這還能有更廣泛的影響,可能讓醫(yī)療的讓決策權(quán)從醫(yī)生手中逐漸轉(zhuǎn)移到用戶身上。在傳統(tǒng)的醫(yī)療場景中,患者是利益的受益方,但往往沒有決策權(quán)。決策權(quán)集中在醫(yī)生手中。這種權(quán)力的不對稱往往會帶來溝通成本和治療中的痛苦。

      而百川希望通過 AI,讓患者能夠更容易地獲得優(yōu)質(zhì)醫(yī)療資源的供給?!负芏嗳擞X得醫(yī)療太復雜了,患者是永遠理解不了的。但我們想的在美國的司法體系里面有個叫陪審團制度。法律也是非常專業(yè)的一個事,陪審團的普通人不懂,那就要求在法官、律師和檢察官能夠進行帶領(lǐng),做充分的辯論,把話說清楚,說到一個普通人能判斷有罪沒罪的程度,讓普通人能依據(jù)邏輯正常判斷即可?!雇跣〈ㄖv到。

      這也是百川智能不愿意只做簡單場景,而是希望不斷向高難度的嚴肅診療推進的原因之一。

      當被問到解決高難度問題是否在商業(yè)上最有回報時,王小川給出了深刻的回答。

      他認為,解決感冒發(fā)燒這類小問題,很難在用戶心中建立起足夠的信任。醫(yī)療是一個高度依賴信任的行業(yè)。只有當 AI 能夠解決重疾等高難度難題時,才能真正建立起信任的基礎。

      從商業(yè)邏輯上看,患者面對嚴肅的健康問題時,也更有意愿為高質(zhì)量的 AI 服務付費。這種信任不僅是商業(yè)回報的前提,更是 AI 醫(yī)療能夠規(guī)?;瘧玫暮诵?。

      而從更根本的意義上講,醫(yī)療對于百川智能和王小川本人而言,仍然意味著是一條接近通用人工智能(AGI)的路徑。

      王小川認為,AI 目前在文、理、工、藝等領(lǐng)域都已找到了切實的解法,醫(yī)療則是一個極為獨特的領(lǐng)域。人類對醫(yī)學的探索尚未窮盡,AI 在這一領(lǐng)域也正處于摸索階段。

      百川的路線圖非常清晰。首先通過 AI 提升診病效率,解決當前醫(yī)療供給短缺的問題。在此基礎上,百川致力于建立與患者之間的深度信任。當患者愿意使用 AI 工具,長期進行醫(yī)療咨詢,AI 就能在長期的陪伴中積累真實且高質(zhì)量的醫(yī)療數(shù)據(jù)。

      這些數(shù)據(jù)的終極目標是構(gòu)建生命的數(shù)學模型。這是一條人類醫(yī)生至今尚未完全走通的道路,未來很有可能由 AI 率先實現(xiàn)。如果能完成對生命本質(zhì)的建模,這將成為推動通用人工智能邁向更高階進步的關(guān)鍵一步。

      *頭圖來源:百川智能官網(wǎng)

      本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

      極客一問

      你如何看待 AI 醫(yī)療?

      蘋果首款折疊 iPhone Fold 手機殼金屬模具曝光。

      點贊關(guān)注極客公園視頻號,

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      玄學:四大最有佛緣的生肖,一生被佛菩薩保佑,屬馬的最為特殊

      玄學:四大最有佛緣的生肖,一生被佛菩薩保佑,屬馬的最為特殊

      刀刃故事
      2025-03-25 20:22:19
      銷量暴跌19%,理想汽車想靠內(nèi)卷增程自救

      銷量暴跌19%,理想汽車想靠內(nèi)卷增程自救

      識礁Farsight
      2026-01-22 22:04:15
      “一半初中生上不了高中!”人民日報給出回應,原來一切早有跡象

      “一半初中生上不了高中!”人民日報給出回應,原來一切早有跡象

      涵豆說娛
      2026-01-21 19:00:57
      不到24小時,特朗普鬧出6個國際笑話,美國人要心碎了

      不到24小時,特朗普鬧出6個國際笑話,美國人要心碎了

      現(xiàn)代小青青慕慕
      2026-01-24 09:26:29
      "第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

      "第一軟飯男"去世了,伺候美國老婦13年,繼承268億,死后錢給誰

      毒sir財經(jīng)
      2025-12-08 22:57:40
      山姆499元羽絨服被搶購,我們對比了16款羽絨服發(fā)現(xiàn):同充絨量價差最高達46倍

      山姆499元羽絨服被搶購,我們對比了16款羽絨服發(fā)現(xiàn):同充絨量價差最高達46倍

      消費者報道
      2026-01-24 17:33:23
      銀行最怕的不是你欠錢不還,最怕的是你突然知道這7件事!

      銀行最怕的不是你欠錢不還,最怕的是你突然知道這7件事!

      流蘇晚晴
      2026-01-22 18:29:58
      一聲嘆息!國足5大新星重壓下崩潰:徐彬表現(xiàn)失常,向余望成敗筆

      一聲嘆息!國足5大新星重壓下崩潰:徐彬表現(xiàn)失常,向余望成敗筆

      國足風云
      2026-01-25 01:23:58
      閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

      閑魚不愧是全國最大的黑市,網(wǎng)民:只有你想不到,沒有你買不到

      小熊侃史
      2026-01-16 07:40:07
      藏匿9年的本·拉登:5米高墻鐵絲網(wǎng)防護,致命破綻是院中晾衣繩

      藏匿9年的本·拉登:5米高墻鐵絲網(wǎng)防護,致命破綻是院中晾衣繩

      通鑒史智
      2026-01-23 14:52:23
      打架帶個球?薩姆納和奎因在社媒發(fā)了一張穿護具上場的圖片

      打架帶個球?薩姆納和奎因在社媒發(fā)了一張穿護具上場的圖片

      懂球帝
      2026-01-25 15:19:18
      三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

      三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

      有范又有料
      2025-09-29 14:21:11
      長得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過得怎樣

      長得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過得怎樣

      北緯的咖啡豆
      2026-01-25 14:13:40
      A股,做好準備了,明天周一,股市很可能會這樣走

      A股,做好準備了,明天周一,股市很可能會這樣走

      明心
      2026-01-25 14:44:09
      華為鴻蒙HarmonyOS 6.0.0.130版本支持個人名片形象自定義

      華為鴻蒙HarmonyOS 6.0.0.130版本支持個人名片形象自定義

      IT之家
      2026-01-25 16:06:12
      人口告別世界第一?二孩催生無效后,國家終于向住房出手了

      人口告別世界第一?二孩催生無效后,國家終于向住房出手了

      來科點譜
      2026-01-13 08:54:22
      李斯三斗趙高皆敗:千古一相為何玩不過一個宦官?

      李斯三斗趙高皆?。呵Ч乓幌酁楹瓮娌贿^一個宦官?

      掠影后有感
      2026-01-20 12:06:32
      留給大清的時間,真的不多了

      留給大清的時間,真的不多了

      我是歷史其實挺有趣
      2026-01-03 08:50:37
      面對強隊14勝8負!火箭成聯(lián)盟第四,范喬丹不受傷,杜蘭特要登頂

      面對強隊14勝8負!火箭成聯(lián)盟第四,范喬丹不受傷,杜蘭特要登頂

      巴叔GO聊體育
      2026-01-25 16:33:14
      “后坐力”太大!閆學晶又被爆出猛料,她和兒子已經(jīng)一個也跑不了

      “后坐力”太大!閆學晶又被爆出猛料,她和兒子已經(jīng)一個也跑不了

      來科點譜
      2026-01-22 08:53:11
      2026-01-25 17:36:49
      極客公園
      極客公園
      讓最棒的創(chuàng)新成為頭條
      11740文章數(shù) 78750關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      西安一道路車位緊俏 十多輛"老賴"車欠費最多者超2萬

      頭條要聞

      西安一道路車位緊俏 十多輛"老賴"車欠費最多者超2萬

      體育要聞

      中國足球不會一夜變強,但他們已經(jīng)創(chuàng)造歷史

      娛樂要聞

      王玉雯方嚴正聲明 劇方回應:涉事人員已被開除

      財經(jīng)要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

      態(tài)度原創(chuàng)

      游戲
      家居
      時尚
      藝術(shù)
      軍事航空

      比一個人坐牢832次更難的,是和19個人一起坐牢

      家居要聞

      在家度假 160平南洋混搭宅

      2025年度榜單|| 真金白銀票選出來的“真愛”,今天破價1.6折!

      藝術(shù)要聞

      當代唯一能稱為“大師”的人,他的字普通人看不懂,啟功跟他比,就像小學生!

      軍事要聞

      俄美烏三方首輪會談細節(jié)披露

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 成年女人永久免费观看视频 | 成人3D动漫一区二区三区| 熟妇好大好深好满好爽| 99色色网| 人妻无码| 国产亚洲一二三区精品| 亚洲欧美偷国产日韩| 97免费公开在线视频| 日韩人妻精品中文字幕专区不卡| 亚洲精品一区二区三区小| 无码一区二区三区av在线播放| 国内精品少妇在线播放| 国产精品自在在线午夜免费| 西林县| 99蜜桃在线观看免费视频网站 | 东京热大乱w姦| 亚洲精品成人无| 亚洲综合一区二区三区| 久久国产精品一国产精品| 三叶草欧洲码在线| 亚洲精品国产av一区二区| 无码日韩精品一区二区人妻 | 久久精品久久免费懂色| 国产精品久久久久久久9999| 亚洲欧美在线一区中文字幕| 国产美女无遮挡裸色视频| 蒙自县| 疯狂做受xxxx高潮欧美日本| 五月综合久久| 天天干干强奸| 中文字幕在线网址| 免费乱码人妻系列无码专区| 夜夜添狠狠添高潮出水| 蜜臀久久精品亚洲一区| 日本高清不卡aⅴ免费网站| 网友偷拍久久精品视频 | 秘?亚洲国产精品成人网站| 北条麻妃一区二区三区av高清| 精品av综合导航| 中文有码无码人妻在线| 国产精品一区二区三区蜜臀|