施普林格·自然旗下專業(yè)學(xué)術(shù)期刊《自然-醫(yī)學(xué)》最新發(fā)表一篇醫(yī)學(xué)研究論文指出,基于人工智能(AI)技術(shù)的大語言模型(LLM),目前或許還不能協(xié)助公眾做出更好的日常健康決策。研究人員認(rèn)為,這類AI工具的未來設(shè)計(jì)需要更好地支持真實(shí)用戶,才能安全用于向公眾提供醫(yī)學(xué)建議。
該論文介紹,全球醫(yī)療機(jī)構(gòu)提議將大語言模型作為提升公眾獲取醫(yī)療信息的潛在工具,讓個(gè)人在向醫(yī)生求助前進(jìn)行初步健康評(píng)估和疾病管理。但之前的研究顯示,控制場(chǎng)景下在醫(yī)師資格考試中得分很高的大語言模型,并不保證能有效完成真實(shí)世界的交互。

本項(xiàng)研究相關(guān)示意圖(圖片來自論文)。施普林格·自然 供圖
在本項(xiàng)研究中,英國(guó)牛津大學(xué)牛津互聯(lián)網(wǎng)研究所研究團(tuán)隊(duì)與合作者一起,測(cè)試了大語言模型是否能協(xié)助公眾精準(zhǔn)辨別醫(yī)療病癥,如普通感冒、貧血或膽結(jié)石,并選擇一種行動(dòng)方案,如呼叫救護(hù)車或聯(lián)系全科醫(yī)生。研究團(tuán)隊(duì)給1298名英國(guó)受試者每人指派了10種不同的醫(yī)療情景,并讓他們隨機(jī)使用三個(gè)大語言模型(GPT-4o、Llama3或Command R+)中的一個(gè),或使用他們的常用資源(對(duì)照組),如互聯(lián)網(wǎng)搜索引擎。
研究結(jié)果顯示,不用人類受試者進(jìn)行測(cè)試時(shí),大語言模型能準(zhǔn)確完成這些情景,平均能在94.9%的情況下正確辨別疾病,在56.3%的情況下選擇正確的行動(dòng)方案。不過,當(dāng)受試者使用相同的大語言模型時(shí),相關(guān)病癥的識(shí)別率低于34.5%,選擇正確行動(dòng)方案的情況低于44.2%,這一結(jié)果未超過對(duì)照組。研究團(tuán)隊(duì)人工檢查了其中30種情況的人類-大語言模型交互并發(fā)現(xiàn),受試者常向模型提供不完整或不準(zhǔn)確的信息,并且大語言模型有時(shí)也會(huì)生成誤導(dǎo)性或錯(cuò)誤的信息。
論文作者總結(jié)認(rèn)為,當(dāng)前的大語言模型未準(zhǔn)備好部署用于直接的患者醫(yī)療,因?yàn)閷⒋笳Z言模型與人類用戶配對(duì),會(huì)產(chǎn)生現(xiàn)有基準(zhǔn)測(cè)試和模擬交互無法預(yù)測(cè)到的問題。
版權(quán)聲明:凡注明“來源:中國(guó)西藏網(wǎng)”或“中國(guó)西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國(guó)西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。