人工智能診斷或預測疾病風(fēng)險的能力正迅速提升,一些人工智能工具已經(jīng)進(jìn)入臨床實(shí)踐。最近幾周,研究人員公布了通過(guò)掃描視網(wǎng)膜圖像即可預測眼睛和心血管疾病風(fēng)險的人工智能模型,并可通過(guò)分析乳房X光線(xiàn)照片來(lái)檢測乳腺癌。
人工智能診斷具備改善醫療服務(wù)的交付和提高效率的潛力,它代表了多年來(lái)計算能力和深度學(xué)習背后的神經(jīng)網(wǎng)絡(luò )研究的提升。研究人員認為,當一種算法能夠像病理學(xué)家和放射科醫師那樣有效地從這些圖像中識別出特定的病癥,那么該算法可以說(shuō)是成功的。
但這并不意味著(zhù)人工智能診斷已做好了臨床的準備。有關(guān)人工智能診斷的許多研究很成功,令人歡欣鼓舞,可是科學(xué)的研究過(guò)程要求詳細描述研究方法和所用材料,并在研究的過(guò)程中反復試驗,最后還需進(jìn)行大量的臨床試驗。人工智能診斷在這些方面還遠遠不夠。許多業(yè)內人士抱怨說(shuō),開(kāi)發(fā)人員并沒(méi)有把研究工作做得足夠深入。他們沒(méi)有采用像藥物開(kāi)發(fā)那樣在成熟領(lǐng)域建立得以證據為基礎的試驗方法。他們沒(méi)有想藥物開(kāi)發(fā)那樣使用基于實(shí)證的研究方法
例如,許多關(guān)于新的人工智能診斷工具的報告,只會(huì )在網(wǎng)站的預印本或聲明中出現。這些報告沒(méi)有經(jīng)過(guò)行業(yè)的評審,也可能永遠不會(huì )。而行業(yè)的評審會(huì )驗證這些研究的關(guān)鍵細節,如:基礎算法代碼和分析、用于訓練模型的圖像、與之類(lèi)比的醫生、用于神經(jīng)網(wǎng)絡(luò )做決定的特征、診斷的警告等。
這些細節至關(guān)重要。例如,去年發(fā)表的一項調查發(fā)現,將每個(gè)X光照片的評估時(shí)間限定為1分鐘時(shí),利用人工智能模型檢測乳腺癌的效果要好于11名病理學(xué)家。然而,當不再限制時(shí)間時(shí),病理學(xué)家比計算機發(fā)現了更多難以檢測的病例。
還一些問(wèn)題只有在實(shí)際應用時(shí)才會(huì )出現。例如,診斷算法可能會(huì )錯將某些特定設備生成的圖像與某些疾病聯(lián)系起來(lái)。但這僅僅可能是因為該算法在訓練過(guò)程中,使用該設備的醫療機構檢測的此類(lèi)病人比使用不同設備的另一家醫療機構更多。
這些問(wèn)題是可以克服的。一種方法是,對于醫生來(lái)說(shuō),在醫療機構里使用人工智能診斷工具后,醫生需要追蹤結果并報告,這樣回溯性研究就會(huì )暴露出該工具的缺陷。更好的方法是,這些工具應該被嚴格地開(kāi)發(fā)——在大量數據上進(jìn)行訓練測試,并在經(jīng)過(guò)行業(yè)評審的受控研究中進(jìn)行驗證。這是一個(gè)緩慢而困難的過(guò)程,一部分的原因在于隱私問(wèn)題使得研究人員很難獲得所需的大量醫療數據。
《自然》雜志的一篇報道探討了一個(gè)可行的方法:研究人員正在構建基于區塊鏈的系統,以鼓勵患者安全地分享信息。目前,人類(lèi)的監督可能會(huì )防止人工智能診斷中出現的問(wèn)題釀成關(guān)乎性命的大問(wèn)題。因此,美國食品和藥物管理局等監管機構允許醫生進(jìn)行低風(fēng)險的技術(shù)試驗。
但缺乏嚴謹的態(tài)度確實(shí)會(huì )帶來(lái)直接的風(fēng)險:炒作失敗周期可能會(huì )阻止其他人投資類(lèi)似的技術(shù),這可能會(huì )更好。有時(shí)候,在競爭激烈的領(lǐng)域,如人工智能,一個(gè)廣為人知的研究成果足以阻止對手進(jìn)入同一領(lǐng)域。
細致而謹慎的研究是一種更好的方法。需要可靠的數據和強大方法支撐的研究可能需要更長(cháng)時(shí)間,并且不會(huì )產(chǎn)生盡可能多的令人滿(mǎn)意的結果。但只有這樣才能將人工智能診斷的研究引向正軌,并可防止因失誤造成的病人死亡,從而真正改善我們的生活。