豐色 魚羊 發自 凹非寺 量子位 報道 | 公眾號 QbitAI蒐集的全部新冠機器學習「看片」論文,一篇能用的都沒有?!就在「廣州兩名醫務人員核酸檢測呈陽性」的新聞再度牽動大傢伙的
2021-06-14 15:07:30
豐色 魚羊 發自 凹非寺 量子位 報道 | 公眾號 QbitAI
蒐集的全部新冠機器學習「看片」論文,一篇能用的都沒有?!
就在「廣州兩名醫務人員核酸檢測呈陽性」的新聞再度牽動大傢伙的神經之際,一項來自劍橋大學的新研究也在外網上點燃了炸藥桶。
打從疫情之初,就有不少機器學習領域的研究人員,希望藉助AI之力,幫助醫務人員更好地保護自己:
去年1月到10月,就有2000多篇相關論文發表。
但是,就在AI比較成熟的看片領域,劍橋大學的結論卻讓人大跌眼鏡:
蒐集到的關於用AI進行新冠病毒醫學影象檢測、診斷的論文,都存在重大缺陷和偏差,沒有臨床使用的可能性。
論文已發表在Nature Machine Intelligence上。
而如此「殘酷」的結果,正可謂一石激起千層浪,專家學者紛紛轉發討論不說,也在社交媒體上引發了網友的熱議。
有不少相關從業者表示:「這給我們上了重要的一課。」
究竟是怎麼一回事?
為什麼不能用?
具體而言,劍橋大學的研究人員一開始在bioRxiv、medRxiv、arXiv等預印本論文平臺,以及EMBASE和MEDLINE資料庫中,按照「機器學習模型」、「CXR(胸部X光照片)/CT影象診斷、預測」這樣的關鍵詞,蒐集到了2212項相關研究。
從中剔除掉缺乏外部驗證、忽略了資料來源或模型訓練資訊不完整的論文之後,通過初篩的論文有415篇。
而在進一步提高對論文的要求,比如排除掉RQS(放射性質量評分)<6、未能通過CLAIM(醫學影像人工智慧檢查表)的模型之後,入選最終評審階段的論文有62篇。
而這62篇,都沒有潛在的臨床應用價值。
對此,論文作者之一、來自劍橋大學醫學部的James Rude博士表示:
國際機器學習界在幫助應對Covid-19流行病上做出了巨大的努力。這些早期研究讓我們看到了一些希望,但它們在方法和報告(methodology and reporting)方面的缺陷非常普遍,我們審查的論文中沒有一篇達到支援臨床應用所必需的健壯性和可重複性。
在這62篇論文中,有55篇被發現由於各種問題而存在高偏見風險,包括依賴公共資料集,其中許多疑似陽性Covid-19的CT影象也沒檢測出來。
所有這些模型在研究中都看起來高度準確,一到臨床就原形畢露(例如不同類型的患者或使用不同裝置獲得的成像掃描)。
這「全軍覆沒」的背後,主要還是資料集的問題。
其中許多模型都是在樣本資料集極小的情況下訓練的,有的資料還只來自一家醫院,換個城市換個醫院,這模型完全就不奏效了。
也有模型是基於公開的「Frankenstei資料集」來進行訓練的。這樣的大型資料集存在的問題是,隨著時間推移,資料集不斷髮展、融合新的資料,這些變化很可能使得最初的結果無法復現。
更有甚者,訓練和測試用的是同一個資料集。
當然,這也許不是研究人員存心這麼做,由於法律和商業原因,很多醫療資料集都得保密,可供研究人員訓練和驗證的大型又多樣化的資料真的很少。
這也導致醫療保健領域出品的機器學習研究特別難以複製,麻省理工就做過一項研究:
醫療AI論文復現率只有23%,而自然語言處理領域為58%,計算機視覺領域則達80%。
但資料集還只是一方面。其中也有方法設計不當和缺乏放射科醫生和臨床醫生參與的問題。
例如,有模型的訓練集採用兒童的CT影象作為「非Covid-19」資料、成人的作為「Covid-19」資料。
但實際上,在兒科就診的兒童,在人體解剖結構上與成人有很大差異。這樣的資料設定並不合理,訓練出來的模型就會存在很大偏差。
「而無論大家是用機器學習來預測天氣還是檢測疾病,確保不同的專家在一起工作並說相同的語言很重要,這樣才可以關注正確的問題。」 可惜的是,很多模型都沒有讓放射科醫生和臨床醫生參與進來。
另外,時間限制也可以被解釋為這一系列問題的「藉口」。
「這些障礙都必須克服,不然就要面對信任危機」
當然,大量此類論文發表卻全部無法應用的背後,說明這方面論文的審查制度也有問題,例如審稿人缺乏對機器學習的深入瞭解,或對知名機構或公司盲目信任等等,導致這些論文被草草通過。
但最重要是審稿機構缺乏一致的標準來評估醫學領域的機器學習研究。劍橋大學的研究人員認為作者和審稿人之間需要建立一套共同的標準,確保研究真的解決了實際問題。
最後,儘管大量的Covid-19模型被發現無法復現應用於臨床,劍橋大學的研究人員表示,經過一些關鍵的修改,這些機器學習模型還是可以成為抗擊新冠的有力工具。
他們給出了一些總結和建議:
公共資料集可能導致嚴重的偏差風險,謹慎使用;為了使模型適用於不同的群體和獨立的外部資料集,訓練資料應該保持多樣性和適當的大小;除了更高質量的資料集外,還需要可復現和外部驗證的證明,這樣才能增加模型被推進並整合到未來臨床試驗中的可能性。並表示這些障礙都必須克服,不然人們對人工智慧的信任將從何談起?
此外由於隱私限制難以獲取醫療資料,除了採取聯邦學習,也可以參考一下最新發表在Nature封面上的聯合學習(Swarm Learning ),一項優於聯邦學習的醫療資料共享技術。
AI看片到底行不行?
面對劍橋大學的結論,有網友感到憂心忡忡:
如今,AI/ML的價值和可信度正在被稀釋。當我聽到「AI解決方案」、「AI驅動」這樣的字眼時,甚至會感到緊張。
也有網友認為,這與當下機器學習領域論文「灌水」之風不無關係。
但也有網友客觀地分析,認為AI確實已經在醫療影像方面發揮了作用,只是它們替代不了醫生,更多是在扮演醫生的助手,並且目前,AI並沒有辦法去應對一些真正困難的情況。
而針對文章談到的資料問題,有不少網友表示贊同:
資料並不是唯一的問題,但似乎是最直接的原因。是時候為AI模型和資料集構建「蛋白質銀行」這樣的資料庫了。
事實上,無論你對AI醫療是否持懷疑的態度,現在,至少像AI看片這樣的醫療服務,已經真真切切來到了大眾身邊。
此前,量子位的同事就曾在中關村醫院讓AI給拍了一次CT。
而在與一線醫生的溝通交流中,也有在三甲醫院負責體檢中心的主任醫生向我們透露:如檢測肺結節這樣的單點應用,已經能夠幫助醫生減輕負擔。
甚至還有放射科醫生表示,「現在不用(AI輔助看片),還有點不習慣」。
Stat News則對此評論稱:
機器學習在醫療領域蓬勃發展,同時也面臨著信譽危機。
那麼,你覺得AI醫療到底行不行呢?
相關文章
豐色 魚羊 發自 凹非寺 量子位 報道 | 公眾號 QbitAI蒐集的全部新冠機器學習「看片」論文,一篇能用的都沒有?!就在「廣州兩名醫務人員核酸檢測呈陽性」的新聞再度牽動大傢伙的
2021-06-14 15:07:30
檢視微信朋友圈是很多朋友每天必做的功課,以前要看朋友圈只能通過手機微信,現在最新版的微信電腦客戶端也能夠檢視朋友圈資訊了。這篇文章就跟大家分享一下電腦客戶端檢視朋友
2021-06-14 15:06:11
器械集採中流傳著一句名言「將高值醫用耗材打骨折。」 隨著醫改政策的不斷推行,從2020年開始,帶量集採開始迎來更大規模的動作。2020年11月5日,醫療器械集採第一單——冠脈支架
2021-06-14 14:23:21
【TechWeb】據此前官方預告的訊息,號稱「Vlog至美之作」的全新榮耀50系列將於下週三(6月16日)正式釋出。隨著釋出日期的日益臨近,關於該機的外觀和配置細節都得到了非常詳盡的曝
2021-06-14 14:22:40
IT之家 6 月 14 日訊息 來自全球各地的加密貨幣礦工們中超過 90% 的人達成共識,並在昨日批准了一項新政策 Taproot,這預示位元幣近四年以來的首次升級。加密貨幣領域的專家稱,
2021-06-14 14:22:06
華為開發出的鴻蒙系統上線,讓它再次成為國內網際網路的熱點,鴻蒙系統以物聯網系統LiteOS為基礎發展而來,其實小米同樣也開發了物聯網系統Vela,那麼小米能以Vela為基礎開發自己的
2021-06-14 14:03:20