醫(yī)學領(lǐng)域深度學習模型訓練的挑戰(zhàn)!

發(fā)布日期：2022-03-11 作者：WLT 點擊：

在醫(yī)學數(shù)據(jù)集的訓練算法過程中面臨的諸多問題中，這三個是最常見的:多任務數(shù)據(jù)集規(guī)模不均衡。

對于這些問題，我會分享一些技巧來解決。類別不平衡挑戰(zhàn)

在現(xiàn)實世界中，我們看到健康的人比患病的人多，這也體現(xiàn)在醫(yī)學數(shù)據(jù)集上。并且健康和疾病類別的例子的數(shù)量是不均衡的。這反映了現(xiàn)實世界中疾病的發(fā)生頻率。在醫(yī)療數(shù)據(jù)集和信用卡欺詐數(shù)據(jù)集，你可能會看到正常樣本的數(shù)量是異常樣本的一百倍。

這樣一來，很容易被誤認為是車型性能優(yōu)異，其實不然。如果使用諸如accuracy_score accuracy之類的簡單測量，就會發(fā)生這種情況。對于這類數(shù)據(jù)集，準確率并不是一個很好的衡量標準，因為標簽傾斜嚴重，所以一個只輸出正常標簽的神經(jīng)網(wǎng)絡的準確率甚至可以略高于90%。解決方案:

我們可以定義更有用的指標，比如F1指標或& # 34；準確率/召回率& # 34；。準確度被定義為& # 34；真實病例數(shù)/(真實病例數(shù)加上假陽性病例數(shù))& # 34；。當有很多錯誤的例子時，這是一個很好的措施。另一方面，召回率被定義為& # 34；真實案例數(shù)/(真實案例數(shù)+錯誤反例數(shù))& # 34；。這是一個很好的措施，當有很多錯誤的反例。醫(yī)療域中的大多數(shù)模型都是這種情況。而我們往往需要同時考慮假陽性樣本和假陰性樣本的數(shù)量，這就是F1測量的作用。它實現(xiàn)了精度和召回率的平衡，由公式2 *(精度*召回率)/(精度+召回率)給出。

另一種處理階級不平衡的流行技術(shù)是& # 34；重采樣& # 34；。這是從大多數(shù)類(具有太多樣本的類)中刪除樣本(稱為欠采樣)或向少數(shù)類添加樣本(稱為過采樣)以實現(xiàn)兩個類之間的平衡的行為。雖然它們可以通過使用復雜的重采樣技術(shù)來解決，但它們有自己的缺點，如信息丟失和過擬合。多任務挑戰(zhàn)

在現(xiàn)實世界中，預測健康或疾病通常是不夠的。我們經(jīng)常需要把醫(yī)療的數(shù)據(jù)分成多個類別或者標簽。比如只從心律上檢測心律不齊就沒那么有市場了，對患者進行分析來確定哪種心律不齊更有價值。例如，癥狀可以是心房纖維性顫動、室上性心動過速或任何其他類型。

理論上，可以為每個需要分類的標簽訓練單獨的神經(jīng)網(wǎng)絡模型，但是這對于編碼來說是非常不切實際的。如果我們能夠?qū)⑺羞@些分類模型結(jié)合到一個返回多個預測的單一深度神經(jīng)網(wǎng)絡中，將會更有價值。解決方案:

我們使用一種叫做& # 34；多類別分類& # 34；或者& # 34；多標簽分類& # 34；方法來應對這一挑戰(zhàn)，它們略有不同。在多類別中，數(shù)據(jù)樣本的類別是互斥的，而在多標簽中，數(shù)據(jù)樣本可以屬于多個類別。在醫(yī)學領(lǐng)域，我們通常采用多標簽分類，因為如果一個患者被診斷為肺不張(肺功能不全)，并不意味著他/她不會出現(xiàn)心臟肥大。我們將模型最后一層的分數(shù)傳遞給Sigmoid激活函數(shù)。這將把最后一級的每個分數(shù)轉(zhuǎn)換為0到1之間的值，而不考慮其他分數(shù)。

對于多標簽分類，我們選擇的損失函數(shù)變成了binary_crossentropy，其中每個標簽都被視為一個獨立的伯努利分布，因為我們使用了Sigmoid激活函數(shù)。如果需要多個類，Sigmoid激活函數(shù)可以替換為softmax激活函數(shù)，其損失函數(shù)設置為categorical _ crossentropy。數(shù)據(jù)集大小挑戰(zhàn)

處理醫(yī)學數(shù)據(jù)集的主要挑戰(zhàn)是這些數(shù)據(jù)集的大小。除了好的架構(gòu)，大規(guī)模的訓練數(shù)據(jù)對模型的性能也有重要作用，疾病可用的患者數(shù)據(jù)數(shù)量往往不足。低數(shù)據(jù)集大小是高偏差和高方差的主要原因。這給模型的推廣和優(yōu)化帶來了困難。解決方案:

為了解決模型優(yōu)化的困難，我們使用一種叫做& # 34；學習& # 34；方法，在該方法中，我們使用從相關(guān)網(wǎng)絡的較低層學習來訓練較高層，而不需要它們從頭學習。由于之前的訓練，下層可以作為很好的特征提取器，所以我們可以根據(jù)數(shù)據(jù)集進行微調(diào)。這項技術(shù)優(yōu)化速度更快，并減少了訓練新模型所需的數(shù)據(jù)量。

為了解決模型泛化的困難，我們使用了一種叫做& # 34；數(shù)據(jù)增強& # 34；技術(shù)，在向模型提供數(shù)據(jù)之前，不是復制同一個例子，而是對例子進行一些隨機的變換。通過這種方式，我們可以保持模型不變，例如大小或亮度的小變化。諸如水平或垂直翻轉(zhuǎn)圖像、改變圖像的亮度或?qū)Ρ榷纫约霸谝欢ǔ潭壬闲D(zhuǎn)或縮放圖像等做法有助于數(shù)據(jù)擴展。這種技術(shù)對于避免小數(shù)據(jù)集中的過度擬合非常有用。

本文網(wǎng)址：http://sem136.com/news/938.html

相關(guān)標簽：醫(yī)學數(shù)據(jù)集,醫(yī)學領(lǐng)域

上一篇：斯坦福大學將差分隱私AI模型訓練提速10倍，將用于新冠醫(yī)學影像!
下一篇：GE 醫(yī)療與VA 醫(yī)療系統(tǒng)合作，旨在提高3D打印醫(yī)療模型創(chuàng)建速度!

新聞分類