斯坦福大學(xué)將差分隱私AI模型訓(xùn)練提速10倍，將用于新冠醫(yī)學(xué)影像!

發(fā)布日期：2022-03-11 作者：WLT 點(diǎn)擊：

作者|圖表核心

更快更早地診斷疾病，開發(fā)定制藥物，研發(fā)新藥:人工智能在醫(yī)療領(lǐng)域潛力巨大，可以顯著提高患者的治療效果，挽救生命，幫助世界各地的人們保持健康，延長生命。

進(jìn)展迅速，并產(chǎn)生了重大影響。這反過來對用于訓(xùn)練人工智能模型的患者敏感數(shù)據(jù)的隱私和安全提出了新的挑戰(zhàn)。誠然，從公眾、醫(yī)學(xué)社區(qū)到政府層面對這個問題的討論越來越多，但我們顯然需要研究和改進(jìn)人工智能技術(shù)，以更好地保護(hù)數(shù)據(jù)隱私。

目前，斯坦福大學(xué)醫(yī)學(xué)院的研究人員在使用差分隱私這一保護(hù)敏感數(shù)據(jù)的關(guān)鍵方法方面取得了重大突破。通過Graphcore IPU，斯坦福團(tuán)隊可以將具有差分隱私的人工智能的訓(xùn)練速度提高10倍以上，并將這項被認(rèn)為太難被廣泛應(yīng)用的技術(shù)變成現(xiàn)實世界中的實用解決方案。

在使用非隱私敏感的訓(xùn)練數(shù)據(jù)證明其應(yīng)用后，斯坦福團(tuán)隊與Graphcore合作，正計劃將其技術(shù)應(yīng)用于新型冠狀病毒的胸部CT圖像，旨在揭示關(guān)于這種持續(xù)影響全球人民正常生活的病毒的新見解。

人工智能中的數(shù)據(jù)隱私:挑戰(zhàn)

在人工智能中使用敏感的個人數(shù)據(jù)將帶來許多挑戰(zhàn)，但兩個最重要的挑戰(zhàn)是維護(hù)數(shù)據(jù)主權(quán)和防止識別個人。這兩種情況都有可用的、成熟的技術(shù)方案，斯坦福大學(xué)的研究讓這兩種方案更具可行性。

力:聯(lián)邦學(xué)習(xí)。

使用來自代表世界各地不同人群的許多機(jī)構(gòu)和提供商的數(shù)據(jù)集的大量和多樣化的患者數(shù)據(jù)進(jìn)行訓(xùn)練的模型更強(qiáng)大，更不容易出現(xiàn)某些類型的偏見，并且最終更有用。

標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法需要集中數(shù)據(jù)進(jìn)行整理。即使我們試圖通過刪除患者的身份信息來匿名化數(shù)據(jù)，也需要將這些信息傳輸給第三方研究機(jī)構(gòu)和組織，這已被證明是一個主要問題。事實上，要求監(jiān)管將患者數(shù)據(jù)保留在數(shù)據(jù)采集管轄范圍內(nèi)的呼聲越來越高。

學(xué)習(xí)可以提供部分答案，因為它允許人工智能模型在匿名患者數(shù)據(jù)上進(jìn)行訓(xùn)練，而無需集中這些數(shù)據(jù)。相反，開發(fā)中的模型被發(fā)送出去，并根據(jù)本地數(shù)據(jù)進(jìn)行訓(xùn)練。

雖然聯(lián)合學(xué)習(xí)是一項有價值的技術(shù)，但最近的研究凸顯了一個問題，即通過對來自訓(xùn)練良好的模型的數(shù)據(jù)進(jìn)行推理來重新識別匿名健康信息的能力，潛在地將其與個體相關(guān)聯(lián)或恢復(fù)原始數(shù)據(jù)集，將帶來隱私漏洞。

由于這個原因，聯(lián)邦學(xué)習(xí)的使用也依賴于促進(jìn)差分隱私的應(yīng)用。

3差別隱私

通過訓(xùn)練聯(lián)邦學(xué)習(xí)模型，差分隱私使得對敏感數(shù)據(jù)的保護(hù)更進(jìn)一步，沒有人可以推斷訓(xùn)練數(shù)據(jù)或從中恢復(fù)原始數(shù)據(jù)集。

差分隱私隨機(jī)梯度下降(DPSGD)通過剪切和扭曲單個訓(xùn)練數(shù)據(jù)項的梯度來給匿名患者數(shù)據(jù)添加噪聲。增加的噪聲意味著反對者不太可能找到所使用的個體患者數(shù)據(jù)或恢復(fù)用于訓(xùn)練模型的原始數(shù)據(jù)集。

差分隱私隨機(jī)梯度下降(DPSGD)明顯有利于保護(hù)敏感數(shù)據(jù)，但仍是一個研究缺乏的領(lǐng)域。直到現(xiàn)在還沒有應(yīng)用到大數(shù)據(jù)集上，因為與傳統(tǒng)形式的人工智能計算(如GPU或CPU)配合使用時，計算成本太高。

這是斯坦福大學(xué)School 醫(yī)學(xué)計算機(jī)視覺專業(yè)的放射學(xué)研究團(tuán)隊在他們的論文《Nanobatch DPSGD:探索IPU上低批量的ImageNet上的差異私人學(xué)習(xí)》[1]中重點(diǎn)關(guān)注的領(lǐng)域。

由于計算要求，DPSGD通常應(yīng)用于小數(shù)據(jù)集并進(jìn)行分析。然而，斯坦福大學(xué)團(tuán)隊能夠使用從公開可用的ImageNet數(shù)據(jù)集獲得的130萬張圖像對IPU系統(tǒng)進(jìn)行首次分析。在本文中，ImageNet被用作由私有數(shù)據(jù)組成的大型圖像數(shù)據(jù)集的代理。這項工作可以幫助克服當(dāng)前大規(guī)模部署差分隱私的障礙。

請繼續(xù)閱讀更多關(guān)于IPU有效性的信息。

四

使用Graphcore IPU加速NanoBatch)DPSGD

加速處理的常用方法是使用微批量，數(shù)據(jù)聯(lián)合處理，聯(lián)合梯度切割扭曲，而不是基于單個樣本的梯度。雖然這樣會加快訓(xùn)練速度，但分析表明會降低生成模型的預(yù)測質(zhì)量和生成的隱私保護(hù)指數(shù)，從根本上違背了其目的。事實上，用微批量1或“納米批量”進(jìn)行的實驗顯示出最高的準(zhǔn)確度。

圖1:不同梯度累積計數(shù)100次訓(xùn)練后的分類精度。我們比較了尺寸為1(“納米批次”)和尺寸為2的微批次處理。有效批量等于微量批量乘以梯度累積計數(shù)。相同的削波和噪聲比用于不同的有效批量。因此，具有相同有效批量的項目具有相同的隱私保護(hù)保證。

nano-batch DPSGD不常用的一個主要原因是它大大降低了GPU的吞吐量，以至于在ImageNet上運(yùn)行nano-batch DPSGD ResNet-50需要幾天時間。

相比之下，nano-batch DPSGD在IPU上的效率非常高，結(jié)果比在GPU上快8到11倍，時間從幾天縮短到幾個小時。對于IPU來說，由于MIMD架構(gòu)和IPU的細(xì)粒度并行可以實現(xiàn)高得多的處理效率，因此DPSGD所需的額外運(yùn)算的計算開銷要低得多(10%而不是50-90%)。

另外，隱私保護(hù)和納米批量DPSGD需要使用組范數(shù)而不是批量范數(shù)，IPU可以快速處理，但是會明顯拖慢GPU。Graphcore Research最近推出了一種新的規(guī)范化技術(shù)——代理規(guī)范，恢復(fù)了組規(guī)范的批量規(guī)范屬性，提高了執(zhí)行效率。這是一個有趣的未來探索方向。

表1:μbs = 1時不同硬件的吞吐量比較。GPU上的DPSGD使用vmap和TensorFlow差分隱私庫。左圖:上一代芯片。右圖:最新一代芯片。

五

6小時內(nèi)在ImageNet上訓(xùn)練nano batch DPSGD。

這些技術(shù)意味著ResNet-50可以在IPU-POD16系統(tǒng)中在ImageNet上訓(xùn)練100個周期，時間在6小時左右(相比之下GPU需要幾天)。準(zhǔn)確率達(dá)到71%，比非私有基線低5%。由于噪音增加，這是意料之中的。雖然比預(yù)期的要好，但仍是未來研究的領(lǐng)域。

對于差分隱私，通常還會報告ε和δ值。該論文表明，對于10-6的δ，ε是11.4，這是一個很好的范圍。該團(tuán)隊對如何進(jìn)一步減少這種情況有一些想法，例如通過更積極的學(xué)習(xí)率計劃來減少培訓(xùn)周期的數(shù)量。