微軟和英特爾一直在合作開發(fā)一種新的惡意軟件檢測方法,該方法涉及深度學(xué)習(xí)和將惡意軟件表示為圖像。
這項研究被稱為STAtic惡意軟件-圖像網(wǎng)絡(luò)分析(STAMINA),該研究利用英特爾先前通過深度轉(zhuǎn)移學(xué)習(xí)進(jìn)行的靜態(tài)惡意軟件分類研究,并將其應(yīng)用于Microsoft的真實數(shù)據(jù)集,以確定其實用價值。
該方法基于對繪制為灰度圖像的惡意軟件二進(jìn)制文件的檢查,這表明來自相同惡意軟件系列的二進(jìn)制文件之間在結(jié)構(gòu)上和結(jié)構(gòu)上相似,不同家族之間或惡意軟件與良性軟件之間存在差異。
在有關(guān)STAMINA的白皮書中,來自英特爾(李震和Ravi Sahita)和微軟(Jugal Parikh和Marc Marino)的研究人員認(rèn)為,由于簽名的迅速增加,依賴簽名匹配的經(jīng)典惡意軟件檢測方法變得不那么直接了,而靜態(tài)和動態(tài)方法可能不準(zhǔn)確或不省時。
研究人員解釋說,STAMINA包含四個步驟:預(yù)處理(圖像轉(zhuǎn)換),轉(zhuǎn)移學(xué)習(xí),評估和解釋。
預(yù)處理涉及像素轉(zhuǎn)換(創(chuàng)建像素流:每個字節(jié)獲取一個介于0到255之間的值,直接對應(yīng)于像素強(qiáng)度),整形(像素流轉(zhuǎn)換為二維:寬度和高度由轉(zhuǎn)換后的文件大小確定)并調(diào)整大小(“調(diào)整為224或299,以便可以使用ImageNet上訓(xùn)練的圖像模型對圖像進(jìn)行微調(diào)”)。
接下來,采用轉(zhuǎn)移學(xué)習(xí)來訓(xùn)練用于靜態(tài)惡意軟件分類的惡意軟件分類器。該步驟是在預(yù)處理步驟中對惡意軟件和良性圖像執(zhí)行的,但是研究人員指出,實際上,由于數(shù)據(jù)集的限制,很難從頭開始訓(xùn)練整個深度神經(jīng)網(wǎng)絡(luò)。
研究人員指出:“在計算機(jī)視覺空間中,對于特定任務(wù),使用了在大量圖像上預(yù)先訓(xùn)練的模型,并在目標(biāo)任務(wù)上進(jìn)行了轉(zhuǎn)移學(xué)習(xí)。”
在評估步驟中,研究人員查看了他們方法的準(zhǔn)確性,即“假陽性率,準(zhǔn)確性,召回率,F(xiàn)1得分以及接收器工作曲線(ROC)下的面積”。這項研究是在Microsoft數(shù)據(jù)集上進(jìn)行的,該數(shù)據(jù)集包含220萬個惡意軟件二進(jìn)制散列以及10列數(shù)據(jù)信息(分為60:20:20的分段,用于訓(xùn)練,驗證和測試集)。
白皮書寫道:“尤其是,根據(jù)惡意軟件分析從業(yè)人員的反饋,我們還報告稱,通過ROC召回的誤報率為0.1%–10%!
測試顯示,STAMINA可以達(dá)到99.07%的準(zhǔn)確度,假陽性率為2.58%(精度為99.09%,召回率為99.66%)。
但是,該方法僅在應(yīng)用于小型應(yīng)用程序時才有效。對于大型軟件,STAMINA的效果較差,因為該軟件無法將“數(shù)十億像素轉(zhuǎn)換為JPEG圖像”,然后對其進(jìn)行調(diào)整大小,從而使基于元數(shù)據(jù)的方法在這種情況下更具優(yōu)勢。
“對于將來的工作,我們想評估使用二進(jìn)制的中間表示形式和通過深度學(xué)習(xí)方法從二進(jìn)制中提取的信息的混合模型-這些數(shù)據(jù)集預(yù)計會更大,但可能會提供更高的準(zhǔn)確性。我們還將繼續(xù)為我們的深度學(xué)習(xí)模型探索平臺加速優(yōu)化,以便我們能夠以對最終用戶最小的功率和性能影響來部署這種檢測技術(shù)。”研究人員總結(jié)道。