什么是黑暗數(shù)據(jù)?
Tim Tully:我們將黑暗數(shù)據(jù)定義為未知、未識別或未使用的數(shù)據(jù),我發(fā)現(xiàn)這份報(bào)告中最有趣的關(guān)鍵數(shù)據(jù)是,我們調(diào)查的公司認(rèn)為全球55%的數(shù)據(jù)都是黑暗數(shù)據(jù)。這個(gè)數(shù)字比我想象的要高。
我認(rèn)為這個(gè)數(shù)據(jù)會很低的原因是,在來Splunk之前我曾在雅虎從事數(shù)據(jù)工作約14年,而我所做的工作都涉及大數(shù)據(jù)。我追蹤了日志集或日志ETL(提取、轉(zhuǎn)換、加載)以及數(shù)據(jù)的使用情況,根據(jù)我的經(jīng)驗(yàn),這個(gè)數(shù)字會低得多,因?yàn)槲铱吹轿覀儚氖澜绺鞯氐臄?shù)十萬臺服務(wù)器收集數(shù)據(jù)。
這些黑暗數(shù)據(jù)來自哪里?
Tully:黑暗數(shù)據(jù)的創(chuàng)建方式分為兩類。一個(gè)是數(shù)據(jù)根本沒有被收集-這是一種僵尸數(shù)據(jù)。通常情況下,這發(fā)生在企業(yè)引入新服務(wù)器時(shí),特別是在臨時(shí)服務(wù)器和無服務(wù)器的情況下。企業(yè)很容易將這些服務(wù)器聯(lián)機(jī)并非常快速地再次關(guān)閉它,而沒有收集任何日志。
第二種情況是,人們因?yàn)楦鞣N原因收集數(shù)據(jù),例如合規(guī)原因或者只是為了睡個(gè)安穩(wěn)覺,然后就不再使用這些數(shù)據(jù)。這屬于“未使用”數(shù)據(jù)類別。
另一方面,盡管企業(yè)有很高比例的黑暗數(shù)據(jù),但他們?nèi)匀挥X得數(shù)據(jù)技能非常重要。最后的原因是,大家普遍認(rèn)為,使用AI可能是控制黑暗數(shù)據(jù)向前發(fā)展的方式。
鑒于數(shù)據(jù)隱私立法的激增,當(dāng)企業(yè)發(fā)現(xiàn)黑暗數(shù)據(jù)時(shí),應(yīng)該做些什么呢?目標(biāo)是使用它還是破壞它?
Tully:我認(rèn)為這是兩者的結(jié)合。如果你有數(shù)據(jù)在那里而沒有被查看,那么,企業(yè)就失去機(jī)會來提升安全性。例如,你希望查看防火墻日志,并了解入站TCP連接,以及了解您正在受到誰的攻擊。因此,從安全的角度來看,這意味著失去很好的機(jī)會。
另一方面,如果企業(yè)利用這些數(shù)據(jù),則可以更好地構(gòu)建AI驅(qū)動的模型,并更好地確定如何進(jìn)行威脅建模和異常檢測。這是我在上一家公司看到的事情,從網(wǎng)絡(luò)安全的角度來看,這有很大的影響。
黑暗數(shù)據(jù)對網(wǎng)絡(luò)安全有什么影響?
Tully:最明顯的影響就是不使用這些數(shù)據(jù)。如果你已經(jīng)收集了數(shù)據(jù)并且沒有對它進(jìn)行任何操作,甚至不查看日志,那么,這可能是一個(gè)可怕的錯誤。你想知道是否正在遭受攻擊,如果你沒有實(shí)際查看黑暗數(shù)據(jù),你怎么知道人們試圖攻擊你?這有點(diǎn)像先有雞還是先有蛋的問題。
其次,還會有大量未收集的數(shù)據(jù),這里的問題不是你不查看數(shù)據(jù),而是你根本不收集。你將臨時(shí)服務(wù)器聯(lián)網(wǎng),天知道這些日志中發(fā)生了什么。如果你沒有使用數(shù)據(jù),甚至沒有看到或收集數(shù)據(jù),你就沒有辦法建立強(qiáng)大的網(wǎng)絡(luò)安全態(tài)勢。
除了未被查看的日志文件,人們是否還應(yīng)該在其他地方尋找黑暗數(shù)據(jù)?
Tully:當(dāng)然。我想到的是人們攜帶自己的各種設(shè)備連接企業(yè)網(wǎng)絡(luò)的情況。我個(gè)人而言,每天都會帶四五臺設(shè)備到辦公室,并且,這些設(shè)備都會聯(lián)網(wǎng),考慮到這些設(shè)備的短暫性,我認(rèn)為它們很快就會上線和離線,這里容易產(chǎn)生黑暗數(shù)據(jù)。我想知道企業(yè)是否會利用這些數(shù)據(jù)。
這些BYOD設(shè)備中包含哪些黑暗數(shù)據(jù)?
Tully:你的個(gè)人設(shè)備、你的手機(jī)、你的平板電腦。我時(shí)不時(shí)會攜帶個(gè)人筆記本電腦來做一些非工作的東西。但人們正在連接互聯(lián)網(wǎng);他們正在下載東西;他們可能會把惡意軟件帶到辦公室;而這些設(shè)備會產(chǎn)生大量日志。你希望能夠檢測到網(wǎng)絡(luò)中這些客戶端正在做什么及它們正在查看什么,以及它們帶來的惡意病毒。
黑暗數(shù)據(jù)是否容易被攻擊者利用,而未被企業(yè)檢測到?
Tully:我認(rèn)為企業(yè)正在記錄或收集的任何數(shù)據(jù),無論是否黑暗,都容易受到攻擊者的攻擊,因此我認(rèn)為答案是肯定的。 這些數(shù)據(jù)存在風(fēng)險(xiǎn)因素,它們處于休眠狀態(tài),并且,攻擊者會希望利用它們。
人們對黑暗數(shù)據(jù)應(yīng)該做的第一件事是什么?識別、整理和存儲,還是應(yīng)該先考慮他們是否可以或應(yīng)該使用這些數(shù)據(jù)?并且,如果他們不需要它,他們應(yīng)該找到一種方法來消除這些數(shù)據(jù)嗎?
Tully:所有這些問題可以總結(jié)為,企業(yè)需要更好的數(shù)據(jù)管理。本周我在華盛頓特區(qū)參加了幾個(gè)小組討論,其中一個(gè)問題是:“現(xiàn)在大數(shù)據(jù)領(lǐng)域面臨的最大挑戰(zhàn)是什么?”除了整合多個(gè)系統(tǒng)以從開源領(lǐng)域獲得合理的解決方案外,那些取得成功的企業(yè)通常具有強(qiáng)大數(shù)據(jù)管理流程。也就是說,了解正在收集哪些數(shù)據(jù)、收集數(shù)據(jù)的方式、數(shù)據(jù)中涉及的PII [個(gè)人身份信息],然后確定誰正在使用這些數(shù)據(jù)及其目的,以及數(shù)據(jù)如何被利用。
數(shù)據(jù)管理可非常有效地幫助客戶掌控他們的黑暗數(shù)據(jù)。
企業(yè)應(yīng)該如何處理所有這些黑暗數(shù)據(jù)?
Tully:首先要確保他們在收集數(shù)據(jù)。大量數(shù)據(jù)被記錄而未被收集,這些數(shù)據(jù)變成了僵尸數(shù)據(jù),然后由于日志過期而逐漸刪除。
企業(yè)應(yīng)該做的是對這些數(shù)據(jù)部署強(qiáng)大的數(shù)據(jù)管理。數(shù)據(jù)會過期;確保PII應(yīng)用到這些數(shù)據(jù);然后,向內(nèi)部人員教授新技能,以幫助他們應(yīng)對這些數(shù)據(jù)。
在我們的調(diào)查中,企業(yè)領(lǐng)導(dǎo)者表示,恢復(fù)黑暗數(shù)據(jù)的主要障礙是數(shù)據(jù)量和缺乏必要的技能。這里的解決方案之一是提供培訓(xùn)。我經(jīng)?吹竭@樣的情況,無論數(shù)據(jù)是否是黑暗,海量數(shù)據(jù)都會淹沒企業(yè)。而且當(dāng)大多數(shù)分析師使用這些數(shù)據(jù)時(shí),它會以儀表板的形式顯示出來。通常情況下,儀表板讓人們無所適從,他們在這種儀表板環(huán)境中會感到有點(diǎn)不愿意深入挖掘。
這里更多的是關(guān)于學(xué)習(xí)新技能并確保你擁有強(qiáng)大的數(shù)據(jù)管理。
為了處理這種類型的數(shù)據(jù),人們應(yīng)該學(xué)習(xí)哪些主要技能?
Tully:其中之一是更好地了解這些數(shù)據(jù)如何生成。了解數(shù)據(jù)是如何來到當(dāng)前位置以及數(shù)據(jù)背后的人。同時(shí),與數(shù)據(jù)相關(guān)的人員交談,并理解這個(gè)過程,這樣可以更好地幫助他們接受挑戰(zhàn),以獲得不同格式的數(shù)據(jù)或不同報(bào)告。
另外,編程技巧也非常重要。如果你想以不同的形式查看儀表板,你要做的一件事就是將基礎(chǔ)數(shù)據(jù)集脫機(jī),并對其進(jìn)行一些輕量編碼。一些輕量級的Python,一些輕量級的R -甚至在數(shù)據(jù)足夠小的情況下將數(shù)據(jù)放入Excel,并且能夠針對它編寫宏,這些基本方法就足以處理這類數(shù)據(jù)。