只是在登錄界面打了幾個字母,沒確認沒提交,網(wǎng)站居然就已經(jīng)抓捕到了鍵入內(nèi)容?
是的,根據(jù)來自歐洲頂尖研究型學術院!商m拉德堡德大學、洛桑大學、魯汶大學的三位科學家的最新研究,全世界前10萬排名的網(wǎng)站中,有近5000個門戶網(wǎng)站都有過這樣的行為,如?怂剐侣、商業(yè)內(nèi)幕(business insider)、時代(Time)等網(wǎng)站。
通過研究人員自制的爬蟲腳本可以看到,在某一網(wǎng)站的登錄界面輸入郵件地址,鼠標移動到下一個輸入框后,網(wǎng)站后臺就已經(jīng)準確抓取到了已輸入數(shù)據(jù):
用研究人員的話來說,就是“當點擊下一個字段時,它們會收集前一個字段”,包括用戶每一次修改的數(shù)據(jù),甚至是賬號密碼。
那么,這樣的抓取行為到底是如何做到的?
事實上,很多常見的登錄窗口都是表單網(wǎng)頁,這是HTML中的一種概念,可以使網(wǎng)頁和用戶之間進行交互,并將用戶填寫的數(shù)據(jù)發(fā)送給服務器端。所以這些網(wǎng)頁也可以被看作是一張或多張表格,用戶名、密碼、郵件地址等輸入信息就是表格中的一行行數(shù)據(jù)。
不僅為了滿足基本的網(wǎng)頁交互需求,還出于其他要求——比如檢查鍵入的數(shù)據(jù)是否符合要求——用戶的所有在線活動,包括鼠標點擊和鍵入數(shù)據(jù),對于網(wǎng)頁來說都是“透明”且“可抓取”的。
于是,很多網(wǎng)站便會使用一些第三方追蹤器來監(jiān)測用戶,用于提供服務、廣告、營銷活動。
這些活動的合法與否,就在于網(wǎng)頁只是暫時抓取數(shù)據(jù)進行合法的交互,還是進行了行跨網(wǎng)站、跨平臺和持久的識別。
以Meta為例,它曾開發(fā)過一款第三方的網(wǎng)站事件管理/收集工具,Meta Pixel。
Meta Pixel有一種叫做“自動高級匹配”的功能,可以自動從網(wǎng)頁的表單數(shù)據(jù)中收集個人標識符,通過這一身份認證,就可以鎖定同一用戶在不同平臺上的操作,進而測量廣告的轉化率和成效。
同時,官方文檔里也寫明:在用戶提交表單時,Meta Pixel才會觸發(fā)數(shù)據(jù)收集。
但研究人員在調(diào)查中發(fā)現(xiàn),Meta Pixel腳本在沒有識別到提交按鈕,或者監(jiān)聽(表單)提交事件時,也會觸發(fā)數(shù)據(jù)收集機制。
也就是說,安裝有這一追蹤器的網(wǎng)站,在用戶點擊提交按鈕,甚至放棄表單關閉網(wǎng)頁之前,就已經(jīng)收集到了個人數(shù)據(jù)。
研究團隊統(tǒng)計發(fā)現(xiàn),有超過1.5萬個網(wǎng)站可能通過Meta Pixel泄露了信息。
此外,另一個較為出名的第三方網(wǎng)站事件管理工具,TikTok Pixel也有和Meta Pixel同樣的問題,涉及了上百個網(wǎng)站的信息泄露。
研究人員分別選出了美國和歐盟地區(qū)的十大泄露信息次數(shù)最多的網(wǎng)站,可以看到,其中的第三方網(wǎng)站事件管理工具除了上述兩家,還有taboola、Bizible等廣告商。
據(jù)了解,三位研究人員Asuman Senol、Gunes Acar、Mathias Humbert從去年開始調(diào)查,共爬取了10萬多個網(wǎng)站。在發(fā)現(xiàn)問題后,團隊已經(jīng)在今年3月份向Meta提交了一份錯誤報告,該公司很快指派了一名工程師處理這個案件,但自那以后,就再也沒有收到過更新報告。而TikTok在得到通知后,也并沒有進一步的回應。
研究團隊表示,針對上述問題,他們已經(jīng)開發(fā)了一款檢測網(wǎng)頁非法表單的插件,并將在今年8月份的Usenix安全會議上展示他們的發(fā)現(xiàn),包括調(diào)查結果和爬蟲程序的構成。