国产成人毛片毛片久久网_国产午夜激无码av毛片不_国产乱对白精彩在线播放_av资源站中文字幕_亚洲男人的天堂网站_国产成 人 综合 亚洲网_中国国产激情一区_少妇一级淫片免费放_亚洲一本大道av久在线播放_免费观看美女裸体网站

行業(yè)動態(tài)

防御吧作為15年知名老牌域名服務(wù)商,CNNIC和CANN雙認(rèn)證域名注冊商,已經(jīng)
持續(xù)為500多萬個域名提供服務(wù),包括智能DNS/自由轉(zhuǎn)移/隱私保護(hù)等服務(wù)!
反欺詐AI全域治理三部曲
2020-10-22 13:46:18 【

互聯(lián)網(wǎng)是一把雙刃劍。隨著互聯(lián)網(wǎng)成為各行業(yè)加快業(yè)務(wù)開展的關(guān)鍵技術(shù),各行業(yè)都面臨著諸如垃圾評論、排名欺詐、交易欺詐、薅羊毛、賬戶盜用、掃碼、套現(xiàn)、批量虛開等欺詐問題,反欺詐也成為各行各業(yè)保證運(yùn)營業(yè)務(wù)與營銷業(yè)務(wù)正常開展的前提。這些欺詐現(xiàn)象的背后往往是黑產(chǎn)團(tuán)伙協(xié)同作案,企業(yè)與日俱增的反欺詐成本。



反欺詐模型作為一個重要的技術(shù)手段,在互聯(lián)網(wǎng)、金融、傳統(tǒng)零售等各行各業(yè)廣泛的存在,但卻沒有一套完整的理論框架和方法論。本文結(jié)合互聯(lián)網(wǎng)反欺詐的現(xiàn)狀,羅列總結(jié)了互聯(lián)網(wǎng)反欺詐模型體系建設(shè)過程中的經(jīng)驗(yàn)和教訓(xùn)。


隨著互聯(lián)網(wǎng)欺詐團(tuán)伙化、產(chǎn)業(yè)化,風(fēng)控、反欺詐、信貸、異常檢測等領(lǐng)域均需要認(rèn)真思考如下六個方面的問題,并提出盡可能合理的解決方案:


原始案件數(shù)據(jù)標(biāo)注來源


歷史案件深度挖掘應(yīng)用


專家經(jīng)驗(yàn)規(guī)則自學(xué)習(xí)機(jī)理


風(fēng)評結(jié)果可解釋性說明


模型實(shí)時計算預(yù)測服務(wù)


案件核準(zhǔn)閉環(huán)運(yùn)維思維


一、原始案件數(shù)據(jù)標(biāo)注來源


反欺詐案件標(biāo)注數(shù)據(jù)是極為珍貴的資源。絕大多數(shù)場景下,項(xiàng)目初始化階段是沒有任何數(shù)據(jù)標(biāo)注的。標(biāo)注數(shù)據(jù)來源從技術(shù)手段分類有:


名單庫


傳統(tǒng)的黑白名單通過內(nèi)部積累和外部獲取的各種人員信息、手機(jī)號、設(shè)備、IP等對欺詐行為進(jìn)行判斷,是一種實(shí)施簡單、成本較低的反欺詐手段。但存在準(zhǔn)確度低、覆蓋面窄等缺點(diǎn),僅可作為互聯(lián)網(wǎng)反欺詐的第一道過濾網(wǎng)使用。


專家規(guī)則


專家規(guī)則是目前較為成熟的反欺詐方法和手段,基于反欺詐策略人員的經(jīng)驗(yàn)和教訓(xùn),制定反欺詐規(guī)則,當(dāng)用戶的操作行為觸發(fā)了反欺詐規(guī)則時,啟動相應(yīng)處置策略。


優(yōu)點(diǎn):實(shí)現(xiàn)較為簡單、可解釋性強(qiáng)、可快速響金融行業(yè)的監(jiān)管文件。


缺點(diǎn):存在嚴(yán)重的滯后性,對于新出現(xiàn)的欺詐手段和方法無法及時應(yīng)對,往往需要付出大量損失代價后才能總結(jié)規(guī)律,提取新的規(guī)則。


此外,由于人腦的限制,專家規(guī)則只能使用一個或幾個維度的標(biāo)量進(jìn)行計算和識別,存在著較大的誤報率。同時,專家規(guī)則嚴(yán)重依賴于策略人員的經(jīng)驗(yàn)水平,不同水平的策略人員制定的專家規(guī)則效果也會存在較大區(qū)別,主要作為互聯(lián)網(wǎng)反欺詐的應(yīng)急響應(yīng)手段和兜底防線。


統(tǒng)計分析


運(yùn)用對比分析、趨勢分析、分布分析、漏斗分析等數(shù)據(jù)分析手段,挖掘數(shù)據(jù)一致性、集中性等特征發(fā)現(xiàn)欺詐規(guī)律,適用于靜態(tài)數(shù)據(jù)場景,如模型POC、機(jī)器學(xué)習(xí)比賽等,具體采用數(shù)據(jù)分析技術(shù)+客群分類+場景化先驗(yàn)知識假設(shè)綜合技術(shù)手段,可以獲取很好的召回率和模型可解釋性。


在生產(chǎn)環(huán)境實(shí)時計算場景,劣勢也很明顯,主要包括如下幾點(diǎn):


作為一種事后分析技術(shù)手段,不具實(shí)時性,無法在事中實(shí)時檢測中發(fā)揮作用。


作為基于業(yè)務(wù)先驗(yàn)經(jīng)驗(yàn)基礎(chǔ)上分析推理,不具備對抗性,模型有效時間短,容易被經(jīng)驗(yàn)豐富,組織化黑產(chǎn)團(tuán)伙分析繞過。


基于場景化欺詐特性假設(shè)和數(shù)據(jù)分布假設(shè),在業(yè)務(wù)演化和場景變化后,模型大多數(shù)情況會失去原有預(yù)測效果,模型不具備場景普適性和時間穩(wěn)定性。


異常檢測


適用于場景化個體欺詐場景和場景化團(tuán)伙欺詐場景。在賬號盜用、盜轉(zhuǎn)盜刷、防內(nèi)鬼等個體欺詐場景,常規(guī)打法有兩類:一類是規(guī)則+簡單統(tǒng)計模型,基于用戶注冊、登錄、消費(fèi)、轉(zhuǎn)賬信息構(gòu)建統(tǒng)計特征、擬合特征和分類特征等,對接指數(shù)移動平均算法、LOF、IForest、Holt-Winters、ARIMA算法發(fā)現(xiàn)異常點(diǎn)。


優(yōu)點(diǎn):開發(fā)部署快,可解釋性強(qiáng)。


缺點(diǎn):誤報率高,不適應(yīng)用戶正常行為的突然改變,隨著時間的遷移,特征工程將會變得越來越復(fù)雜,并且在預(yù)測的時候,時間復(fù)雜度也會大量增加。


另一類是深度學(xué)習(xí)+時間序列檢測算法,常用的LSTM模型來擬合周期型的時間序列,或利用自編碼器的重構(gòu)誤差和局部誤差,輸入數(shù)據(jù)是歸一化之后的原始數(shù)據(jù)(normalized raw data),輸出的是兩個標(biāo)簽(正常&異常)。


優(yōu)點(diǎn):可以實(shí)現(xiàn)端到端(End to End)的訓(xùn)練過程,有效擬合用戶行為規(guī)律。


缺點(diǎn):維護(hù)模型的成本比較高,不太適用于大規(guī)模的時間序列異常檢測場景,周期型的曲線效果比較好,如果是毛刺型的數(shù)據(jù)有可能就不太適用。


關(guān)聯(lián)圖譜


圖數(shù)據(jù)是一種更加廣泛的數(shù)據(jù)表示方式,夸張地說,沒有任何一個場景中的數(shù)據(jù)彼此之間是孤立存在的,這些數(shù)據(jù)之間的關(guān)系都可以圖的形式進(jìn)行表達(dá)。最近一年,GNN 的應(yīng)用場景不斷延伸,覆蓋了計算機(jī)視覺、3D 視覺、自然語言處理、科研、知識圖譜、推薦、反欺詐等場景。


關(guān)系數(shù)據(jù)的挖掘是絕大部分反欺詐業(yè)務(wù)開展最重要的技術(shù)視角,不論是基于欺詐風(fēng)險傳播的關(guān)聯(lián)分析還是基于黑產(chǎn)團(tuán)伙模式的結(jié)構(gòu)化挖掘,圖都是反欺詐業(yè)務(wù)人員的首選工具。在這樣的背景下,GNN 也變得極有發(fā)揮空間。例如,GNN 對支付寶欺詐用戶進(jìn)行識別檢測, GNN 對咸魚上的評論進(jìn)行欺詐識別。


場景化團(tuán)伙欺詐場景,引入關(guān)聯(lián)圖譜關(guān)系定義,通過共用、共享、連接指向等關(guān)系定義,構(gòu)建基于不同資源維度的復(fù)雜關(guān)系圖譜,如賬號圖譜、設(shè)備圖譜、電話號碼圖譜等。引入圖論領(lǐng)域出入度、中心度、模塊度、最短鏈路、Riskrank、頂點(diǎn)嵌入、圖卷積等圖算法,對大部分團(tuán)伙欺詐場景有很好的適用性。


優(yōu)點(diǎn):通過部署一個模型可以應(yīng)對多個場景的團(tuán)伙性欺詐挖掘,項(xiàng)目部署實(shí)施成本低,運(yùn)維成本低等。


缺點(diǎn):相對于獨(dú)立的場景化團(tuán)伙欺詐檢測,模型召回率在可接受范圍內(nèi)有一定損失。


二、歷史欺詐案件深度挖掘應(yīng)用


項(xiàng)目上線一段時間后,原始案件數(shù)據(jù)有一定沉淀積累,這個階段面臨的問題是如何更好地從已有沉淀案件中深度挖掘隱藏的欺詐模式,提供在線實(shí)時預(yù)測服務(wù)。深度欺詐檢測常用算法列表有XGBoost、DeepFFM、XDeepFM、Wide&Deep、DIN等以及算法融合。


有監(jiān)督學(xué)習(xí)模型在發(fā)現(xiàn)歷史案件中蘊(yùn)含的欺詐模式方面相對于專家經(jīng)驗(yàn)有如下5個方面的優(yōu)勢:


發(fā)現(xiàn)深度復(fù)雜隱式欺詐特征,這點(diǎn)對比專家規(guī)則,具有較強(qiáng)針對性;


發(fā)現(xiàn)的規(guī)則是非線性的,對事后分析繞過對抗有較強(qiáng)的免疫力;


具有正反雙向作用力,對比專家規(guī)則單向作用模型,正反雙向作用性質(zhì),可以對模型過擬合風(fēng)險起到很好對沖作用;


通過深度網(wǎng)絡(luò)多層交叉組合,一方面進(jìn)一步加強(qiáng)規(guī)則集對抗性、持續(xù)性,另一方面提升模型泛化能力、增強(qiáng)欺詐場景的普適性;


做到在線實(shí)時風(fēng)評防控,提升模型風(fēng)控時效性,從事后分析前置到事中實(shí)時防控,通過一個模型可以覆蓋全渠道場景欺詐類型檢測,真正做到One Model Rule All。缺點(diǎn)是相對專家規(guī)則模型單規(guī)則理解性差,算法復(fù)雜度高。


當(dāng)然,要正確理解機(jī)器學(xué)習(xí)模型作用和功能,需要模型相關(guān)的業(yè)務(wù)人員、技術(shù)運(yùn)營人員建立模型治理理念和認(rèn)知,從單規(guī)則角度轉(zhuǎn)變?yōu)槟P驼w防控角度來更好更全面理解模型效果。從檢出率,誤報率,漏報率,準(zhǔn)確率等全局性指標(biāo)中,分析研判模型整體效果和趨勢。


三、專家經(jīng)驗(yàn)規(guī)則自學(xué)習(xí)機(jī)制


在大數(shù)據(jù)時代背景下,金融犯罪和金融欺詐的新手段層出不窮,日漸趨于科技化、專業(yè)化、規(guī)模化,也更具有隱蔽性,由過去的單兵作戰(zhàn)演變成有規(guī)模、有組織的團(tuán)伙欺詐,嚴(yán)重制約了傳統(tǒng)的專家知識庫、專家經(jīng)驗(yàn)規(guī)則持續(xù)有效地發(fā)揮作用,亟需解決兩方面問題:


基于數(shù)據(jù)算法驅(qū)動,自動化調(diào)整的場景規(guī)則集中的閾值和權(quán)重,以保障規(guī)則持續(xù)有效性;


從不同維度發(fā)掘時效性強(qiáng)的新風(fēng)控規(guī)則,以持續(xù)豐富完善反欺詐規(guī)則集。


規(guī)則閾值、權(quán)重


規(guī)則閾值、權(quán)重學(xué)習(xí)涉及特征離散化、特征選擇、特征降維、權(quán)重參數(shù)回歸等流程。


信息熵:用來評估樣本集的純度的一個參數(shù),是系統(tǒng)的不確定性、隨機(jī)性度量指標(biāo)。


卡方分箱原理:特征離散化算法,根據(jù)樣本數(shù)據(jù)推斷總體的分布與期望分布是否有顯著性差異, 或者推斷兩個分類變量是否相關(guān)或者獨(dú)立。


最小熵分箱:特征離散化算法,最小熵分箱是典型的自頂向下分箱方法。最小熵分箱將待分箱特征的所有取值都放到一個箱體里,然后依據(jù)最小熵原則進(jìn)行箱體分裂。


基尼(gini)系數(shù):特征離散化算法,總體內(nèi)部包含越混亂,基尼系數(shù)越大;內(nèi)部純度越高,基尼系數(shù)越小。


特征選擇:特征選擇在于選取對訓(xùn)練數(shù)據(jù)具有分類能力的特征,提升模型整體預(yù)測能力,常用到技術(shù)包括lasso回歸、Feature Importance、特征共線性驗(yàn)證等。


Lasso回歸:使用少量觀測值就能夠完全恢復(fù)出非零的系數(shù)。其中不同的是,樣本的數(shù)量需要“足夠大”,否則L1模型的表現(xiàn)會充滿隨機(jī)性。


新風(fēng)控規(guī)則


新欺詐規(guī)則挖掘,根據(jù)規(guī)則中所處理的值類型分為兩類:



如果規(guī)則考慮的關(guān)聯(lián)是項(xiàng)的存在與不存在,則它是布爾關(guān)聯(lián)規(guī)則;


如果規(guī)則描述的是量化的項(xiàng)或?qū)傩灾g的關(guān)聯(lián),則它是量化關(guān)聯(lián)規(guī)則。


本質(zhì)是頻繁項(xiàng)集挖掘,常用到算法包括Apriori、FpGrowth。



Apriori算法利用頻繁集的兩個特性,過濾了很多無關(guān)的集/合,效率提高不少,但是Apriori算法是一個候選消除算法,每一次消除都需要掃描一次所有數(shù)據(jù)記錄,造成整個算法在面臨大數(shù)據(jù)集時顯得無能為力。


FpGrowth算法通過構(gòu)造一個樹結(jié)構(gòu)來壓縮數(shù)據(jù)記錄,使得挖掘頻繁項(xiàng)集只需要掃描兩次數(shù)據(jù)記錄,而且該算法不需要生成候選集/合,所以效率會比較高。


四、風(fēng)評模型可解釋性問題


人工智能算法模型正在對金融行業(yè)產(chǎn)生重大影響,前提是要了解AI算法的優(yōu)勢和局限性,以及適合在金融領(lǐng)域發(fā)揮作用的場景。當(dāng)我們在金融業(yè)務(wù)中使用AI算法,期望通過可度量的方法對模型結(jié)果進(jìn)行分析、解釋,以期對算法進(jìn)行優(yōu)化,對業(yè)務(wù)進(jìn)行方向性的指導(dǎo),確保模型與要解決的業(yè)務(wù)問題保持一致,即模型解釋性分析問題。模型的解釋性分析可幫助模型開發(fā)人員及業(yè)務(wù)運(yùn)營人員了解并解釋模型中包含和未包含的特征因素,及特征如何影響模型結(jié)果。


廣義上,模型的解釋性分析目的是全局定義特征對模型的影響,同時定義單個特征對模型的個性化影響;更好的理解模型行為,更好的進(jìn)行相應(yīng)的業(yè)務(wù)決策;通常對機(jī)器學(xué)習(xí)模型分為“白盒”模型和“黑盒”模型:


“白盒”模型


“白盒”模型如線性、Logistic回歸模型,預(yù)測能力較弱,但是簡單易理解。線性關(guān)系如信貸欺詐與人口統(tǒng)計學(xué)特征、經(jīng)濟(jì)收入等的相關(guān)性。決策樹模型(RandomForest vs XGBoost vs LightGBM)是目前業(yè)內(nèi)公認(rèn)可解釋性較好的非線性機(jī)器學(xué)習(xí)算法,模型每作出一個決策都會通過一個決策序列來向我們展示模型的決策依據(jù),決策樹模型自帶的基于信息理論的篩選變量標(biāo)準(zhǔn)也有助于幫助我們理解在模型決策產(chǎn)生的過程中哪些變量起到了顯著的作用;白盒模型特征明確,邏輯簡單,本身具備可解釋性。


針對“白盒”模型,我們可以從數(shù)據(jù)分布圖、特征重要度、Embedding可視化、獨(dú)立特征分析(PDP)、全局性分析(SHAP)、局部特征信息(LIME)、特征相關(guān)性(相關(guān)系數(shù))等維度提供分析技術(shù)。


特征重要度:從兩個角度分析“特征收益重要性”和“特征分裂重要性”;特征收益重要性指特征分類的平均訓(xùn)練損失的減少量,意味著相應(yīng)的特征對模型的相對貢獻(xiàn)值;特征分裂重要性是指訓(xùn)練樣本決策分裂的次數(shù),兩者從不同維度度量不同特征在模型訓(xùn)練中的重要性。


獨(dú)立特征分析:我們通過特征重要度得知某個特征對模型的影響度,以及用SHAP來評估全局特征重要性;但如何評估某個單獨(dú)的特征,嘗試通過PDP來評估獨(dú)立特征,展示單個特征對于模型預(yù)測的邊際效益,單個特征是如何影響預(yù)測的,通過繪制特征和預(yù)測目標(biāo)之間的一維關(guān)系圖或二維關(guān)系圖來了解特征與目標(biāo)之間的關(guān)系。多個特征的復(fù)雜性,通過單個特征分析,進(jìn)一步驗(yàn)證單個特征對模型的影響度。


“黑盒”模型


“黑盒”模型使用復(fù)雜的機(jī)器學(xué)習(xí)算法(深度網(wǎng)絡(luò)學(xué)習(xí))訓(xùn)練數(shù)據(jù),輸入特征經(jīng)過組合變換,維度變換等特征工程步驟,需要分析及調(diào)整數(shù)據(jù)與模型,確保模型結(jié)果與要解決的問題保持一致;然而這些模型的內(nèi)部機(jī)制難以理解,也無法估計每個特征對模型預(yù)測結(jié)果的重要性以解釋模型結(jié)果與輸入的特征屬性潛在的關(guān)聯(lián)關(guān)系,更無法直接理解不同特征之間如何相互工作(數(shù)據(jù)的相關(guān)性不等價于因果關(guān)系)。


針對“黑盒”模型,我們可以從深度網(wǎng)絡(luò)結(jié)構(gòu)分析,風(fēng)評結(jié)果命中團(tuán)伙關(guān)聯(lián)圖譜角度去解釋模型有效性。


關(guān)聯(lián)圖譜提供豐富的圖構(gòu)建、圖查詢、圖分析、圖嵌入、圖挖掘技術(shù),通過社區(qū)檢測、關(guān)鍵節(jié)點(diǎn)分析、關(guān)聯(lián)分析、異常網(wǎng)絡(luò)結(jié)構(gòu)發(fā)現(xiàn)等場景化算法和模型,提供風(fēng)控和營銷等場景化輔助決策服務(wù)。如信用ka養(yǎng)卡套現(xiàn)識別,養(yǎng)卡套現(xiàn)團(tuán)伙往往都與黑商戶溝通,正常養(yǎng)卡階段,消費(fèi)的商戶相對固定,而通過遍歷關(guān)聯(lián)圖譜的方式,能夠基于上述行為特征建立欺詐關(guān)聯(lián)圖譜,識別養(yǎng)卡套現(xiàn)團(tuán)伙。


風(fēng)控場景對于數(shù)據(jù)、模型、特征的可解釋性,穩(wěn)定性要求是重點(diǎn),可解釋性和穩(wěn)定性仍然需要結(jié)合業(yè)務(wù)和專家經(jīng)驗(yàn)進(jìn)行判斷。

五、模型實(shí)時計算預(yù)測服務(wù)


風(fēng)控系統(tǒng)有規(guī)則和模型兩種技術(shù)路線,規(guī)則的優(yōu)點(diǎn)是簡單直觀、解釋性強(qiáng)、配置靈活,缺點(diǎn)是容易被攻破,一旦被黑產(chǎn)經(jīng)過多次試錯就會繞過預(yù)先設(shè)定好的規(guī)則進(jìn)而失效,實(shí)際的風(fēng)控系統(tǒng)中,往往再結(jié)合上基于模型的風(fēng)控環(huán)節(jié)來增加系統(tǒng)健壯性。


傳統(tǒng)機(jī)器學(xué)習(xí)模型采用煙囪式開發(fā)、測試、部署上線模式,存在如下幾點(diǎn)弊端:


訓(xùn)練數(shù)據(jù)準(zhǔn)備工作需要手工完成。數(shù)據(jù)清洗和特征挖掘是模型訓(xùn)練的前期工作,既包括從原始數(shù)據(jù)清洗出特征數(shù)據(jù),也包括對清洗出的特征進(jìn)行處理。由于缺乏統(tǒng)一的特征管理平臺,目前訓(xùn)練需要的原始數(shù)據(jù)仍需算法工程師自行收集、整理、清洗。


模型服務(wù)處于離線預(yù)測階段。相對于離線預(yù)測,實(shí)時預(yù)測能結(jié)合用戶的實(shí)時行為數(shù)據(jù)信息作出精細(xì)化預(yù)測,有效提高預(yù)測的準(zhǔn)確性。但實(shí)時數(shù)據(jù)存在復(fù)雜、多變等特性,以及實(shí)時預(yù)測對性能上的要求更加嚴(yán)苛,工程技術(shù)門檻高,不少團(tuán)隊(duì)選擇了相對容易實(shí)現(xiàn)的離線預(yù)測方式。


實(shí)時模型服務(wù)的開發(fā)周期長。實(shí)時模型服務(wù)離不開實(shí)時特征準(zhǔn)備、業(yè)務(wù)邏輯開發(fā)、模型調(diào)用開發(fā)等步驟。實(shí)時特征一般由各項(xiàng)目的開發(fā)工程師自行維護(hù),不可避免地存在特征重復(fù)開發(fā)的現(xiàn)象,帶來開發(fā)資源和存儲資源的浪費(fèi)。此外,一個預(yù)測場景一般由一個模型服務(wù)提供支持,新的模型服務(wù)需求需要完全從頭開始開發(fā),開發(fā)周期較長。


流批一體架構(gòu)較完美地實(shí)現(xiàn)方式:采用流計算 + 交互式分析雙引擎架構(gòu),在這個架構(gòu)中,流計算負(fù)責(zé)的是基礎(chǔ)數(shù)據(jù),而交互式分析引擎是中心,流計算引擎對數(shù)據(jù)進(jìn)行實(shí)時ETL工作,與離線相比,降低了ETL過程的latency,交互式分析引擎則自帶存儲,通過計算存儲的協(xié)同優(yōu)化,實(shí)現(xiàn)高寫入TPS、高查詢QPS和低查詢latency ,從而做到全鏈路的實(shí)時化和SQL 化,這樣就可以用批的方式實(shí)現(xiàn)實(shí)時分析和按需分析,并能快速的響應(yīng)業(yè)務(wù)的變化,兩者配合,實(shí)現(xiàn)1+1>2的效果 。


針對以上行業(yè)現(xiàn)狀和弊端,提供一體化流批混合模型實(shí)時計算預(yù)測服務(wù)能力勢在必行,全面考慮實(shí)際應(yīng)用的業(yè)務(wù)場景與技術(shù)指標(biāo)要求,為場景計算、模型服務(wù)提供高效可靠的基礎(chǔ)設(shè)施平臺。


基于消息驅(qū)動模式動態(tài)解析加載模型文件,準(zhǔn)確還原運(yùn)行時模型流程,構(gòu)建高并發(fā)、低延時、高可用模型實(shí)時預(yù)測服務(wù)。


支持主流AI算法,包括特征工程算法、分類器算法、回歸算法,無監(jiān)督算法等。


提供毫秒級實(shí)時計算服務(wù),高效滿足在線實(shí)時模型引擎特征計算要求。


從設(shè)計、架構(gòu)、功能、性能層面分析,具體應(yīng)包括如下特性:


模型性能:提供高并發(fā)、低延時、高可用實(shí)時預(yù)測服務(wù)。99.99%請求延時在百毫秒以內(nèi),TPS達(dá)到萬級以上;


高可用保障:提供高可用計算能力。保障在部分節(jié)點(diǎn)故障情況下,計算引擎正常提供計算服務(wù)能力;


模型流程重放:支持基于消息驅(qū)動模式動態(tài)更新模型算法流程,并高效生成相關(guān)算法組件運(yùn)行時實(shí)例,提供實(shí)時特征轉(zhuǎn)換計算;


特征算法類型:支持常見特征工程算法,包括特征編碼、特征轉(zhuǎn)換、特征降維、特征融合等;


AI算法類型:支持常見分類器、回歸、無監(jiān)督算法,包括但不限于線性回歸,Logistic、TreeModel、Graph、Logistic、SVM、NN、kmeans、DBSCan等;


文件類型:支持多種模型文件格式,如PMML、Python文件、Parquet等;


系統(tǒng)監(jiān)控:支持?jǐn)?shù)據(jù)流鏈路性能監(jiān)控、服務(wù)組件監(jiān)控、客戶端調(diào)用監(jiān)控、系統(tǒng)資源利用率監(jiān)控等;


動態(tài)擴(kuò)容:在服務(wù)不間斷前提下,實(shí)現(xiàn)系統(tǒng)動態(tài)擴(kuò)容能力;


數(shù)據(jù)預(yù)熱:提供基于事件時間數(shù)據(jù)處理能力,實(shí)現(xiàn)歷史數(shù)據(jù)預(yù)熱。


六、案件核準(zhǔn)閉環(huán)運(yùn)維思維


物理學(xué)熵增定律告訴我們,在一個孤立系統(tǒng)里,如果沒有外力做功,其總混亂度(熵)會不斷增大。比如物質(zhì)總是向著熵增演化,屋子不收拾會變亂,手機(jī)會越來越卡,耳機(jī)線會凌亂,熱水會慢慢變涼,太陽會不斷燃燒衰變......直到宇宙的盡頭——熱寂。


在反欺詐領(lǐng)域,任何優(yōu)秀的模型隨著業(yè)務(wù)平臺發(fā)展、行為路徑的變化、欺詐模式演進(jìn),模型局限性問題會逐步放大,模型預(yù)測效果必然趨于平庸化。通過周期性投入算法研究員去優(yōu)化已有模型,是一種既不優(yōu)雅也不經(jīng)濟(jì)的運(yùn)作方式。從平臺層面提供疑似樣本核準(zhǔn)技術(shù)和機(jī)制,將核準(zhǔn)后的案件樣本通過機(jī)器學(xué)習(xí)采樣技術(shù)采集到模型訓(xùn)練集,可以有效解決樣本失效問題,及時更新欺詐樣本到模型訓(xùn)練集,持續(xù)保障模型訓(xùn)練、預(yù)測效果。


疑似樣本核準(zhǔn)技術(shù)支持體系包括但不限于:OLAP在線分析、實(shí)時報表、用戶畫像標(biāo)簽、團(tuán)伙欺詐圖譜、樣本邊緣采樣、樣本染色等技術(shù),可以有效降低人工審核成本,緩解繁瑣工作壓力,提升標(biāo)注效率和效果。


用戶畫像標(biāo)簽分多級標(biāo)簽體系,包括基礎(chǔ)類標(biāo)簽、實(shí)體關(guān)聯(lián)類、滑窗類等。


基礎(chǔ)特征類標(biāo)簽:包括設(shè)備類型、設(shè)備品牌、設(shè)備網(wǎng)絡(luò)制式、手機(jī)號、證/件類型、證/件號、產(chǎn)品、渠道、地理位置等;


實(shí)體關(guān)聯(lián)特征類標(biāo)簽:空間網(wǎng)絡(luò)特征類標(biāo)簽,Session特征類標(biāo)簽,包括關(guān)聯(lián)設(shè)備關(guān)聯(lián)賬號、賬號操作設(shè)備、賬號-設(shè)備網(wǎng)絡(luò)拓?fù)涠鹊龋?/p>

滑窗特征類標(biāo)簽:時序特征類標(biāo)簽包括常用IP、常用設(shè)備、常用賬號、常在地、各場景常用渠道、各場景偏好時間、行為序列頻次、屬性偏好等;


團(tuán)伙欺詐圖譜社區(qū)集聚度度量指標(biāo)包括關(guān)聯(lián)度,中心度、網(wǎng)絡(luò)聚類、PageRank。


關(guān)聯(lián)度指標(biāo):一度的關(guān)聯(lián)度即是指一個節(jié)點(diǎn)和多少個其他節(jié)點(diǎn)相鄰。如果是有向網(wǎng)絡(luò),還可細(xì)分為入度和出度,分別對應(yīng)鏈入和鏈出的節(jié)點(diǎn)數(shù)。二度關(guān)聯(lián)度則是指介由一個中間節(jié)點(diǎn)相關(guān)聯(lián)的節(jié)點(diǎn)數(shù)。一度,二度關(guān)聯(lián)的關(guān)聯(lián)度在反欺詐的場景中的使用非常的廣泛;


節(jié)點(diǎn)重要性的指標(biāo)是中心度(Centrality): 比如介數(shù)中心度,特征向量中心度等等。介數(shù)中心度度量對于一個節(jié)點(diǎn)X,多少其他節(jié)點(diǎn)對之間的最短路徑必須介由X。特征向量中心度則可以認(rèn)為是一度關(guān)聯(lián)度的一種延伸,當(dāng)考慮一個節(jié)點(diǎn)的重要性時,不止考慮他有多少個鄰接節(jié)點(diǎn),還要考慮這些鄰接節(jié)點(diǎn)的重要性;



網(wǎng)絡(luò)聚類:物以類聚,人以群分,考察和一個節(jié)點(diǎn)有緊密聯(lián)系的其他節(jié)點(diǎn)所構(gòu)成聚類的共性,往往對研究該節(jié)點(diǎn)的特性有很強(qiáng)的指導(dǎo)性,基于少量數(shù)據(jù)標(biāo)簽標(biāo)注算法包括標(biāo)簽傳播算法、Triangle count、Connected components等。


芯盾時代機(jī)器學(xué)習(xí)引擎


芯盾機(jī)器學(xué)習(xí)引擎提供了集體系化風(fēng)控模型、全生命周期管理、模型實(shí)時服務(wù)的一體化解決方案。


體系化風(fēng)控模型


異常檢測模型:通過無監(jiān)督方式,有效解決群體類和個體類欺詐檢測問題,捕獲新型欺詐樣本,為案件平臺提供新型欺詐樣本。


深度欺詐檢測模型:綜合學(xué)習(xí)增量欺詐案例和歷史欺詐案例,深度挖掘新型非線性高維組合欺詐特征,提升有效欺詐檢測率、降低誤判率。


閾值-權(quán)重動態(tài)學(xué)習(xí)模型:通過增量學(xué)習(xí)新型欺詐案例,動態(tài)調(diào)整規(guī)則集中具體規(guī)則的閾值和權(quán)重配比,持續(xù)優(yōu)化風(fēng)評引擎結(jié)果準(zhǔn)確率和時效性問題


用戶畫像和欺詐關(guān)聯(lián)圖譜:從多業(yè)務(wù)維度聚合指標(biāo)和團(tuán)伙網(wǎng)絡(luò)欺詐角度提供了可視化結(jié)果分析工具,為模型預(yù)測結(jié)果判斷提供科學(xué)決策輔助支撐。


全生命周期管理


依托于案件核準(zhǔn)技術(shù)和運(yùn)行機(jī)制,持續(xù)化迭代更新訓(xùn)練集。通過模型監(jiān)控、模型訓(xùn)練、模型優(yōu)選、模型發(fā)布、模型優(yōu)化等生命周期管理功能,實(shí)現(xiàn)從微觀層面規(guī)則調(diào)整運(yùn)維躍升為基于模型生命周期宏觀管理機(jī)制。


模型實(shí)時服務(wù)


芯盾模型在線服務(wù)引擎,基于kappa架構(gòu)設(shè)計理念,提供集高并發(fā)、低延時、高可用、易擴(kuò)展、熱部署等特征于一體的實(shí)時特征計算、模型預(yù)測服務(wù)能力,高效實(shí)現(xiàn)事中風(fēng)險事件評估反饋。


】【打印關(guān)閉】 【返回頂部
分享到QQ空間
分享到: 
上一篇高防IP能防御多大的DDOS攻擊? 下一篇如果網(wǎng)站被CC攻擊,我們該怎么辦..

立足首都,輻射全球,防御吧專注云防御及云計算服務(wù)15年!

聯(lián)系我們

服務(wù)熱線:13051179500 18910191973
企業(yè)QQ:1245940436
技術(shù)支持:010-56159998
E-Mail:xihedata.com
Copyright ? 2003-2016 fangyuba. 防御吧(完美解決防御與加速) 版權(quán)所有 增值許可:京B2-20140042號
售前咨詢
公司總機(jī):18910191973
24小時電話:010-56159998
投訴電話:18910191973
值班售后/技術(shù)支持
售后服務(wù)/財務(wù)
備案專員
緊急電話:18610088800