大數(shù)據(jù)+AI打造互聯(lián)網(wǎng)金融反欺詐體系
今天分享的主題就是利用大數(shù)據(jù)和AI結(jié)合機器學(xué)習(xí)的方法在當(dāng)前的技術(shù)環(huán)境下面在互聯(lián)網(wǎng)金融的一個反欺詐架構(gòu),這次分享與線上風(fēng)控相關(guān)。介紹一下中國當(dāng)前風(fēng)控環(huán)境、反欺詐形態(tài)、目前所用的數(shù)據(jù)和算法如何在反欺詐中應(yīng)用,將從以下幾個方面介紹。
國家政策對金融監(jiān)管還是比較嚴(yán)格,每個國家應(yīng)對的也大不相同,我國目前經(jīng)濟發(fā)展迅速,尤其互聯(lián)網(wǎng)金融發(fā)展迅猛。目前GDP中消費支出占了較大的比例(與美國已經(jīng)相差不大)消費已經(jīng)成為巨大驅(qū)動力,比重越來越高,尤其淘寶起來很大作用。人們越來越趨向于網(wǎng)上購物,在這個過程中技術(shù)也有了飛速的發(fā)展,中國在這方面處于領(lǐng)先地位,中國的環(huán)境、服務(wù)、平臺都非常穩(wěn)健,這個我們的金融科技打下來非常堅實的基礎(chǔ)。這個趨勢不可逆轉(zhuǎn),雖然國家政策表面上收緊,但是還有很多正面意義,互聯(lián)網(wǎng)金融近幾年發(fā)展也確實存在很多亂象,如暴利、惡意催收。政府收緊其實是一個洗牌過程,如果你沒有技術(shù)力量,靠以前這種野蠻手段在新的監(jiān)管環(huán)境你就很難生存。真正依靠數(shù)據(jù)、科技去驅(qū)動,你就可以很好地應(yīng)對政策。
美國是個人消費實力很強的一個國家,我們以它為標(biāo)桿。圖中藍線代表中國,紅線代表美國。預(yù)測中國短期個人貸款到2020年達10萬億元,可見市場龐大。個人消費不僅僅靠大銀行,還要靠其他小型機構(gòu);因為大銀行本身這種特點(客群優(yōu)質(zhì)),很難下放到下層服務(wù)。在信用風(fēng)險中欺詐風(fēng)險在我國占的比例非常高,數(shù)額也比較大,經(jīng)常是有組織的欺詐,如做“網(wǎng)絡(luò)黑產(chǎn)”有百萬級人員,市場規(guī)模為千億級,很多公司被迫無法經(jīng)營,據(jù)估計,互聯(lián)網(wǎng)金融一半以上的壞賬風(fēng)險來自欺詐風(fēng)險。對比美國這方面比例就相對小的很多,如一個千億級個人消費,中能達20-30億美元,美國則只有幾千萬美元。原因有一點是美國征信做的比較好,幾乎覆蓋所有成年人。反欺詐就是提高欺詐的成本。
接下來介紹下不同領(lǐng)域的金融欺詐類型,如銀行業(yè)釣魚網(wǎng)站,木馬病毒,做一個假的網(wǎng)站;電商行業(yè)促銷讓利大部分便宜了黃牛黨或競爭對手—薅羊毛,與此同時退單電信詐騙,刷評,協(xié)議支付面臨的銀行卡盜刷等問題也是常有發(fā)生;消費信貸中借款人冒用身份、老賴、多平臺借款、黑中介、企業(yè)經(jīng)營異常貸后無法跟蹤等問題。
用技術(shù)去做反欺詐都是有針對性的,在進行反欺詐時需要知道欺詐的類型,下面是欺詐分類,有第一方欺詐,第三方欺詐等。第三方欺詐就是欺詐分子通過非法途徑獲取他人身份進行騙貸等欺詐行為;線下欺詐是通過信用卡偷盜,盜取其他用戶賬戶資金的行為或者通過偽造申請材料,線下面對面申請的欺詐行為;申請欺詐是以欺詐為目的,申請個人信貸賬戶以騙取銀行或P2P平臺等機構(gòu)資金的行為。可細(xì)分為虛假身份申請和虛假資料申請(這在反欺詐中很重要,將壞人擋于門外);交易欺詐對數(shù)據(jù)實時性比較高。欺詐風(fēng)險是惡意的,自始至終就是不想還貸,信用風(fēng)險更多的是一種還款意愿或還款能力導(dǎo)致無法還款。信用風(fēng)險主要是看征信、數(shù)據(jù),建模型進行處理,計算欺詐概率,而欺詐是要分清黑白。
接下來我們講一下大數(shù)據(jù)+AI的反欺詐,風(fēng)控需要對監(jiān)管的改變,市場的形態(tài)我們都要時常關(guān)注。我們雖然不是銀行但是我很多事都是按銀行來做,自己做壓力測試,如果變壞我們能否承受得住,而且我們的反應(yīng)一定要快。金融危機發(fā)生很快根本不會給你思考的時間,如果你去現(xiàn)設(shè)計或者反應(yīng)可能會造成很大的損失。08年危機反應(yīng)快的銀行會及時剝離壞的資產(chǎn),后面有機會我們會講如何在經(jīng)濟危機下處理我們的資產(chǎn)。對于大數(shù)據(jù)和AI來說,我們并不陌生,任何新技術(shù)出來有人會質(zhì)疑,如數(shù)據(jù)早就有了只是數(shù)據(jù)量大了點。最近流行的AI算法其實一點也不新,早就有了只是目前有一定的突破、發(fā)展快、效率比較高、得到廣泛的應(yīng)用,最近消費水平的提升與技術(shù)的成熟是分不開的。大數(shù)據(jù)在美國有種說法叫另類數(shù)據(jù)。美國征信數(shù)據(jù)很豐富,它屬于強金融數(shù)據(jù),比如我在哪里借了錢、還多少、利率是多少、逾期多少等,這些數(shù)據(jù)對信貸風(fēng)險評估是非常有用的,對欺詐風(fēng)險評估也是很有用的。但在中國這種數(shù)據(jù)很多人沒有或者缺失不完整,因此補充的數(shù)據(jù)就非常有效,如有些推廣數(shù)據(jù)、你有那些銀行賬戶、安裝的APP、消費習(xí)慣、年齡段等都與他的資產(chǎn)和收入有關(guān),這是非常有用的。比如手機可以判斷他是一個正常人,不是專門的欺詐。大數(shù)據(jù)不是結(jié)構(gòu)化的,但是征信數(shù)據(jù)是結(jié)構(gòu)化的(要求嚴(yán)格),因此這類數(shù)據(jù)分析是很容易的。機器學(xué)習(xí)提供了很多方法,如統(tǒng)計方法等是非常有效的。美國每個人都有一個信用評分,這個評分準(zhǔn)確度非常高,數(shù)據(jù)結(jié)構(gòu)化,采用邏輯回歸方法 。在中國你有這種高維的、稀疏的、數(shù)據(jù)準(zhǔn)確度可能會有問題,但是利用機器學(xué)習(xí)的方法也可以達到很好的精度。
大數(shù)據(jù)是多維的,例如在海外,不同的國家有不同的數(shù)據(jù),如在巴西一個項目,他們有稅務(wù)的數(shù)據(jù),這個是公開的,也能很好地評估你的收入;還有些國家有電信的數(shù)據(jù),如東南亞分期付款手機業(yè)務(wù),這不屬于金融數(shù)據(jù),這方面包含數(shù)據(jù)有很多(地址、戶籍,手機是什么)。手機型號用的網(wǎng)絡(luò)進行比較,位置指標(biāo),這些都是很好的指標(biāo)。提取些規(guī)律和緯度,這些在建模時都是很有效的。
我們常用的一些反欺詐的數(shù)據(jù)和方法有:(1)身份驗證,這個是非常重要的,身份驗證在中國很偉大,如中國解決了第三方欺詐的問題。因為中國手機實名認(rèn)證,有些時候你很難去做假,這樣我們可以交叉驗證,這樣就提高了欺詐的成本;(2)法院/征信信息,內(nèi)部黑名單,有公司會專門整理這些信息,可以公開給我們使用。用戶信息整合,通過各公司間信息碰撞,規(guī)則匹配,如果發(fā)現(xiàn)過去欺詐行為就不給他提供金融服務(wù);(3)模型,評估用戶行為,進行規(guī)則評判他這種行為是不是欺詐,如何減少錯殺準(zhǔn)確抓住欺詐人員。
下面是欺詐與未知欺詐甄別問題,主要是監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是知道一個人以前欺詐(父母信息不對,電話號碼有誤等),我們就會打上標(biāo)簽,歷史數(shù)據(jù)就會訓(xùn)練我們的模型,統(tǒng)計模型所用數(shù)據(jù)大都都是有標(biāo)簽的;非監(jiān)督學(xué)習(xí)也是經(jīng)常使用的,因為欺詐是經(jīng)常改變的或不同特征的,我并不知道他是否是欺詐,我們用關(guān)聯(lián)網(wǎng)絡(luò),每個人間有聯(lián)系,這種網(wǎng)絡(luò)快速發(fā)展;還有一種是兩者結(jié)合起來,利用權(quán)重評估。
下面是反欺詐常用算法,比如邏輯回歸,并不是就不用了,因為它的解釋性非常好。機器學(xué)習(xí)很多時候是黑盒子,中間過程無法獲取,而銀行很少用機器學(xué)習(xí)的方法,因為監(jiān)管就無法通過(比如它要了解你的資產(chǎn)質(zhì)量,但是它連你怎么評估都不清楚,它不會認(rèn)可你的結(jié)果),因此很多大銀行都會用邏輯回歸。而機器學(xué)習(xí)存在過擬合現(xiàn)象,很難匹配一個度。因此在風(fēng)控行業(yè)經(jīng)驗非常重要,有一句老話講“風(fēng)控是技術(shù)和藝術(shù)的結(jié)合”,這絕對不是純技術(shù)問題,單純靠技術(shù)是會存在風(fēng)險的。
復(fù)雜網(wǎng)絡(luò)這一塊用的非常多,很多公司都有開發(fā),只是網(wǎng)的大小問題,人都是有關(guān)系的,無論是微信或是Facebook等的人都是通過網(wǎng)絡(luò)聯(lián)系在一起的。而且“物以類聚,人以群分”,欺詐團伙因素,比如不一定你是欺詐,但是和欺詐有關(guān)系的人風(fēng)險會很高。如通話記錄、短息記錄、住址等利用模糊匹配。提一點在欺詐模型評估時主要用到準(zhǔn)確率和召回率指標(biāo)。
接下來講一下我們線上的一個反欺詐系統(tǒng)框架,下圖簡化了實際反欺詐系統(tǒng)。介紹了基本流程,首先是身份的交叉驗證,證明你是你。不光是銀行卡、手機、身份證交叉認(rèn)證,還有你的照片、活體認(rèn)證(你在上面動來動去);內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)有一個決策引擎,這里面存儲了各種規(guī)則;接下就是一個評分分析系統(tǒng),這些數(shù)據(jù)有手機的行為數(shù)據(jù)也有其他外部數(shù)據(jù)(不可控,最好有個穩(wěn)定模型進行備份);除此之外還有個預(yù)警系統(tǒng),對我們的模型進行監(jiān)管,需要對實時數(shù)據(jù)進行一些評估,這一點也是非常重要的。
下面是欺詐模型建模過程,底層是基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)倉庫將所有外部數(shù)據(jù)、內(nèi)部數(shù)據(jù)、不同來源的數(shù)據(jù)搜集起來。中間層是如何提取一些特征,將多維的、離散的數(shù)據(jù)進行整合。模型是金字塔的頂端,一個好的模型往往是非常困難的,社會上也很缺乏這種人才。
閉環(huán)系統(tǒng)也就是打標(biāo)簽,比如我們公司就有專門的反欺詐的專員不僅對已有的客戶,也會追蹤一些論團、微信群或者黑產(chǎn)群、戒賭吧,了解他們的動態(tài),搜集數(shù)據(jù),這些會反饋在我們的模型上。及時獲取最新欺詐手段或技術(shù)非常重要。
對未來一點展望,欺詐永遠不會停止、不會消失,尤其在中國征信沒有完全建立,人口多,社會缺乏金融知識,對征信了解很少,收入差距比較大的環(huán)境下,欺詐現(xiàn)象會長期存在,這在風(fēng)控里面是考慮的一個重要部分。征信體系的建立和完善,雖然這個過程會很長;目前第三方反欺詐公司推出的服務(wù)產(chǎn)品有同質(zhì)化的特點,預(yù)計行業(yè)發(fā)展到后期會競爭加劇,最終會形成幾家專業(yè)化的行業(yè)巨頭。(文字來源:今日頭條)