減少信用卡欺詐檢測(cè)中的誤報(bào)

2019-06-10 17:26:35 編輯：來源：

導(dǎo)讀您是否曾在新的商店或地點(diǎn)使用過您的信用卡才能拒絕?由于您收取的金額高于平時(shí)，因此銷售是否被阻止?在合法交易中，消費(fèi)者的信用卡經(jīng)常出人

您是否曾在新的商店或地點(diǎn)使用過您的信用卡才能拒絕?由于您收取的金額高于平時(shí)，因此銷售是否被阻止?

在合法交易中，消費(fèi)者的信用卡經(jīng)常出人意料地被拒絕。一個(gè)原因是消費(fèi)者銀行使用的欺詐檢測(cè)技術(shù)錯(cuò)誤地將銷售標(biāo)記為可疑?，F(xiàn)在，麻省理工學(xué)院的研究人員采用了一種新的機(jī)器學(xué)習(xí)技術(shù)，大大減少了這些誤報(bào)，為銀行節(jié)省了資金，減輕了客戶的挫敗感。

使用機(jī)器學(xué)習(xí)來檢測(cè)財(cái)務(wù)欺詐可以追溯到20世紀(jì)90年代初，并且多年來一直在發(fā)展。研究人員訓(xùn)練模型，從過去的交易中提取行為模式，稱為“ 特征 ”，表示欺詐行為。當(dāng)您刷卡時(shí)，卡會(huì)對(duì)模型進(jìn)行 ping操作，如果功能與欺詐行為相符，則銷售會(huì)被阻止。

然而，在幕后，數(shù)據(jù)科學(xué)家必須想到這些功能，這些功能主要集中在數(shù)量和位置的一攬子規(guī)則上。如果任何給定的客戶在一次購買時(shí)花費(fèi)超過2,000美元，或者在同一天進(jìn)行大量購買，則可能會(huì)被標(biāo)記。但由于消費(fèi)者的消費(fèi)習(xí)慣各不相同，即使在個(gè)人賬戶中，這些模型有時(shí)也是不準(zhǔn)確的：Javelin Strategy and Research 2015年的一份報(bào)告估計(jì)，只有五分之一的欺詐預(yù)測(cè)是正確的，錯(cuò)誤可能導(dǎo)致銀行損失1180億美元的收入，拒絕客戶然后不使用該信用卡。

麻省理工學(xué)院的研究人員已經(jīng)開發(fā)出一種“自動(dòng)化特征工程”方法，可以為每個(gè)單獨(dú)的交易提取200多個(gè)詳細(xì)功能 - 例如，如果用戶在購買期間在場(chǎng)，以及某些供應(yīng)商在特定日期花費(fèi)的平均金額。通過這樣做，它可以更好地確定特定持卡人的消費(fèi)習(xí)慣何時(shí)偏離常態(tài)。

通過對(duì)來自大型銀行的180萬筆交易的數(shù)據(jù)集進(jìn)行測(cè)試，該模型比傳統(tǒng)模型減少了54%的誤報(bào)預(yù)測(cè)，研究人員估計(jì)可以為銀行節(jié)省190,000歐元(約合220,000美元)的收入損失。

麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室(LIDS)的首席研究科學(xué)家Kalyan Veeramachaneni說：“這個(gè)行業(yè)面臨的巨大挑戰(zhàn)是誤報(bào)。”該論文的共同作者是該論文的共同作者，該論文在最近的歐洲會(huì)議上發(fā)表。用于機(jī)器學(xué)習(xí)。“我們可以說特征工程和[減少]誤報(bào)之間存在直接聯(lián)系。這對(duì)提高這些機(jī)器學(xué)習(xí)模型的準(zhǔn)確性是最有影響力的。”

論文的共同作者是：主要作者Roy Wedge，前LIDS數(shù)據(jù)實(shí)驗(yàn)室研究員; James Max Kanter '15，SM '15; 和Banco Bilbao Vizcaya Argentaria的Santiago Moral Rubio和Sergio Iglesias Perez。

提取“深層”功能

三年前，Veeramachaneni和Kanter開發(fā)了深度特征合成(DFS)，這是一種從任何數(shù)據(jù)中提取高度詳細(xì)特征的自動(dòng)化方法，并決定將其應(yīng)用于金融交易。

企業(yè)有時(shí)會(huì)主持競爭，提供有限的數(shù)據(jù)集以及欺詐等預(yù)測(cè)問題。數(shù)據(jù)科學(xué)家開發(fā)預(yù)測(cè)模型，現(xiàn)金獎(jiǎng)勵(lì)最精確的模型。研究人員參加了一次這樣的比賽，并獲得了DFS的最高分。

然而，他們意識(shí)到如果對(duì)幾種原始數(shù)據(jù)源進(jìn)行培訓(xùn)，該方法可以充分發(fā)揮其潛力。Veeramachaneni說：“如果你看一下公司發(fā)布的數(shù)據(jù)，它只是它們實(shí)際擁有的一小部分。” “我們的問題是，'我們?nèi)绾螌⑦@種方法用于實(shí)際業(yè)務(wù)?'”

在國防高級(jí)研究計(jì)劃局的數(shù)據(jù)驅(qū)動(dòng)的模型發(fā)現(xiàn)計(jì)劃的支持下，坎特和他的團(tuán)隊(duì)在FeatureLabs上進(jìn)行商業(yè)化，該技術(shù)開發(fā)了一個(gè)用于自動(dòng)特征提取的開源庫，名為Featuretools，用于本研究。

研究人員獲得了一家由國際銀行提供的三年數(shù)據(jù)集，其中包括有關(guān)交易金額，時(shí)間，地點(diǎn)，供應(yīng)商類型和所用終端的詳細(xì)信息。它包含來自約700萬張個(gè)人卡的大約9億筆交易。在這些交易中，大約122,000個(gè)被確認(rèn)為欺詐。研究人員在該數(shù)據(jù)的子集上訓(xùn)練和測(cè)試了他們的模型。

在培訓(xùn)中，該模型尋找交易模式以及與欺詐案件相匹配的卡片。然后，它會(huì)自動(dòng)將它找到的所有不同變量組合成“深層”功能，從而為每個(gè)事務(wù)提供高度詳細(xì)的視圖。從數(shù)據(jù)集中，DFS模型為每個(gè)事務(wù)提取了237個(gè)特征。Veeramachaneni說，這些代表了持卡人的高度定制變量。“說，周五，顧客通常會(huì)在星巴克花5美元或15美元，”他說。“這個(gè)變量看起來像'星期五早上在咖啡店花了多少錢?'”

然后，它為該功能帳戶創(chuàng)建一個(gè)if / then決策樹，該功能可以指向欺詐，也可以不指向欺詐。當(dāng)通過決策樹運(yùn)行新事務(wù)時(shí)，模型會(huì)實(shí)時(shí)決定交易是否是欺詐性的。

與銀行使用的傳統(tǒng)模型相比，DFS模型產(chǎn)生了大約133,000個(gè)誤報(bào)，而289,000個(gè)誤報(bào)，大約減少了54%。研究人員估計(jì)，除了檢測(cè)到的漏報(bào)數(shù)量較少 - 未檢測(cè)到的實(shí)際欺詐行為 - 可以為銀行節(jié)省大約19萬歐元。

堆疊基元

模型的主干包括創(chuàng)造性地堆疊的“基元”，簡單的函數(shù)，它們接受兩個(gè)輸入并提供輸出。例如，計(jì)算兩個(gè)數(shù)的平均值是一個(gè)基元。這可以與查看兩個(gè)事務(wù)的時(shí)間戳的原語組合，以獲得事務(wù)之間的平均時(shí)間。堆疊另一個(gè)原語來計(jì)算這些事務(wù)中兩個(gè)地址之間的距離，給出兩個(gè)特定位置的兩次購買之間的平均時(shí)間。另一個(gè)原語可以確定購買是在工作日還是周末進(jìn)行，依此類推。

“一旦我們擁有這些基元，就不會(huì)阻止我們堆疊它們......你開始看到之前沒有想到的這些有趣的變量。如果你深入研究算法，那么基元是秘密的，”Veeramachaneni說。

Veeramachaneni指出，模型生成的一個(gè)重要特征是計(jì)算這兩個(gè)位置之間的距離，以及它們是親自發(fā)生還是遠(yuǎn)程發(fā)生。如果有人在Stata中心親自購買東西，半小時(shí)后，在200英里以外的地方購買東西，那么欺詐的概率很高。但如果通過手機(jī)進(jìn)行一次購買，則欺詐概率會(huì)下降。

標(biāo)簽：信用卡欺詐