首頁 » (二) 偵測金融詐欺 藉由 Neo4j 圖數據庫識別潛在的金融詐騙犯
- 作者 | 洪堂瑋 Tangwei Hung
偵測金融詐欺 藉由 Neo4j 圖數據庫識別潛在的金融詐騙犯
我們如何藉由圖數據庫來識別潛在的第一方金融詐騙犯呢?
探索數據
Stats:
第一方詐騙(First Party Fraud)
第一方詐騙主要是個人(或群體)在申請金融產品或服務時謊報身份或提供虛假訊息。
根據 McKinsey,增長最快的第一方詐欺類行為虛假身份詐欺( synthetic identity fraud). 在虛假合成身份詐騙( synthetic identity fraud)中,詐騙者通常結合虛假和真實的訊息,在新的合成身份下建立信用紀錄。這類欺詐行為給金融機構造成重大損失,據估計,80%的信用卡詐騙損失都是由於偽造合成身份詐騙( synthetic identity fraud)造成的。
我們將會執行以下的步驟,來揪出這些詐騙帳號:
- 識別共享個人身份資訊(Personally identifiable information, PII)的客戶(Clients)
- 使用社區檢測算法(Community Detection Algorithms)識別共享PII的客戶群集
- 使用成對相似算法(Pairwise Similarity Algorithms)在基於共享PII的客戶群集中找到相似的客戶
- 使用中心性算法(Centrality Algorithms)為共享PII的客戶群集計算詐騙評分(Fraud Score)
- 使用上述的分數來標記潛在的詐騙犯
1. 識別共享個人身份資訊(Personally identifiable information, PII)的客戶
2. 識別共享PII的顧客群集(Clusters)
在這邊,運行GDS Library的社區檢測算法(Community Detection algorithms)來識別共享PII的客戶群集。
我們使用弱連通連結(Weak Connected Components)來尋找一個群集連接的節點,其中在同一個群集中的所有節點構成一個連接的組件。
弱連通連結(Weak Connected Components)對圖進行分析,識別”圖組件(Graph Components)”。組件是一組節點與關係,在這些節點和關係中,可以透過遍歷從任何其他節點到達每個成員(節點)。之所以被稱為弱,因為並沒有考慮到關係的方向性。
弱連通連結(Weak Connected Components)通常用於分析的早期,以理解圖的結構。
更多訊息: Weakly Connected Components — Neo4j Graph Data Science
3. 在顧客群集中找出類似的客戶
透過運行GDS 成對相似算法(Pairwise Similarity Algorithms),在顧客集群中找出相似的客戶。
節點相似度(Node similarity),根據與其他節點的關係找到相似的節點。節點相似度使用Jaccard距離,通過觀察網路中兩點節點共有的相關節點除已與兩個節點相關的所有節點的和,來計算一對節點的相似性分數。
4. 計算詐騙分數 (Fraud Score)
5. 標記潛在詐騙犯
找出第二級詐騙犯
找出與這些詐騙群集有聯繫的人
創造新關係
找出第二級詐騙犯(2nd-level Fraudster)
找出可能與第一方詐欺犯勾結的客戶,並沒有被確定為潛在的第一方詐欺犯。
我們的假設是,執行轉帳類型交易(Transfer)的客戶,他們從第一方詐騙犯那裡發送或接受資金,可以被懷疑為 2nd-level Fraudsters。
識別這些客戶使用剛剛創建的TRANSFER_TO關係,並執行下面的步驟:
- 使用社區檢測算法(WCC)來識別與第一方詐騙者有關的客戶網路
- 使用中心性算法(Page Rank)計算一個Fraud Score(風險評分)
- 找出相對Page Rank高的嫌疑犯,並標記為2nd-level Fraudsters
第一部分總結:我們發現了什麼?
綜上所述,我們使用GDS來執行金融交易數據分析中的一些關鍵步驟:
- 我們使用WCC 與Degree Centrality算法篩出潛在的第一方詐騙犯。
- 使用新建立的關係(TRANFER_TO),利用WCC與Page Rank算法找出與第一方詐騙犯相關聯的2nd-level Fraudsters。
- 在原本的網路上標籤這些嫌疑犯。
下一章節,會結合Machine learning 來做金融詐欺的預測。