TPIsoftware

詐騙猖獗!如何以 Neo4j 關聯圖形資料開啟反詐欺策略

如何以 Neo4j 關聯圖形資料開啟反詐欺策略?
詐騙猖獗!如何以 Neo4j 關聯圖形資料開啟反詐欺策略
文章目錄

前言

為什麼當前的反詐欺策略未能識別所以詐欺事件?

雖然現在的資料科學家已經開發嚴格的機器學習和分析模型來偵測詐欺。但當前的反詐欺模型,並未能識別所有詐欺事件。主要的原因是 — 大多數的模型忽略了一些至關重要的東西:網路結構

網路分析捕捉數據元素之間的內在聯繫。我們習慣把社交網路數據看作一個圖。但事實上,任何類型的數據都可以用這種方式表示。例如,可以將帳戶持有人及其訊息可視化為一個圖。當我們在分析帳戶持有人訊息的網路結構時,可能會發現多個帳戶持有人的電話號碼,或是其他個人身份資訊(Personally identifiable information, PII)相同。共享相同的PII可能表明共用身份詐欺。通常這些類型的詐欺的痕跡很難被發現,除了使用圖算法之外,沒有一種有效的方法來檢查成千上萬或是數百萬帳戶持有人的龐大網路結構。

表格類型數據模型,以行和列所組成,但其模型並不是為了捕捉數據中固有的複雜關係和網路結構所設計的。如果我們將數據建構為一個圖,會方便我們揭示他的結構並且對其進行分析和預測。通過使用圖形資料庫,我們可以將這些網路結構持久化存儲,以便以後進行分析。
圖形資料庫
圖片來源:Neo4j

用於詐欺偵測的圖數據科學

我們可以藉由圖分析和圖特徵工程來提昇預測準確度。 一旦數據在圖數據庫中連接起來構成了網絡圖結構,就有可能通過圖結構衍生出許多有用的圖特徵,例如節點的出度,入度,潛在三角形群體的數量或共同鄰居的計數,例如:社區檢測算法突出顯示數據所在的簇結構(類似聚類),以便可以調查可能的欺詐群體,並深入挖掘不尋常的模式。

使用圖數據科學,可以在不改變當前機器學習系統的情況下檢測到已經擁有的數據中的更多欺詐行為。 簡單來說,就是在特徵工程的過程中引入更多的基於圖的圖特徵。

使用圖數據科學,可以在不改變機器學習系統的情況檢測更多詐騙行為
圖片來源:Neo4j-Financial-Fraud-Detection-GDS-white-paper

事前需求

  • Neo4j 4.0+
  • Graph Data Science Library (Neo4j GDS 1.5+)
  • APOC Library (Neo4j APOC 3.5+)

資料集

PaySim

由Lopez-Rojas, Elmire, and Axelsson發表,使用基於代理模型(agent-based model)和一些匿名的,來自真實行動支付網路營運商的交易數據,所創建的金融數據集。

PaySim數據集涉及銀行(Banks)和參與其中的商家(Merchants)。商家(Merchants)可以透過網路(network)進行行動支付,也可以向網路(network)投入金錢(像是儲值)。

可以簡單把他想像成Apple Pay,但你可以透過參與的商家進行存款。

Agent Types(代理種類):
以下是三個主要代理(Agents)在圖網路中。
- Clients(客戶)
客戶(Clients)是最終使用者在行動支付網路中,為真人控制的獨特帳戶。
  • 一些客戶是詐欺犯(Fraudsters),操縱網路(Network)和其他客戶(Clients)為了自己的利益。
  • 一些客戶扮演騾子(Mules)的角色,負責轉移資金並最終離開網路(Network)的方式。
  • 大多數的客戶都是表現正常的正常人。
- Merchants(商家)
商家代表供應商(vendors)或是企業(Businesses)與客戶(Client)在網路中互動。
  • 商家(Merchants)扮演網路的關口(Gateway),允許資金進出網路。
  • 商家(Merchants)像傳統的供應商(Vendors)一樣在網路中提供商品或服務換取金錢。
- Banks(銀行)

銀行扮演著借記帳(Debit transactions)的角色。

Transactions(交易):
交易是客戶(Clients)與其他代理(Agents)進行互動的唯一途徑。事實上,客戶(Clients)是執行交易(Transactions)的唯一代理(Agent)。

以下為五種交易可能類型:

  • CashIn: 客戶(Client)透過商家(Merchant)將資金轉移到網路中
  • CashOut: 客戶透過商家將資金轉移出網路
  • Debit: 客戶將資金轉入銀行
  • Transfer: 客戶向另一位客戶匯款
  • Payment: 客戶(Client)用金錢從商家(Merchant)換取某物