不正検知のためのデータマイニング技術とツール

データマイニングは、その多種多様な手法を駆使することで、膨大なデータ群から極めて有用な情報を抽出することを可能にします。

データから有益な知見を見出す能力を備えているため、データ内の異常なパターンや、その背後に潜む不正な活動を特定する上で、極めて強力な手法となります。

保険、銀行、クレジットカード、通信といった業界は、膨大なデータを扱っているがゆえに、金融詐欺の標的として特に脆弱な立場にあります。

不正検知のためのデータマイニング手法について詳しく掘り下げる前に、まずはすでに実用化されている不正検知システムの実例をいくつか見ていくことにしましょう。

ファジィ論理システムは、最適な閾値を用いて不正事例を判定します。
信用詐欺検知モデルは、第一に不正／正当な取引を分類する手法を、そして第二に、不正なし／正当な取引に対してクラスタリングを行った後に再度分類を行う手法を採用しています。
自動車保険における傷害請求について、不正の疑いの度合いを評価するために、コホネンの自己組織化特徴マップ（SOM）が用いられました。

それでは次に、不正検知において有用なデータマイニング手法のいくつかを見ていきましょう。

不正検知に役立つ、最も代表的な2つのデータマイニング手法

ベイジアン信念ネットワークは、基本的に因果関係のモデルを構築し、そのモデルに基づいて確率を予測することで、個々の事例が正当なものであるか、あるいは不正なものであるかを判定します。

不正行為の検知を目的として、2つのベイジアンネットワークが自動車保険会社の挙動を分析・判定するために用いられます。

このモデルは、基本的に2つの前提（仮説）に基づいています。一つは、当該のドライバーが不正行為を行っているという仮説、もう一つは、そのドライバーが正当な利用者であるという仮説です。

具体的には2つのネットワークが構築されます。一つは「不正ネットワーク（Fraud Net）」であり、もう一つは（「ユーザーネットワーク（User Net）」と呼ばれる）正当な利用者側の挙動をモデル化したものです。

この運用プロセスにおいては、入力されるデータに基づいて「ユーザーネットワーク」が特定の利用者の特性に合わせて適応（調整）され、その上で、当該利用者の実際の挙動に何らかの逸脱が見られないかどうかが監視されます。

決定木は、独立属性と従属属性から構成される機械学習手法の一群です。決定木の基本的なアルゴリズムは以下の通りです。

まず、クラスとして「正当（合法）」と「不正（違法）」の2つが存在すると仮定することから始めます。決定木は、訓練サンプルのみから成る単一のノードとして開始されます。

与えられたサンプルがすべて同一の「不正」クラスに属している場合、そのノードは葉ノードとなり、「不正」であるというラベルが付与されます。

それ以外の場合、アルゴリズムはエントロピーに基づく指標を用いて、サンプルを個々のクラスへと分割します。

不正検知に最適なデータマイニングツールとしては、以下のようなものが挙げられます。

ブログをもっと見る