朝日新聞のBEを見ていたら、ベイズの定理の解説がされていた。なんでこんなのを特集しているのかと思ったら、迷惑メールのフィルタリングに話を持って行きたかったようだ。納得。

ちなみにベイズの定理というのは、

$P(B)$ : 事象Bが発生する確率
$P(B|A)$ : 事象Aが起きた後での、事象Bの確率

としたときに、 $P(A)>0$ ならば

$P(B|A)=P(A|B) * P(B) / P(A)$

というやつです。

数学的にこれがなぜ重要かと言えば、

ベイズの定理は、ある結果（データ）が得られた時、その結果を反映した下での事後確率を求めるのに使われている。定理はイギリスの牧師トーマス・ベイズ（1702年(?) – 1761年）によって発見され、のちにピエール＝シモン・ラプラスによってその存在が広く認識されるようになった。

ベイズの定理 – Wikipedia

という感じ。

これを迷惑メールのフィルタリングに当てはめて考えてみると、「あるメールが迷惑メールであり、その迷惑メールの中に存在するキーワードが別なメールにも存在すれば、その別なメールが迷惑メールである可能性が高くなる」というように適応できます。まず人間が迷惑メールであることを教えてあげて、教えれば教えるほど賢くなっていくフィルターです。

参考

ごめんなさい。はてなのtex記法試したかっただけです。。。