SOMによる荒らし対策

SOMというのはSelf Organizing Mapの略称で、自己組織化写像や、自己組織化マップという風に呼ばれる事もある。
SOMはベクトルとして表わす事のできる高次元(たとえば256次元)のデータを、低次元(たとえば二次元)のデータに落し込む手法だ。この手法は文章のカテゴリ判定などに使われたり、画像のパターン認識に使われたりもしている。もっとも、SOMというのは大脳皮質の視覚野を模したモデルなのだから、「パターン」の認識は得意そうだ。

さて、簡単にSOMの仕組みを説明しよう。SOMは入力層と出力層で構成されていて、それぞれが高次元ベクトルの行列になっている。簡単のために、3次元で表現することのできるRGB色で考えてみる。ここでは入力層と出力層は、沢山の(r, g, b)の集合体だ。

まず入力層からランダムに色を一つ抜き出す。ここではCとおく。そして現在の出力層のなかで最もCに近い色Dを探し、そのマスの色を一定の割合で混ぜる。ここでは1:1で混ぜるとして、D´ = 0.5 * (C+D)となる。ついでにその周辺のマスにも、少しだけ色を混ぜる。これを繰り返すだけだ。すると勝手に似ている要素が近付いてゆき、自動的にカテゴライズされる。それが名前の由来。

詳しいことはhttp://gaya.jp/spiking_neuron/som.htmを参照していただきたい。

さてさて、これを荒らし対策に応用していこう。
まずあらゆるレスに出現する単語をたくさん集める。そのうち特定のカテゴリに属するであろう(あるカテゴリの文章には出現しやすいが、ほかのカテゴリの文章には出現しにくい)単語を選び出す。これで単語文書行列を作成する。これでSOMを構成し、文書地図を作成する。ある程度地図が収束してまとまったら、各ノードに地図上の位置を割り当て(ときおり更新し)、新規の書き込みの通知はそちらの地図を辿って行う。そうすれば必要な情報ほど早く辿り付く。もっともこれだけじゃ荒らしの対策にならない。orz

GO TO INDEX

Written by Momijikawa

inserted by FC2 system