2008年10月23日

更新が途切れます

サーバ側プログラムの更新作業のため、pigmizの更新がこれからしばらくの間、断続的になります。サーバプログラムに機能追加などをしたため、そのもろもろのテストをしているところです。
今まで大体1分〜3時間に一回更新されていたデータが、1日更新されなかったり、連続的に更新されたりということが起こるかもしれないということです。
とはいっても、見た目としてはあまり変わらないような気がしますので、影響はそれほどなさそうです。使っていただく分には全く問題ないです。
posted by 飼育係A at 09:27| Comment(0) | TrackBack(0) | 飼育記録

2008年10月10日

pigmizでのスパムブログ対策


今回は、pigmizのようにブログを自動的に集めてきて紹介するタイプのサービスとか、CGMのブックマークサイトなどで心無いユーザーが増えてきたときに出てくる、スパムブログへの対策の話です。

ネットを見ていたら、ライブドアで”スパムブログを排除するフィルターを開発した”というニュースがあったので、それに絡めて書こうかと思います。

スパムブログを完全排除するというのは、正直な話、無理です。紹介した記事の中でも言われていますが、人間が見ても一見、スパムとはわからないものも最近は多いので、それを高い精度で排除するというのは、本当に難しいと思います。

何が難しいのか?というと、スパムブログをスパムブログと判定する難しさと、スパムブログじゃないものをスパムブログであると判定しないようにする難しさの二つがあるということだろうと、私としては思います。
そして、この二つは、トレードオフに近い関係で、スパムブログとする基準をかなり厳しくすると、スパムじゃないブログも引っかかる可能性が高くなるわけです。これが頭の痛い問題です。ここにスパムブログ排除の難しさの大きな部分があると思います。

pigmizを作るうえでもそれにはかなり頭を悩ませました。私もいろいろなフィルタを作ってそれにかけています。フィルタがどういう処理をしているのかというのを書くのはあまり良くないので、書かないですけれども、旧式のスパムサイトに関してはある程度、構造的な傾向がわかるので、それは、それなりに判定してくれるようにはなっています。ただ、最近のスパムブログは上記の記事でも書いていますが、どこかのサイトやブログの記事をそのままコピペして、一見、ちゃんとエントリーを配信をしているブログかのように見えるものとか、自動的にちゃんとした日本語っぽいものを出力しているものも多いです。「人が見てもわからないスパムブログ」というのはまさに一番頭が痛いです。人間が見て誰でもがスパムとわかるようなブログなら、そこにはデータとしてのパターンが出てくるわけですから、まあ救いがあったんですけれども。

ただ、スパムブログの目的というのは、最終的になにかを買わせるとか、なにかを買わせるサイトに誘導するということなので、その目的をブログの中から見つけ出すことでそういうのを防ぐというのが、とりあえずは今のところできることであろうと思います。pigmizは日本語を理解して、その意味を推定するのが一応本業なので、その機能を使ってそういうことをさせているんです。でも、まだまだ及ばず…。やっぱりスパムを拾っていたり、スパムじゃないものを弾いていたりします。このあたりはこれからの課題かなぁと思っています。


普通のフィルタも私は結構作ったのですが、ブラックリスト方式にしても、ブラックリストを作り続けるには限界がありますし、ニュースの配信元を特定してそこと文章を照合するにしても、きちんと引用して、それについて評論しているようなちゃんとしたブログを排除してしまう可能性もありますので、やっぱり一長一短だと感じまして、運用には制限が付いています。また、その他のフィルタも、やっぱりあちらを立てればこちらが立たずという感じの問題を抱えているので、なかなか決定的なフィルタというのはできないなぁと実感しています。

なので、今回のライブドアのシステムとか、前に、ニフティでも似たようなシステムを開発した話が出ていましたが、そういうものが、複数のフィルタを組み合わせているというのは頷ける話でした。


スパム問題がかなり深刻なブログ界ですが、なんとか技術が進歩して、ちゃんと書いているブログがしっかり目立つようになればと思いますし、私もpigmizをそういう方向になんとかもって行きたいと思っています。いたちごっこに近い話なので、なかなか難しいですけれども…。

posted by 飼育係A at 21:30| Comment(2) | TrackBack(0) | 飼育用具