2008年11月23日

リンクに関して考えたこと

ブログをたくさんリンクしているpigmizの飼育係として、かなり気になる話があったので、思うところを書いてみようと思います。

ホームページを作る人のネタ帳さんの、”一般常識ブログマナーを訴える人と、全く話がかみ合わないたった一つの理由”というエントリーを読んで知って思ったことです。


リンク先を読んでいただければわかると思いますが、ここで話題にされているのは、ネットに公開されているページへのリンクを拒否できるか?ということ。

私は、もしもリンク拒否ができるとしたら?無断リンクが法律的にも禁止になり、リンクするには全てに許可が必要になったとしたら?というようなことを、このエントリーを読みながら想像しました。

もしも、いちいち許可取らないとリンクできないようことにでもなったら、WEBの利便性はガタ落ちだと思います。普段便利に使っている検索サイトだの、ブックマークサイトだの、リンクを整理し、紹介して、WEBでの情報収集を容易にしているサービスが軒並み影響を受けることになります。これはかなりきついことになりそうです。

googleなんかにキーワードを入れて、検索結果が出てこないことというのは、あまりないわけですが、そういう状況が、かなりの頻度で出てきてしまうことになりそうです。また面白いサイトやニュースをリンクとして紹介しているサイトなんかも激減するのが想像できます。それに、何かを説明する文章の中で、リンク先にもっと詳しく書いてありますとか、そういう基本的な紹介の仕方がかなり減ることになるわけで、それだけは許してくれと思いました。

リンクするのに、いちいち全部のサイトの管理者に許可を取らなければいけないということになったら、こういう事態になるのだろうと。ものすごくWEBが不便になるなと思えますので、正直、かなり困ります。


とはいえ、リンクを拒否したいと考えている方の主張も素直な意見ではあると思いました。自分の知らないところで勝手にリンクされて、勝手に批評されたりするのが我慢できないというのも、気持ちとしてはわからなくもないです。でも、その主張を通し、それがネットの規則となった場合に、失うものがかなり大きいと思いますからそれだけは勘弁して欲しいものです。

リンク拒否を主張しているエントリーに寄せられているコメントでは、WEBの理念とか、WEBはもともとそういうものだ、ということからリンク拒否は出来ないという意見が多いですが、私としては現実的に、得るものと失うものを比較すると、リンクを拒否できるという意見には賛成できないなと思いました。

もちろん、こういう問題提起は必要だと思います。悪意を持って、例えば相手のブログを炎上させようという意図などでリンクしまくるような状況があることも問題ですから、それはそれとして議論していく必要があると思います。ネットは善意で成り立ってきたという経緯も持っているわけです。それを踏みにじる者に対して何の制限も無く放置するのは、ネットにコンテンツをアップしようとする人のモチベーションを下げることになりますので、今後のネットの発展を考えると決して良いことではないとも思います。

なので、本当に難しい問題だとは思いましたが、ネットの公開されている領域にアップされたものに対してのリンクを一方的に拒否できるという状況にだけはなって欲しくないと切に願います。



それで、もしも、リンクに許可が要るようになった場合、ブログのリンク集であるpigmizで対応できるのか?と、少し考えてみたんですが、やっぱりかなり難しいだろうなと思いました。

現状、pigmizには2万個くらいのブログへのリンクがありますから、それらに、全ての許可を取り歩くのは無理だと思います。一応、ブログの中の日本語を理解するのがpigmizの能力なので、文書中に、”リンクしていいよ”とか、”リンクしないでくれ”とか、そういうニュアンスが書いてあれば、それに対応するということは出来そうに思うのですが、それもない場合にはどうしようもないと思いました。この話題の発端である、リンク拒否を主張しているブログのように、しっかり書いてあれば自動的にリンクしないようにするということは技術的に可能ですが…。きっとそういう風にリンクに関するポリシーをしっかり表明する人ばかりじゃないだろうと思いますので。

なので、やっぱり、リンク拒否は勘弁して欲しいと、pigmizの飼育係としても思った話題でした。

法律なんかを見ていますと、WEBに対する規制がだんだんと強化される方向に行っていますので、それが行き過ぎないように、私たちもきちんと見守っていかないといけないと思いますし、そういう法律を作って規制しようという声が出る前に、WEBのユーザー皆が、自浄作用をしっかりと働かせていく必要がありそうに思います。


posted by 飼育係A at 21:07| Comment(0) | TrackBack(0) | 飼育用具

2008年10月10日

pigmizでのスパムブログ対策


今回は、pigmizのようにブログを自動的に集めてきて紹介するタイプのサービスとか、CGMのブックマークサイトなどで心無いユーザーが増えてきたときに出てくる、スパムブログへの対策の話です。

ネットを見ていたら、ライブドアで”スパムブログを排除するフィルターを開発した”というニュースがあったので、それに絡めて書こうかと思います。

スパムブログを完全排除するというのは、正直な話、無理です。紹介した記事の中でも言われていますが、人間が見ても一見、スパムとはわからないものも最近は多いので、それを高い精度で排除するというのは、本当に難しいと思います。

何が難しいのか?というと、スパムブログをスパムブログと判定する難しさと、スパムブログじゃないものをスパムブログであると判定しないようにする難しさの二つがあるということだろうと、私としては思います。
そして、この二つは、トレードオフに近い関係で、スパムブログとする基準をかなり厳しくすると、スパムじゃないブログも引っかかる可能性が高くなるわけです。これが頭の痛い問題です。ここにスパムブログ排除の難しさの大きな部分があると思います。

pigmizを作るうえでもそれにはかなり頭を悩ませました。私もいろいろなフィルタを作ってそれにかけています。フィルタがどういう処理をしているのかというのを書くのはあまり良くないので、書かないですけれども、旧式のスパムサイトに関してはある程度、構造的な傾向がわかるので、それは、それなりに判定してくれるようにはなっています。ただ、最近のスパムブログは上記の記事でも書いていますが、どこかのサイトやブログの記事をそのままコピペして、一見、ちゃんとエントリーを配信をしているブログかのように見えるものとか、自動的にちゃんとした日本語っぽいものを出力しているものも多いです。「人が見てもわからないスパムブログ」というのはまさに一番頭が痛いです。人間が見て誰でもがスパムとわかるようなブログなら、そこにはデータとしてのパターンが出てくるわけですから、まあ救いがあったんですけれども。

ただ、スパムブログの目的というのは、最終的になにかを買わせるとか、なにかを買わせるサイトに誘導するということなので、その目的をブログの中から見つけ出すことでそういうのを防ぐというのが、とりあえずは今のところできることであろうと思います。pigmizは日本語を理解して、その意味を推定するのが一応本業なので、その機能を使ってそういうことをさせているんです。でも、まだまだ及ばず…。やっぱりスパムを拾っていたり、スパムじゃないものを弾いていたりします。このあたりはこれからの課題かなぁと思っています。


普通のフィルタも私は結構作ったのですが、ブラックリスト方式にしても、ブラックリストを作り続けるには限界がありますし、ニュースの配信元を特定してそこと文章を照合するにしても、きちんと引用して、それについて評論しているようなちゃんとしたブログを排除してしまう可能性もありますので、やっぱり一長一短だと感じまして、運用には制限が付いています。また、その他のフィルタも、やっぱりあちらを立てればこちらが立たずという感じの問題を抱えているので、なかなか決定的なフィルタというのはできないなぁと実感しています。

なので、今回のライブドアのシステムとか、前に、ニフティでも似たようなシステムを開発した話が出ていましたが、そういうものが、複数のフィルタを組み合わせているというのは頷ける話でした。


スパム問題がかなり深刻なブログ界ですが、なんとか技術が進歩して、ちゃんと書いているブログがしっかり目立つようになればと思いますし、私もpigmizをそういう方向になんとかもって行きたいと思っています。いたちごっこに近い話なので、なかなか難しいですけれども…。

posted by 飼育係A at 21:30| Comment(2) | TrackBack(0) | 飼育用具

2008年09月24日

被リンク数とのせめぎあい


ブログ界という世界があるのかどうかはしらないですが、pigmizはブログを集めているので、基本的にはブログしか見てないですし、pigmizの飼育者としては、そういう世界の話には自然と興味がわくわけです。

それで、今回、とても興味深かったのが、メディア・パブさんのエントリー、

100以上のブログからリンクを張られているブログ,全体の1%以下

というもの。海外の話がメインですから、pigmizが対象にしている日本のブログと微妙にずれるのですが、傾向をつかむにはかなり参考になります。また、海外のブログ事情と日本との違いを見つけることができました。

pigmizもブログの解析時にリンクを数えています。被リンク数というのも出せてます。そのデータを見ると、100個以上のリンクを貼られているブログがものすごく少ないというのは同様の結果として出ています。ただ、少し違うのが、20個以上の被リンク数のブログはそれなりに見つかっているということです。上記エントリーで紹介されているデータを見ると世界的には、4%以下くらいしかないようですが、pigmizの統計だと確実にそれ以上(6〜8%くらい)あるので、そのあたりが日本の特徴なのだろうと思いました。

日本のブログを見ていると、ブログを通じて友達づきあいというか、何回かコメントをしたら相互リンクという形でつながっていくのを良く見かけるような気がします。mixiのマイミクで軽く100人とか突破しちゃっている人、私の周りにも居ますが、日本のブログってそういうようなSNSでのつながりに近い意味合いが強いのだろうなぁと。知り合った証としてリンクする、それこそ友達の輪を広げるためにリンクするというのが主流なのかもしれません。遊びに行くブログをブックマークするような感覚でのリンクが多いといえるかと思います。ブログの質の良さ、興味や関心、他への紹介的な意味でリンクするかどうかを決めている割合は少ないのかなぁと。

被リンク数というのは、検索エンジンなんかでも表示順を決めるのに用いられているように、ブログの価値(客観的な意味での)を決めるときの大きな要素ですし、他にも多くのところで使われている判断基準のひとつだと思います。pigmizもブログが面白いかどうかを判定して、面白そうなものをなるべく目立つところに置くようにしているので、当然ブログが面白いかどうか?というのを独自に判断してるわけです。そのときに、被リンク数というものにどの程度重きを置くべきか?というのは、pigmizを設計している段階でかなり悩んだ部分でした。また今でも悩んでいます。ただ、現在のpigmizでは被リンク数はあまり重視してはいません。多分、これは現在のネットの流れからすると、多少異端な方法なのだろうとは思いますが…。

理由は二つです。
一つは、埋もれていた面白いブログを発掘してくるというのもpigmizのお仕事だから。被リンク数が多いということは、すでに知られたブログなので、わざわざpigmizが紹介しなくてもいいと思われるわけです。それからもう一つが、日本のブログは上記の傾向がある(と今まで漠然と思っていた)ためです。ブログの管理人さんやそこにコメントしている皆さんにとってはとても便利なリンクですが、その被リンク数を元にして、第3者が見たときのブログの面白さを判定することは、ちょっと根拠が弱いのではないかなぁと思っていました。正直な話、20人の友達からリンクがあるブログよりも、相互リンクはしませんと言う方針で、ひたすら書いているブログの方が、私が見て面白いと思えることなんかもかなりありましたので。そういう私の体験を根拠に、今のpigmizは被リンク数をそれほど重視しない方針になっています。

今回、メディアパブさんのエントリーを拝見し、私の手元にあるデータと比べてみて、やはり日本のブログが張るリンクはそのような傾向があるのだろうなぁと確認できた気がしました。もちろん、それが良い悪いではなく、日本のブログの傾向としてわかったということです。そういう意味で海外のデータはとても参考になりました。

ただ、だからといって、被リンクを全く無視することもできないわけですし、かなりの被リンクがあるブログはやっぱり面白い確率は高いです。なので、それをどのくらい加味するのか?というのは、これからも面白いブログを探し続ける上で、頭を悩ませるところだと思います。

リンク紹介とともに書かれていることの意味をできる限り正確に理解しつつ、お友達としてブックマーク的にリンクしているのか、面白いと思ったから自発的に紹介リンクしているのかを、自動判定するという現在の方針をできるだけ突き詰めたいところです。こうなるとやっぱり、日本語解析の精度の問題に行き着くわけですので今後も精度向上を目指さないといけないのだろうなぁと、なんだか当たり前のことを思った次第です。


※今回、pigmizの解析データの話もしていますが、pigmizは、そんなに大量のブログを見回っているわけではありません。古いデータを使っても意味がないので、それは除くとして、有効なデータとしては、ぜいぜい50〜80万個くらいだと思われます。その程度の数で日本のブログの傾向を語るのもどうかと思いますので、あくまでも参考ということで。

posted by 飼育係A at 20:47| Comment(0) | TrackBack(0) | 飼育用具

2008年09月13日

不具合なし。だといいなぁ…


ちょっと今更のような話題ですが、Google Chromeがダウンロードできるようになりました。

Google Chromeの詳しい話は、こんな記事とか、こんな記事とかを参考にしたりとか、実際使ってみて好きに評価していただければいいと思うわけですので、お任せするとして。

Google Chromeの出来がどうであれ、ユーザーの立場からすると、ブラウザの選択肢が増えて、色々と選べるので良いことだろうとは思うんです。世の中の流れを見ていても、Google Chromeへの期待感があからさまにわかります。また、独占状態は弊害が大きいですから、ある程度のものが並立するのが良いというのは、正しい流れだと思うわけで。私自身もそういう気持ちはあります。

が…。

サイトを作る側からすると、正直なところ、「もう勘弁してくれ」というのが感想です。理由はいわずと知れたこと。動作確認対象が一つ増えることになるから。つまり、今までの、IEと、FireFoxと、Operaと、Safariのチェックですら、つらい感じだったにもかかわらず、Google Chromeまでチェックリストに入ってきたわけで、手間が増えたのです。

もう、いい加減に、ブラウザのちゃんとした規格統一をやって欲しいものです。見た目とかは多少崩れてもまだ許せます。フォントがちょっと違っても、画像の配置が多少ずれても、サイトが使えなくなるわけじゃないから細かいことは言いません。でも、同じスクリプトを実行して違う結果が出てくるのだけは、許しがたいです。

本当は、pigmizにも、もっと実装したいことあったりするんです。でも、クロスブラウザとか考えながらスクリプト作るのはやってらんないというのが正直な感想。そういうライブラリもありますが、サイズが大きいものも多いので、使うのがためらわれるわけです。でも、そのうちやらないとダメなのかもしれませんね…。

Google Chromeの登場に対しては複雑な心境なのでした。


それでも、ちゃんとダウンロードして、インストールして、使ってみたんです。一応、今のpigmizでは、特に大きな不具合はないような気がしますので、ホッとしています。

posted by 飼育係A at 17:32| Comment(0) | TrackBack(0) | 飼育用具

2008年09月12日

飼育用具とは?

飼育用具というカテゴリを作ってみました。

pigmizを飼育するために使ったものという意味でこういうカテゴリ名になっていますが、要するに、技術的なお話を書こうということです。WEBがらみ、プログラミングがらみ、日本語認識がらみ、その他のお話です。

本当はこういう話って書かないつもりだったんです。またそれほどたくさんは書かないとも思います。正直、こういう話ってつまんなそうだと思ってましたし、今でも多少思ってますし、ユーザーは基本的に結果だけスマートに使えればいいというのが、私の思いですから。

検索サイトに行けば検索結果、辞書サイトに行けば言葉の意味、動画サイトに行けば動画の視聴、という感じで、私も他のサイトでは結果だけありがたく使わせていただいています。だから、pigmizとしても結果だけ表示されればそれでよいと。

でも、メールを頂いてしまったのです。技術的な話に興味があるとのことで。ただ、そのときには解説はお断りしたんです。pigmizに使った技術をちゃんと解説するのはかなり大変ですから。

pigmizを作るのに、世の中に出回っているモジュールを組み合わせたんならまだ説明も楽だったんです。今流行りの、なんとかAPIだとか、かんとかモジュールだとか、どんとかライブラリだとか、そういうのを使ってるなら、いくらでも説明のしようがあったんです。でも、そういうのを使いこなす才能に全く恵まれていない私は、独自開発コードで、ほとんどの機能を構築してしまいました。そんな、どこからも孤立した感のある、ちょっと寂しい孤独死寸前のpigmizをどう説明すればいいのか全く見当もつきません。だからといって、私の稚拙なコードをオープンソースなんかにするのは恥ずかしくてとてもやる気にならない。

こういう理由で、技術的な話をするつもりはなく、メールにもそういうお返事をさせていただきました。

でも、メールのお返事をした後で、こうやって、興味を持っていただけるうちが華だよなぁなんて思ったりもしまして。それに、一応これでも、pigmizをもう少しまともに働かせるために、勉強してたりもしますので、それなりにブックマークやメモがたまっていますので、書くネタがないわけではない。

ということで、pigmizをちゃんと解説するつもりはやっぱりないので申し訳ないですが、技術的な小ネタをボチボチ公開する場にして、お茶を濁そうというのが、この”飼育用具”カテゴリです。興味を持ったトピックやニュースとか、ちょっとしたメモ帳くらいのノリで、気づいたときに書いてみようと思います。

posted by 飼育係A at 20:30| Comment(0) | TrackBack(0) | 飼育用具