Alexaの信頼度

まずは下のエントリを。

翻訳者魂:国会議員ウェブサイトと政党ウェブサイトのアクセスランキング
http://blog.goo.ne.jp/einichi/e/d3610b83850d0981047a92cc58627f2d
翻訳者魂:国会議員ウェブサイトの選定基準など
http://blog.goo.ne.jp/einichi/e/c4715c596f5a45648743a9a10c767dc7


国会議員のウェブサイトのアクセス数を比較するという興味深い記事です。で、この調査に用いたのが「alexa.com」というサイトとのこと。どのように調査しているのかはよく分かりませんが、世界中のサイトのアクセス数を調べることができるという凄いサイトのようです。


Alexa Web Search
http://www.alexa.com/


ただ、上記の国会議員サイトのアクセス数調査で注意しなければならないのは、あくまでも「1億人のうちの何人がそのサイトを訪問したかという数字」であるということ。「Alexa」で表示されるのは「100万人中何人か」の値なので、それを100倍したのでしょう。
つまり、純粋な1日あたりのアクセス数ではないのです。では、この「1億人あたりのアクセス数」を一般的な「1日あたりのアクセス数」に換算したならどうなるのか? ちょっと調査してみました。

調査方法

信頼できる1日あたりのアクセス数としてReadMe!の得票数を使用しました。以下は、ReadMe!の得票数は1日あたりのヒット数をある程度は正しく反映していると仮定して話を進めます。よって、「ReadMe!のカウントは信用ならん!」という方にとっては、以下の内容は無意味なので読む必要はありません。

Alexaの調査方法

上記「翻訳者魂」サイトのコメント欄で書かれていた通り、以下の方法で調査する。また、「翻訳者魂」の調査と合わせるために「1億人あたりのアクセス数」に計算しなおす(具体的には、Alexaに表示される数字を100倍する)。

1. 坂口代議士のウェブサイトにアクセス
2.ツールバーに表示されたRanking 25,227をクリック
3. Alexaページが表示
4. "See Traffic Details"をクリック
5. Ranking, Reach, Page Viewが表示される

ReadMe!の調査方法

ReadMe! 2005年1月の月間ランキングにて示されている得票数を31で割り、1日のアクセス数とする。

結果の見方

  • 1行目:サイト名とURL
    • 2行目:[Alexaによる1日あたりのアクセス数] [1アクセスあたりのページビュー数]
    • 3行目:[ReadMe!による1日あたりのアクセス数(リンクは登録情報のページ)] [ReadMe!のアクセス数÷Alexaのアクセス数]

結果(ReadMe!上位サイト)

結果(ReadMe!中堅サイト)

上位サイトだけでは偏りがある可能性があるため、ReadMe!400〜500位ぐらいと1000位前後から無作為抽出。

400〜500位ぐらい
  • 0笑い系テキスト極楽帳〜面白いHP〜 http://www.41g.com/
    • [アクセス数/日: 150] [ページ数/アクセス: 5.8]
    • [ReadMe!得票数/日: 665] [ReadMe!/Alexa: 4.4(倍)]
1000位前後

まとめ

  • まず、全ての調査サイトについて「ReadMe!のアクセス数>Alexaのアクセス数」であった。
  • 上位サイトについては、6.0倍から最大23.6倍までの誤差があった。平均値を取ると13.75倍。
  • 中堅サイトになると、誤差はやや小さくなるが、それでも大体3〜5倍ぐらいの差はあった。

ということで、Alexaで1億人あたりのアクセス数を調べて、アクセス数が多いサイトなら10倍程度、アクセス数が少なめなサイトなら4倍程度すれば、実際の1日あたりのアクセス数が出るのではないかと考えられます。と言っても誤差のばらつきも大きいため、あまり過信してはならないのではないかと思われます。

参考:調査したサイトを選んだ基準

  • ReadMe!ランキングで安定して上位にいるサイト(アクセス数の比較をしやすくするため)
  • 独自ドメインであるサイト(独自ドメインじゃないとAlexaの性質上測定できないっぽい)
  • フレームを用いていないサイト(Alexaがフレームページをどのように扱っているか不明なため)
  • 除外サイト(比較をできるだけ正確にするため)
    • 別URLのページに同一のReadMe!アイコンを置いているサイト
    • ブログ型サイト(ログのページへのアクセスが多いため)