2004年03月18日
地域ごとのGoogleヒット件数
Googleで地域検索を使っていると、空間にWebの雲が拡がっているような感じがだんだんしてくる、というような話をしていたら、その雲の厚さ(Googleのヒット数)は場所によって全然違うのでは?と指摘された。
俄然興味が湧き、とりあえず市区町村別にヒット数を調べ、市区町村ごとの緯度経度地点に棒グラフでプロットしてみた。検索語句は「東京都 "千代田区"」という感じ。
(->PDF)
確かに、全然違う。棒グラフの長さがほとんどないように見えるところがたくさんある一方、都市部の長さは突出している。都市部の棒グラフの「密度」が高いのは市区町村の数が多いためだが、密度が高い上にそれぞれそれなりの件数がある。
すげー格差が大きいよ、所詮都市部に集中してるんだよという感じだが、これを人口あたりのヒット数にしてみると
(-> PDF)
こんな感じになり、絶対数ほど格差は大きくない。わりと平凡な絵。
とは言っても、日本一の千代田区は約17件/人なのに対して、一番低いところは0.0114件/人しかない。1500倍近い(一番と一番だけで比べるのは良くないけど、面倒くさかったので)。絶対数で一番件数が多いのは、東京都新宿区で1140000件。
ところで、世界中から検索されまくるGoogleにとってはこれくらいどうってことないんだろうけど、一気に検索するのはいくらなんでも気が引けたので、間隔を空けて検索を繰り返すようなスクリプトを書いた。
東京の町ごとに調べるのも面白そうだ。
やってる過程で気がついたこと。
Webページに住居表示を含んでいるものは、やはり圧倒的に商業関係が多いので、これはそういう偏りを含んだ結果である。
人口あたりの検索結果数を出すところでエラーが出て止まったのでなんだろうと思って見てみたら、0で割ろうとしていた。つまり人口が0。人口は平成12年の国勢調査から持ってきているのだが、その中で人口が0の市区町村はただ一箇所、東京都三宅村。
一つ飛び抜けてヒット件数が少ないところがあった。たった2件。ほとんどは少なくとも数千件はあるのでこれは異様。よく見たら「岐阜県加茂群富加町」。郡の字が間違っている。これは街区レベル位置参照情報が間違っていた。
追記 (2004-06-24):現在はGoogleの動作が変わったので、検索語をダブルクォートでくくるとおかしなことになる。