2004年03月30日
2004年03月25日
2004年03月18日
地域ごとのGoogleヒット件数
Googleで地域検索を使っていると、空間にWebの雲が拡がっているような感じがだんだんしてくる、というような話をしていたら、その雲の厚さ(Googleのヒット数)は場所によって全然違うのでは?と指摘された。
俄然興味が湧き、とりあえず市区町村別にヒット数を調べ、市区町村ごとの緯度経度地点に棒グラフでプロットしてみた。検索語句は「東京都 "千代田区"」という感じ。
(->PDF)
確かに、全然違う。棒グラフの長さがほとんどないように見えるところがたくさんある一方、都市部の長さは突出している。都市部の棒グラフの「密度」が高いのは市区町村の数が多いためだが、密度が高い上にそれぞれそれなりの件数がある。
すげー格差が大きいよ、所詮都市部に集中してるんだよという感じだが、これを人口あたりのヒット数にしてみると
(-> PDF)
こんな感じになり、絶対数ほど格差は大きくない。わりと平凡な絵。
とは言っても、日本一の千代田区は約17件/人なのに対して、一番低いところは0.0114件/人しかない。1500倍近い(一番と一番だけで比べるのは良くないけど、面倒くさかったので)。絶対数で一番件数が多いのは、東京都新宿区で1140000件。
ところで、世界中から検索されまくるGoogleにとってはこれくらいどうってことないんだろうけど、一気に検索するのはいくらなんでも気が引けたので、間隔を空けて検索を繰り返すようなスクリプトを書いた。
東京の町ごとに調べるのも面白そうだ。
やってる過程で気がついたこと。
Webページに住居表示を含んでいるものは、やはり圧倒的に商業関係が多いので、これはそういう偏りを含んだ結果である。
人口あたりの検索結果数を出すところでエラーが出て止まったのでなんだろうと思って見てみたら、0で割ろうとしていた。つまり人口が0。人口は平成12年の国勢調査から持ってきているのだが、その中で人口が0の市区町村はただ一箇所、東京都三宅村。
一つ飛び抜けてヒット件数が少ないところがあった。たった2件。ほとんどは少なくとも数千件はあるのでこれは異様。よく見たら「岐阜県加茂群富加町」。郡の字が間違っている。これは街区レベル位置参照情報が間違っていた。
追記 (2004-06-24):現在はGoogleの動作が変わったので、検索語をダブルクォートでくくるとおかしなことになる。
2004年03月13日
街区レベル位置参照情報
(2006-03-11記:街区レベル位置参照情報についてのアンケート(SSL版)(非SSL版)というものが3月23日まで行われているそうです。)
街区レベル位置参照情報とは、全国の都市計画区域を対象に、街区単位(「○○町△丁目□番」)の位置座標(代表点の緯度・経度、平面直角座標)を整備したデータです。
ちょっと使い道を思いついたので、ダウンロードしてデータベースに入れてみた。
思いついたこと→Googleで地域検索
ある場所の、周囲の地名を知りたいことがよくある。例えば地名をもとに検索する場合、周囲の地名もあわせて検索できたほうが実用的な情報が手に入る可能性が高くなる。歩いて3分の隣町の名前がわからないというだけで、見落とす情報があるのは悲しい。
また、キーワード+位置で検索すると、ちょっとどうかと思うようなアバウトな検索でもそれなりの結果が返ってくるようになる。例えばどこで食事をしようか、という場合、キーワード「おいしい」で普通に検索してもまともな結果にはならないが、これに位置が加わるだけで意外なほど使える情報になる。
データを整形してる過程でわかったこと。
全街区数は16166881。
つまり、日本の住所は「日本一丁目16166881番地△号」で表せる。(都市計画区域内だけだけど)
日本一長い市区町村名は「西春日井郡西枇杷島町」
日本一長い地名は「愛知県海部郡飛島村大字飛島新田字竹之郷ヨタレ南ノ割」
なぜかどっちも愛知県だ。
1600万件もあるデータベースを作ったのは初めて。最初何も考えずにフラットに一つのテーブルに突っ込んだら1.6GBとかになった。都道府県名と市区町村名は別テーブルを参照するようにしたら1GBちょっとになった。インデックスのファイルは1GB近く。
データベースの勉強をもっとしないとなー。
街区レベル位置参照情報に含まれる市区町村名にはやや揺れがある。「湯布院町」と「大分郡湯布院町」が同じ市区町村コード。悩んだが、とりあえず郡を含むものと含まないものの二種類のテーブルを作っておいた。