BigtableやMapReduceといった名前だけ聞いたことのある技術について概要が理解できたのでよかった。と同時に、Googleに恐ろしさを感じた。特に後半のデータセンターの話を読むと、5年後の日本のインターネット業界が不安だ。
前半は検索エンジンの仕組みからはじまり、分散システムの技術(GFS、Bigtable、Chubby、MapReduce、Sawzall)についての解説がなされている。このあたりはGoogleの論文からの解説が中心であるが、日本語でわかりやすく概要を説明しており、英語の論文を読むよりも効果的に理解できた。
障害対策としてRaidを採用せずにソフトウェアでのアプローチをしているあたりはおもしろい。また、世間では電力効率化のためにxenなど仮想化技術による集約化の流れにあるのだが、Googleに関してはとにかくマシン数を増やすばかりで仮想化については考えていないように本書では感じられた。CPU負荷、ディスク容量がおいつかないから仮想化には向かないのだろうか。
後半では運用コストやデータセンターの話がでてくる。
本書によると、2007年時点でのGoogleのマシン数は50万台程度。それだけでもすごいのだが、2006年以降数百億円規模のデータセンターを複数建設しているという。例えばオレゴン州ダレスのデータセンターはサッカーグラウンドほどの建物が2つで、設置可能マシン数は推定64万台。とんでもない大きさのデータセンターであるが、このような規模の建設中データセンターが本書では5か所紹介されている。
しかも、それぞれの設置場所は水力発電所や原子力発電所などの近くで、安価でかつ安定的に電力を調達できるという。
日本で5年以上前に建造されたデータセンターは、スペースは余っていても電力がいっぱいというケースが多いのだが、そのあたりは見越した上での建設なのだろう。当然電気代は莫大になるので、太陽光発電の研究などもおこなっているようだ。
前半の分散技術と後半のデータセンター建設によるマシン台数の大幅増強。これらを利用して当然検索精度の向上もされているのだが、私にはもっと脅威に感じることがある。
本書では触れていないのだが、GoogleはGoogle Apps や Google App Engine などによるホスティングサービスも提供している。
通常自社でサーバを構築しサービスを行う場合、事前にどの程度のアクセスがあるか予想してサーバ台数やネットワーク構成を決める。しかしいざサービスを稼働すると予想以上にアクセスが多く負荷に耐えられなくなるといったことはよくある。そうなるとサーバや回線の増強という話になるのだが、稼働を始めてから変更を加えるのは手間がかかる。その点Googleでは負荷分散技術と膨大なマシン数により、負荷が増えても簡単に対応できる。
また季節限定で一時期だけ多数の負荷がかかるようなケースでも、Googleのサーバを利用していれば簡単に調整できる。しかも、低額かつ迅速に。
つまり、自社でサーバを構築したり日本のシステムインテグレータに構築を頼むよりも、Googleのサービスを利用したほうが便利なのだ。例えば、ライブドアやKDDIといったサーバやネットワークについての高度なスキルをもっている企業でも実際にGoogle Apps を選択している。
このことは日本のIT企業、特にシステムインテグレータは十分考慮にいれておかなければならない。
数年後には顧客をごっそりGoogleに奪われている可能性がある。
分散システムによる耐負荷サーバとSaaSによる迅速なサービス提供。これらに負けないための仕組みが必要であろう。
そして、今後は小さなシステムは淘汰され、Sun MicrosystemsのCTO Greg Papadopoulosの言うように、世界には5つのシステムでことたりるような時代へと進む予感がする。要は自分でハードウェアを用意せずに、Googleのような大規模システム(クラウド)を利用してシステムを構築する時代になるのだ。
amazonはGoogle App Engineよりも先にクラウドシステムを提供した(amazon EC2)。そして、ビジネス向けではSunとIBMが着々とクラウド化を進めている。
クラウドシステムには多額の費用がかかるため、日本市場だけでなく世界市場を視野に入れた上で戦略的に策を練る必要がある。しかし、それを行える企業が日本にあるか。。。
日本語が参入障壁になっている日本市場では、システム構築+事務作業を一括に請け負うアウトソーシングという形態でやっていけるかもしれない。しかし世界を相手に戦うのは今の日本企業には難しい気がする。。。

0 Comments:
コメントを投稿
Home