そもそも、ApacheDrillって何なの?
こんにちは。
とりあえずZookeeperの中身をざっと見て、一段落したので次のネタに移ります。
#中身を一覧化するのは時間がかかるので気長にということで^^;
というわけで(?)、最近ビッグデータ/リアルタイム処理に続く
第3の処理形態として語られているApache Drillを見てみます。
とりあえず情報が載っているサイトは下記あたりのようです。
■ApacheがGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrill
http://jp.techcrunch.com/archives/20120817googles-real-time-big-data-tool-cloned-by-apache-drill/
■Apache Proposal
http://wiki.apache.org/incubator/DrillProposal
■Apache Drill Links
https://github.com/ApacheDrill/Brainstorm/wiki/Apache-Drill-Links
■Apache Drill関連のプレゼン
http://www.slideshare.net/tdunning/drill-lightninglondonbigdata10012012
http://www.mapr.com/company/events/speaking/bay-area-hadoop-user-group
上記のサイトをざっと眺めてみると、こんなことが書かれていました。
・そもそもApache Drillって何か?
→ Google Dremel(GoogleFSとBigTableに保存されている巨大なデータ集合のクェリを高速化)の
オープンソース版
・どんなことができるのか?
→ 大量に蓄えたデータに対してアドホックに高速なクエリを実行出来る。
・どんな要素があるの?
→ 重要な要素としては下記の4つだそうな。
- クエリ言語:ユーザーのクエリを解析して実行計画を構築し、スタート
- 低レイテンシ分散実行エンジン:クエリ言語層で構築された実行計画を分散実行
- ネストされたデータ形式:様々なデータ形式をサポート。当初の目標は列ベースのデータのサポート。
- スケーラブルなデータソース:様々なデータソースに対応。まずはHadoop。
結局何ができるプロダクトかというと、
データを特定の場所にどんどん蓄積していって、
任意のタイミングでその時点のデータに対して高速なクエリを実行可能なプロダクト・・・
ということになりそうです。
GoogleではDremelを用いて様々なデータ集計結果を素早く確認できているそうな。
とりあえず、クラスタが小さい状況でどこまで確認できるかは微妙ですが、
これからソースの場所(実はそもそも公開されていないのかもしれませんが)や
環境構築の方法(まだ無いのかもしれませんが)についてまとめてみようとは思います。