夢とガラクタの集積場

落ちこぼれ三流エンジニアである管理人の夢想=『夢』と、潰えた夢=『ガラクタ』の集積場です。

そもそも、ApacheDrillって何なの?

こんにちは。

とりあえずZookeeperの中身をざっと見て、一段落したので次のネタに移ります。
#中身を一覧化するのは時間がかかるので気長にということで^^;

というわけで(?)、最近ビッグデータ/リアルタイム処理に続く
第3の処理形態として語られているApache Drillを見てみます。

とりあえず情報が載っているサイトは下記あたりのようです。

ApacheGoogleのリアルタイムビッグデータツールDremelのオープンソースクローンDrill
http://jp.techcrunch.com/archives/20120817googles-real-time-big-data-tool-cloned-by-apache-drill/

Apache Proposal
http://wiki.apache.org/incubator/DrillProposal

Apache Drill Links
https://github.com/ApacheDrill/Brainstorm/wiki/Apache-Drill-Links

Apache Drill関連のプレゼン
http://www.slideshare.net/tdunning/drill-lightninglondonbigdata10012012
http://www.mapr.com/company/events/speaking/bay-area-hadoop-user-group

上記のサイトをざっと眺めてみると、こんなことが書かれていました。

・そもそもApache Drillって何か?
→ Google Dremel(GoogleFSとBigTableに保存されている巨大なデータ集合のクェリを高速化)の
  オープンソース

・どんなことができるのか?
→ 大量に蓄えたデータに対してアドホックに高速なクエリを実行出来る。

・どんな要素があるの?
→ 重要な要素としては下記の4つだそうな。

  • クエリ言語:ユーザーのクエリを解析して実行計画を構築し、スタート
  • 低レイテンシ分散実行エンジン:クエリ言語層で構築された実行計画を分散実行
  • ネストされたデータ形式:様々なデータ形式をサポート。当初の目標は列ベースのデータのサポート。
  • スケーラブルなデータソース:様々なデータソースに対応。まずはHadoop


結局何ができるプロダクトかというと、
データを特定の場所にどんどん蓄積していって、
任意のタイミングでその時点のデータに対して高速なクエリを実行可能なプロダクト・・・
ということになりそうです。

GoogleではDremelを用いて様々なデータ集計結果を素早く確認できているそうな。

とりあえず、クラスタが小さい状況でどこまで確認できるかは微妙ですが、
これからソースの場所(実はそもそも公開されていないのかもしれませんが)や
環境構築の方法(まだ無いのかもしれませんが)についてまとめてみようとは思います。