夢とガラクタの集積場

落ちこぼれ三流エンジニアである管理人の夢想=『夢』と、潰えた夢=『ガラクタ』の集積場です。

Spark

Spark Summit Sched & Perf1 「Spark Performance」

こんにちは。間が空いてしまっていますが、 Spark Summitの資料をとりあえず読んでみよう、の第2弾です。今回は「Spark Performance」を見てみました。 概要の次にいきなり性能の資料に入ってしまうあたり趣味を反映している気もしますが^^;では、見てみ…

Spark Summit Keynote 「The State of Spark, and Where We’re Going Next」

こんにちは。Spark Summitの資料をとりあえず読んでみよう、の第1弾です。1番目ということでKeynoteである 「The State of Spark, and Where We’re Going Next」を見てみました。 多分、これがSparkの特徴を復習したり現状を把握するには一番早いと思いま…

Spark Summit 2013の内容一覧

こんにちは。思いっきり見逃していた話なのですが、2013/12にSpark Summit 2013が開催されていました。 幸い、資料はほとんど公開されているようなので、 内容を確認してみようと思うのですが、まずは概要を確認しておこう、ということで内容一覧と概要をま…

Apache Spark0.8.1の新機能

こんにちは。年明けサボっていましたが、まずはライトな更新から。 去年の年末にApache Sparkが0.8.1にバージョンアップしていたので バージョンアップ内容を備忘録としてまとめておきます。・・・内容的にはさっさかバージョンアップした方がいいものも混じ…

SparkバッチをMesosの上で動作させる(自作アプリ→一部成功

こんにちは。 前回はビルド時にバージョン違いのJarが紛れてしまうことで動作しなかったので、 まずはビルド定義の見直しから行ってみます。 1.sbtのビルド定義を修正 Sparkのビルド定義(SparkBuild.scala)を見てみると、下記のように依存性を除外するルー…

SparkバッチをMesosの上で動作させる(自作アプリ→またしても失敗

こんにちは。前回でエラーが発生する原因についてはわかったので、run-exampleと同様の方式で 自作アプリケーションを走らせてみます。 1.ビルド方式更新/アプリ修正 run-exampleはassemblyという形で依存Jarも含めた状態でパッケージされ、それを配布して…

SparkバッチをMesosの上で動作させる(exampleバッチ

こんにちは。前回動かず、かつ原因がよくわからないままだったため、調べてみたのですが・・・ 関連があるかもしれないという問題事例が下記のみで、かつ実際には違う事象だったため、解決しませんでした(汗Spark running with mesos fails when submitting…

SparkバッチをMesosの上で動作させる(その1

こんにちは。前回Mesos上でのSparkをREPLで動作させることに成功したため、次はバッチアプリケーションとして動作させてみます。 1.バッチアプリケーションのクラスタ対応 まず、前回作成したTextCountApp.scalaを以下のように改造します。修正個所としては…

【再】SparkのサンプルをMesosの上で動作させる(REPL)

こんにちは。前回見事に上手くいかなかったため、設定を確認して再度動かしてみることにします。 と言いつつ、エラー自体には以下のメッセージが明確に出ているため、 HDFSのポート設定がHDFSとSpark間でずれているからということは明白なのですが・・・Twit…

SparkのサンプルをMesosの上で動作させる(REPL) → 動作せず・・・(汗

こんにちは。ここまででSparkのローカルアプリケーションとMesosの環境構築が完了したため、 ついに実際にSparkのクラスタをMesosの上で動作させてみます。まずはHDFSは使わず、ローカルのファイルを読み込ませる形で動作させます。尚、分散クラスタ上で動作…

Apache SparkをStandalone Modeで実行してみる

こんにちは。色々紆余曲折ありましたが、ようやくSparkの動作確認スタートです。 以前構築したMesosクラスタはソースをビルドして作ったいまいち使いにくいものですので、 とりあえず後で再構築するとして、まずはMesosを使わなくていい状態で出来ることを確…

Apache Spark on Mesos の環境構築(その3

こんにちは。では、Mesosの環境構築&確認を続けたいと思います。 1. テストフレームワークの起動 まずはテスト用に提供されているフレームワークを起動します。Mesos-masterが起動しているサーバ上で以下のコマンドを実行します。 ・・・尚、C++とJavaのサ…

Apache Spark on Mesos の環境構築(その2

こんにちは。では、Mesosの環境構築&確認を続けたいと思います。 1. mesos-masterの起動 Mesosをビルドしたディレクトリ配下にMesosがインストールされます。 かつ、シェルを見てみると以下のように「ビルドしたフルパス」が記述されているため、 一度ビル…

Apache Spark on Mesos の環境構築(その1

こんにちは。では、準備も整った(?)ということで、Apache SparkをMesos環境上に構築して動作させる・・・ ということをやっていこうと思います。http://spark.incubator.apache.org/docs/latest/running-on-mesos.html のページを読んでみると、Mesos上か…

Apache Spark 0.8.0の新機能

こんにちは。前回まででApache Spark & Streamingの概要がわかったので、 とりあえず実際の環境を構築してみよう・・・と思ったら、Apache Spark自体がバージョンアップしていました。 Spark0.8.0になりますね。なので、とりあえずどんな機能が追加されたか…

Apache Spark Streamingの論文まとめ(1章〜5章

こんにちは。Apache Spark Streamingに関する論文 「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf) について、概念と動作概要が書かれた1章〜5…

Apache Spark Streamingの論文を読んでみます(5章

以下論文を読んでみようの続きで、今回は第5章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「Fault and Straggler Recov…

Apache Spark Streamingの論文を読んでみます(4章

こんにちは。以下論文を読んでみようの続きで、今回は第4章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「System Archit…

Apache Spark Streamingの論文を読んでみます(3章

こんにちは。以下論文を読んでみようの続きで、今回は第3章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「Discretized S…

Apache Spark Streamingの論文を読んでみます(2章

こんにちは。以下論文を読んでみようの続きで、今回は第2章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「 Goals and Ba…

Apache Spark Streamingの論文を読んでみます(1章

こんにちは。ここ何回かでApache Spark自体の機構は大体わかりました。 そのため、今度はApache Sparkを基にしたストリーム処理基盤であるApache Spark Streamingについても確認してみます。読んだ論文は以下です。 「Discretized Streams: A Fault-Tolerant…

Resilient Distributed Datasetsに関する論文まとめ(1章〜5章

こんにちは。Resilient Distributed Datasetsに関する論文 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) について、概念と動作概…

Resilient Distributed Datasetsに関する論文を読んでみます(5章

以下論文を読んでみようの続きで、今回は第5章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf)内容としては、「Implementati…

Resilient Distributed Datasetsに関する論文を読んでみます(4章

こんにちは。以下論文を読んでみようの続きで、今回は第4章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf)内容としては、「…

Resilient Distributed Datasetsに関する論文を読んでみます(3章

こんにちは。以下論文を読んでみようの続きで、今回は第章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf)内容としては、「Sp…

Resilient Distributed Datasetsに関する論文を読んでみます(2章

こんにちは。以下論文を読んでみようの続きで、今回は第2章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf)内容としては、「…

Resilient Distributed Datasetsに関する論文を読んでみます(1章

こんにちは。前回、前々回でApache Spark、Spark Streamingの概要がわかりました。ですが、内部で使用している共有分散メモリ機構であるResilient Distributed Datasets(RDDs)が 鍵となる割に概要しか資料からはわからなかったため、論文を読むことでもう一…

Apache Spark Streaming=大規模準リアルタイムストリーム処理?

こんにちは。Sparkについて調べてみよう企画第2段(?)です。 1回目はまずSparkとは何かの概要資料を確認してみました。 その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。とりあえず、そんなわけ…

Apache Sparkってどんなものか見てみる(その1

こんにちは。Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思った…