こんにちは。今回は年末も近いということで、一度この1年で書いてきたことを振り返って来年につなげようと思います。 1.今年一年どんな内容を書いてきたの? 今年一年書いてきた内容と、時期をマッピングしてみると下記のようになりました。 ・・・実際に図…
こんにちは。 前回はビルド時にバージョン違いのJarが紛れてしまうことで動作しなかったので、 まずはビルド定義の見直しから行ってみます。 1.sbtのビルド定義を修正 Sparkのビルド定義(SparkBuild.scala)を見てみると、下記のように依存性を除外するルー…
こんにちは。前回でエラーが発生する原因についてはわかったので、run-exampleと同様の方式で 自作アプリケーションを走らせてみます。 1.ビルド方式更新/アプリ修正 run-exampleはassemblyという形で依存Jarも含めた状態でパッケージされ、それを配布して…
こんにちは。既に旬(?)自体は明らかに過ぎているre:Inventネタですが、個人的な勉強にもなるので続けます。 3つ目はBDT303、AWS上でグラフベースの製品リコメンドシステムを構築した事例の話になります。 3.BDT303 Using AWS to Build a Graph-Based Prod…
こんにちは。前回動かず、かつ原因がよくわからないままだったため、調べてみたのですが・・・ 関連があるかもしれないという問題事例が下記のみで、かつ実際には違う事象だったため、解決しませんでした(汗Spark running with mesos fails when submitting…
こんにちは。前回に続き、お勧めスライドを見ていきます。 2つ目はARC305、NetflixがマルチAZにおいていかに高い可用性を確保したかの内容です。 ・・・意外に、日本語情報がぱっと検索して見つからなかったのでどうせなのでサマリしてみます。 2.ARC305 how…
こんにちは。昨日Amazonの中の人によるAWS re:Invent 出張報告会に参加してきました。発表内容やプロダクトアップデートについてはこの後スライドがアップされるそうなので割愛し、 出張報告会で注目すべきと中の方達が説明していたBreakOutSessionについて…
こんにちは。前回Mesos上でのSparkをREPLで動作させることに成功したため、次はバッチアプリケーションとして動作させてみます。 1.バッチアプリケーションのクラスタ対応 まず、前回作成したTextCountApp.scalaを以下のように改造します。修正個所としては…
こんにちは。前回見事に上手くいかなかったため、設定を確認して再度動かしてみることにします。 と言いつつ、エラー自体には以下のメッセージが明確に出ているため、 HDFSのポート設定がHDFSとSpark間でずれているからということは明白なのですが・・・Twit…
こんにちは。ここまででSparkのローカルアプリケーションとMesosの環境構築が完了したため、 ついに実際にSparkのクラスタをMesosの上で動作させてみます。まずはHDFSは使わず、ローカルのファイルを読み込ませる形で動作させます。尚、分散クラスタ上で動作…
こんにちは。では、MesosのZooKeeperによる冗長化を確認してみます。 尚、前回の記事で「Hadoopインストールした前提」としましたが、 備忘録のため環境構築手順も残しておくことにします。 楽にインストールするよりは構成をきちんと把握してインストールで…
こんにちは。Mesosの起動ファイルの構成などはわかったので、実際に起動させて動作を確認してみます。 とりあえず、Masterのアドレスを起動時のオプションで指定するのではなく環境ファイルに書けるようになったのは非常に大きいですね。尚、「mesos-master-…
こんにちは。SparkのStandalone版を動作させたので、次はクラスタ環境用にMesosの環境を構築してみます。 ・・・Spark on YARNについてはCDHでまとまっているのでここではとりあえず省略。いえ、もちろんHDFSとかは使いますけどね。下記の以前の投稿でApache…
こんにちは。色々紆余曲折ありましたが、ようやくSparkの動作確認スタートです。 以前構築したMesosクラスタはソースをビルドして作ったいまいち使いにくいものですので、 とりあえず後で再構築するとして、まずはMesosを使わなくていい状態で出来ることを確…
こんにちは。CDH上でSparkがサポートされるという発表もあり、ニッチな領域をちょこちょこ調べていたはずが、 いきなりSparkがメジャーなステージに飛び出すのかなぁ・・と楽しみにしている今日この頃です。ただ、CDH上でのSparkはリソースマネージャとしてH…
こんにちは。現在遅ればせながらStorm-0.9.0系を動作させて試しているのですが、 まずこの後色々やってみるためのベースとして、各プロセスのJVMオプションを確認しておきます。何故こんなことを行うかというと、StormではWorkerプロセスを管理するのは Stor…
こんにちは。この間酷い目にあったのでその酷い目に対する対応策として。皆さん、ログを出力するときにログレベルを定義するかと思うのですが、 1ファイルに全レベルのログを出力していた場合、 「ログレベルの低いログにログレベルの高いログが塗りつぶさ…
こんにちは。前回は使い方がわからなかったGenn.aiですが、ドキュメントも公開されて使い方がわかったため、 とりあえず再度試してみることにします。http://pages.genn.ai/まず、gungnirのCLIを起動する前のヘルプを確認してみます。 > ./gungnir -h Unreco…
こんにちは。昨晩面白そうなページを見つけたので早速試してみました。リクルートテクノロジー製のリアルタイムプラットフォームで、StormとKafkaを用いて構築されたGenn.ai(源内)です。■紹介ページ http://genn.ai/ ■登録ページ(動作ホスト兼?) http:/…
こんにちは。前回でApache Mesos自体の機構は大体わかりました。 そのため、次は論文を読んでみようとしたのですが、Sparkの時と違い、概要とポイントさえわかっていれば 今後特に問題にならないため、流し読みしてポイントだけまとめてみました。読んだ論文…
こんにちは。とりあえず前回Apache Mesosの環境構築は出来たのですが構造がさっぱりだったため、 一度アーキテクチャ資料を読んでみます。 https://github.com/apache/mesos/blob/master/docs/Mesos-Architecture.md ======= 1.Mesosの基本構造 下記…
こんにちは。では、Mesosの環境構築&確認を続けたいと思います。 1. テストフレームワークの起動 まずはテスト用に提供されているフレームワークを起動します。Mesos-masterが起動しているサーバ上で以下のコマンドを実行します。 ・・・尚、C++とJavaのサ…
こんにちは。では、Mesosの環境構築&確認を続けたいと思います。 1. mesos-masterの起動 Mesosをビルドしたディレクトリ配下にMesosがインストールされます。 かつ、シェルを見てみると以下のように「ビルドしたフルパス」が記述されているため、 一度ビル…
こんにちは。では、準備も整った(?)ということで、Apache SparkをMesos環境上に構築して動作させる・・・ ということをやっていこうと思います。http://spark.incubator.apache.org/docs/latest/running-on-mesos.html のページを読んでみると、Mesos上か…
こんにちは。前回まででApache Spark & Streamingの概要がわかったので、 とりあえず実際の環境を構築してみよう・・・と思ったら、Apache Spark自体がバージョンアップしていました。 Spark0.8.0になりますね。なので、とりあえずどんな機能が追加されたか…
こんにちは。Apache Spark Streamingに関する論文 「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf) について、概念と動作概要が書かれた1章〜5…
以下論文を読んでみようの続きで、今回は第5章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「Fault and Straggler Recov…
こんにちは。以下論文を読んでみようの続きで、今回は第4章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「System Archit…
こんにちは。以下論文を読んでみようの続きで、今回は第3章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「Discretized S…
こんにちは。以下論文を読んでみようの続きで、今回は第2章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「 Goals and Ba…