夢とガラクタの集積場

落ちこぼれ三流エンジニアである管理人の夢想=『夢』と、潰えた夢=『ガラクタ』の集積場です。

2013-09-01から1ヶ月間の記事一覧

Apache Spark Streamingの論文まとめ(1章〜5章

こんにちは。Apache Spark Streamingに関する論文 「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf) について、概念と動作概要が書かれた1章〜5…

Apache Spark Streamingの論文を読んでみます(5章

以下論文を読んでみようの続きで、今回は第5章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「Fault and Straggler Recov…

Apache Spark Streamingの論文を読んでみます(4章

こんにちは。以下論文を読んでみようの続きで、今回は第4章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「System Archit…

Apache Spark Streamingの論文を読んでみます(3章

こんにちは。以下論文を読んでみようの続きで、今回は第3章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「Discretized S…

Apache Spark Streamingの論文を読んでみます(2章

こんにちは。以下論文を読んでみようの続きで、今回は第2章です。「Discretized Streams: A Fault-Tolerant Model for Scalable Stream Processing」 (http://www.eecs.berkeley.edu/Pubs/TechRpts/2012/EECS-2012-259.pdf)内容としては、「 Goals and Ba…

Apache Spark Streamingの論文を読んでみます(1章

こんにちは。ここ何回かでApache Spark自体の機構は大体わかりました。 そのため、今度はApache Sparkを基にしたストリーム処理基盤であるApache Spark Streamingについても確認してみます。読んだ論文は以下です。 「Discretized Streams: A Fault-Tolerant…

Resilient Distributed Datasetsに関する論文まとめ(1章〜5章

こんにちは。Resilient Distributed Datasetsに関する論文 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) について、概念と動作概…

Resilient Distributed Datasetsに関する論文を読んでみます(5章

以下論文を読んでみようの続きで、今回は第5章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf)内容としては、「Implementati…

Resilient Distributed Datasetsに関する論文を読んでみます(4章

こんにちは。以下論文を読んでみようの続きで、今回は第4章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf)内容としては、「…

Resilient Distributed Datasetsに関する論文を読んでみます(3章

こんにちは。以下論文を読んでみようの続きで、今回は第章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf)内容としては、「Sp…

Resilient Distributed Datasetsに関する論文を読んでみます(2章

こんにちは。以下論文を読んでみようの続きで、今回は第2章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf)内容としては、「…

SpringXD=リアルタイム解析やバッチ処理同士をつなぐ汎用、分散、拡張可能なデータ統合基盤?

こんにちは。最近色々手を出し過ぎな気もしますが、気になったものがあったのでちとまとめてみます。 それは、Spring XDです。 http://www.springsource.org/spring-xdぱっとトップページを見てみるとやたらと使えそうに見えたので、 実際にチュートリアルを…

Resilient Distributed Datasetsに関する論文を読んでみます(1章

こんにちは。前回、前々回でApache Spark、Spark Streamingの概要がわかりました。ですが、内部で使用している共有分散メモリ機構であるResilient Distributed Datasets(RDDs)が 鍵となる割に概要しか資料からはわからなかったため、論文を読むことでもう一…

Apache Spark Streaming=大規模準リアルタイムストリーム処理?

こんにちは。Sparkについて調べてみよう企画第2段(?)です。 1回目はまずSparkとは何かの概要資料を確認してみました。 その先はRDDの構造を説明している論文と、後Spark Streamingというストリーム処理基盤の資料がありました。とりあえず、そんなわけ…

Apache Sparkってどんなものか見てみる(その1

こんにちは。Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思った…