Apache Spark0.8.1の新機能
こんにちは。
年明けサボっていましたが、まずはライトな更新から。
去年の年末にApache Sparkが0.8.1にバージョンアップしていたので
バージョンアップ内容を備忘録としてまとめておきます。
・・・内容的にはさっさかバージョンアップした方がいいものも混じっているかもしれませんので。
1.バージョンアップ内容
- YARN 2.2以降への対応
- SparkはMesosかYARNを用いてリソースを確保していますが、YARNの新しいバージョンへも対応したようです。
- Spark0.8.0では2.0.X系までへの対応、Spark0.8.1ではYARN 2.2.X系以降へも対応となるようですね。
- SparkはMesosかYARNを用いてリソースを確保していますが、YARNの新しいバージョンへも対応したようです。
- StandaloneClusterの冗長化機能追加
- パフォーマンス改善
- 機械学習ライブラリの改善
- 最小二乗行列分解に新ライブラリを追加
- Python対応部の改善
- 新オペレータの追加とユーザビリティ改善
- local://という記述でSpark Workerのローカルファイルも指定可能になった
- UIに表示されるステータスに「result fetching」を追加
- Spark Streamingに「transformWith, leftInnerJoin, rightOuterJoin」のオペレータ追加
- 既にSpark Streamingは本体に内蔵しているノリのようですね
- 「repartition」のオペレータ追加
- StandaloneCluster、MesosClusterにおいて実行ユーザを切り替えることが可能に
2.BugFix内容
- Kafka<>Spark Streamingの通信においてデータが稀に消滅するケースがあったことに対する対応
- タスクが失敗した時にスケジューラがハングすることがある問題に対応
- Spark Streamingのサンプル実行時にログが出力されてしまうビルド時の問題に対応
- UIにおいて特定のカラムを用いた際のソート機能に問題があったため対応
StandaloneClusterというモードは初めて知りましたね・・・
基本的には機能が追加されるわけではなく、対応インタフェースのバージョン拡大や性能改善、
ユーザビリティの改善といったマイナーバージョンアップに位置づけられる内容のようではあります。
あとは、「local://」記述はわかりやすいのでその点は乗り換えるのもありかもしれませんね。