Table of Contents - rabbit-slide-kou-db-tech-showcase-online-2020-2020.12.8.0 Documentation
Pages
- README.rd
- Rakefile
- config.yaml
-
why-apache-arrow-format-is-fast.rab
- Apache Arrowフォーマットはnなぜ速いのか
- Apache Arrowと私
- Apache Arrow
- 全部ってなに!?
- 今日のトピック
- Apache Arrowフォーマット
- 速い!
- データ交換が速い!
- 利用事例:Apache Spark
- スライドプロパティー
- 利用事例:Amazon Athena
- スライドプロパティー
- 利用事例:RAPIDS
- スライドプロパティー
- 利用事例:RAPIDS
- スライドプロパティー
- どうして速いの?
- シリアライズ処理
- 元データを加工する例:JSON
- 元データそのものを使うと…
- デシリアライズ処理
- 元データを元に戻す例:JSON
- 元データを取り出せると…
- {,デ}シリアライズコスト
- データ交換が速い!
- 利用事例:Apache Spark
- スライドプロパティー
- 利用事例:Amazon Athena
- スライドプロパティー
- 利用事例:RAPIDS
- スライドプロパティー
- データサイズは?
- データサイズ
- 圧縮時のデータサイズと読み込み速度
- スライドプロパティー
- データ交換が速い!のまとめ
- 交換したデータの扱い
- 高速処理のためのデータ構造
- データ分析時の関連データ
- カラムナーフォーマット
- スライドプロパティー
- 各カラムでのデータの配置
- 真偽値・数値のデータの配置
- 文字列・バイト列:データの配置
- nullと条件分岐
- nullと条件分岐とSIMD
- スライドプロパティー
- nullと条件分岐とSIMD
- スライドプロパティー
- 高速なデータ処理のまとめ
- まとめ
- まとめ:Apache Arrowフォーマット
- まとめ:なぜデータ交換が速いのか
- まとめ:なぜデータ処理が速いのか
- 次回予告!
- 次のステップ