Table of Contents - rabbit-slide-kou-apache-arrow-tokyo-meetup-2018-2018.12.8.2 Documentation
Pages
- README.rd
- Rakefile
-
apache-arrow.rab
- Apache Arrown#ArrowTokyo
- 自己紹介:名前
- 自己紹介:プログラミング
- 自己紹介:C/C++を書く理由
- 自己紹介:Apache Arrowの開発
- 自己紹介:仕事
- データ処理ツールの開発事業
- Apache Arrow
- 実現すること
- 効率化のポイント
- 速度向上方法
- 遅い部分
- データ交換
- データ処理システム例
- スライドプロパティー
- データ交換処理
- データ交換処理:必要なリソース
- Ruby+JSONでデータ交換
- Ruby+JSONの速度の傾向
- データ交換の高速化
- Apache Arrowのアプローチ
- Ruby+Apache Arrowでデータ交換
- Ruby+Apache Arrowの速度の傾向
- Apache Sparkでの高速化事例
- Apache Arrowフォーマットの特徴
- メモリーマップの活用
- 遅い部分の高速化まとめ
- 高速化できる部分
- 大量データの計算の高速化
- 各データの計算の高速化
- 想定ユースケース
- OLAP向きのデータの持ち方
- スライドプロパティー
- まとまったデータの計算を高速化
- SIMDを活用
- 条件分岐とnull
- スライドプロパティー
- スレッド活用時のポイント
- Apache Arrowとスレッド
- 高速化のまとめ
- 実装コストを下げる
- 共通で使いそうな機能
- 実装コストのまとめ
- Apache Arrowが扱えるデータ
- 表・データフレーム
- 扱える型:真偽値・数値
- 真偽値・数値:データの配置
- 扱える型:文字列・バイト列
- 文字列・バイト列:データの配置
- 扱える型:日付・タイムスタンプ
- 扱える型:時間
- 扱える型:リスト
- リスト:データの配置
- 扱える型:構造体
- 構造体:データの配置
- 扱える型:{疎,密}共用体
- 疎共用体:データの配置
- 密共用体:データの配置
- 扱える型:辞書
- 辞書:データの配置
- 表・データフレームのまとめ
- 多次元配列
- 多次元配列のまとめ
- Apache Arrowが提供する機能
- フォーマット変換機能
- 対応フォーマット:CSV
- 対応フォーマット:Apache Parquet
- 対応フォーマット:Apache ORC
- 対応フォーマット:Feather
- 対応中フォーマット:JSON
- 対応中フォーマット:Apache Avro
- 非公式対応フォーマット:MDS
- フォーマット変換機能まとめ
- 効率的なデータ交換処理
- Plasma
- Apache Arrow Flight
- DB連携
- 効率的なデータ交換処理のまとめ
- 高速なデータ処理ロジック
- Gandiva
- Gandiva:実行時に最適化
- 高速なデータ処理ロジックのまとめ
- 対応言語
- 実装方法
- C#の実装状況
- C++の実装状況
- Goの実装状況
- Javaの実装状況
- JavaScriptの実装状況
- Juliaの実装状況
- Rustの実装状況
- C・Lua・Rubyの実装状況
- MATLABの実装状況
- Pythonの実装状況
- Rの実装状況
- 対応言語まとめ
- Apache Arrowの今後案
- クラウドストレージ対応
- データセット対応
- データセット例
- プッシュダウン対応
- プッシュダウン例
- 演算グラフ対応強化
- まとめ
- code-party.rab
- config.yaml
- introduction.rab