2017年4月12日頃のApache Arrow

2017年4月12日頃のApache Arrowの様子を紹介します。

`arrow::Tensor`の追加

0.2.0頃のApache Arrowはarrow::Arrayで1次元のデータ（配列）、arrow::Tableで2次元のデータ（表）を表現していました。最近のApache Arrowはこれらに加えてarrow::Tensorを追加しました。これはN次元のデータを表現します。

arrow::Tensorは以下と同じようなデータを表現します。

NumPyのndarray
TorchのTensor（TourchはFacebookやTwitterなどが利用している科学計算フレームワークで機械学習もできる。Luaを使う。）
TensorFlowのTensor

Apache Arrowはシステム間でのデータ交換のコストを下げることを重視しています。つまり、最近のApache Arrowはarrow::Tensorで表現するようなデータのデータ交換コストも下げる取り組みを始めた、ということです。

現時点のarrow::Tensorはゼロコピーでのデシリアライズに対応しています。Rayという分散タスク実行エンジンはNumPyのデータをシリアライズするためにApache Arrowを使うようにしました。

今後はarrow::Tensorのデータに対して数学関数を使えるようにする予定です。要素毎（element-wise）の演算だけでなく行列演算もサポートするかどうかはまだわかりません。

サブライブラリーの統合

0.2.0までのApache Arrowはlibarrowとlibarrow_io（入出力用）とlibarrow_ipc（シリアライズ・デシリアライズ用）というライブラリーに分かれていましたが、libarrowに統合されました。Apache Arrowを使う場合は全部使うことが多いので、これでシンプルに使えるようになりました。

まとめ

2017年4月12日頃のApache Arrowの様子を紹介しました。そろそろ0.3.0がでそうなのですが、arrow::Tensorは0.3.0の目玉になりそうです。

関連情報

現在クリアコードではソフトウェア開発者を募集しています！フリーソフトウェア開発での開発の仕方をベースに、成果や知識を公開し共有しながら業務に携われます。

クリアコードのYouTubeチャンネルです。メンバーの登壇動画や、開発プロダクトに関する動画を公開しています。

Ruby用のデータ処理できるようにするプロジェクトRed Data Toolsのオンライン開発イベント『Red Data Tools開発者に聞け！』をYouTube Liveで開催しています。

2022年6月Apache Arrowの最新情報が一堂に集うデジタルカンファレンス『The Data Thread』に須藤が「Why Apache Arrow is important for Ruby」と題しビデオ登壇しました。動画はチャンネルからご覧いただけます。

ククログの記事はCC BY-SA 4.0とGFDLのデュアルライセンスで自由に利用できます。
クリアコードはプログラミングが楽しいソフトウェア開発者を1名募集しています。
クリアコードは「クリアコードをいい感じにする人」を1名募集しています。
クリアコードはフリーソフトウェア開発で培った技術力を提供しています。特にMozilla製品（Mozilla FirefoxとMozilla Thunderbird）とRubyとGroonga（全文検索）に関連した開発を得意としています。

ククログ

arrow::Tensorの追加

サブライブラリーの統合

まとめ

関連情報

`arrow::Tensor`の追加