PivotBillionsでEDA(探索的データ解析)を効率化し、Rワークフローを強化

統計分析フリーソフト「R」の分析ワークフローにPivotBillionsを組み込むことで、分析サイクルとアプトプット能力を劇的に向上させることができます。

Rは、様々なデータアナリストがデータの分析とモデル化に使用する優れた統計分析ツールです。しかし、Rはマシンにロードできるデータに制限があり、一定数のデータポイントを超えると処理性能が急速に低下する傾向があります。R使用時の応答時間を短縮するために、私たちは、PivotBillionsをワークフローに組み込んで、データの迅速な調査と機能強化を図っています。

データをRにロードした後でも、PivotBillionsのインターフェースを通じてデータを変更したり、やり取りしたりできます。既存の列に基づく計算などの新たな機能の追加は、PivotBillionsのUIから直接アクセス可能な列作成機能によって円滑に進めることができます。これにより、Rユーザーは、インポート後もデータにすばやく機能を追加したり、Rに容易にデータを転送したりできます。

実例の一つとして、当社(AuriQ Systems)では、為替市場における通貨ペア(売買する2国間の通貨の組み合わせ)の価格上昇を予測するために、444MBを超えるEUR/USD通貨ペアのティックデータ(約900万行)をロードしました。ラップトップPCにインストールしたPivotBillionsを使用して、生データファイルを調査し、データを強化するための変換ルールを追加し、それらすべてを2分以内でPivotBillionsのインメモリデータベースにロードすることができました。このケースでは、PivotBillionsはデータウェアハウスとEDAツールの両方として機能します。

レポートインターフェースから、当社では以下を含む新しい数値をいくつか追加しました。

  1. delta_maxmin_300) - 直近300分間の最高値と最安値の差
  2. (delta_CO) - 現在の1分における終値と始値の差
  3. (delta_NcC) - 次(未来)の1分と現在の1分の終値の差

この最後の数値は、当社が最も究明したい値です。次の1分に価格が上がるかどうかを支配するルールを発見できれば、それを通貨取引戦略に適用することができます。

Rでデータを使用するために、新たに追加した数値をPivotBillionsからダウンロードしてRに読み込みました。Rでデータを分析して視覚化することで、主要な数値と、それらが現在の価格にどのように影響しているのかを素早く掘り下げることができます。中間期の最高値と最安値、終値と始値、次の期の終値と現在の終値の差の関係を調べ、これらの数値に特定のしきい値を設定して、次の1分間の終値の上昇を正確に予測することができます。

さらに調査結果を検証するために、Amazon Web Serviceのメモリ最適化EC2インスタンス上の1億3500万行(通貨についての5年分のティックデータ)のより大きなデータセットに対して同じプロセスを適用したところ、同様の結果を出すことができました。

最終的にRで予測モデルを導き出しましたが、大量のデータを準備し、強化し、Rの中で素早く効率的に使用できるフォーマットでその大量のデータを入手するために、PivotBillionsを使用しました。このユースケースの例に沿ってRのプログラムを確認するには、PivotBillions and R Visualization Demoを参照してください。