データフローを確立しましょう! ThoughtSpot DataFlowの概要

ThoughtSpotのインメモリデータキャッシュであるFalconは、思考のスピードでデータを検索する機能に革命をもたらしました。迅速なスピードにより、ユーザーは時間を無駄にすることなく、あらゆる次元で、さまざまな分析を自由に行うことができます。

多くのお客様が既存のETLソリューションを活用し、ETLフローのターゲットとしてThoughtSpotを追加しています。しかし、これには技術的な専門知識が必要で、マーケティングやセールスなどビジネス部門のユーザーの多くはそのようなツールにアクセスすることはできませんでした。このような需要に応えるため、DataFlowを発表できることを非常に嬉しく思います。

ThoughtSpotの新機能であるDataFlowを使用すると、ユーザーは、24 以上のデータベースやファイルシステムからデータをThoughtSpotへ簡単に移動できます。ブラウザ上の使いやすいグラフィカルユーザーインターフェイスを介して行われ、ThoughtSpotサーバー自体で実行されるため、別のサーバーを設定する必要はありません。DataFlowの仕組みについて、以下の短いビデオをご覧ください(英語)。

テクニカルデータエンジニア以外にとって、従来のETLツールは非常に複雑に感じられるかもしれません。そのため、DataFlowをシンプルな構造にして、データアナリストがトレーニングを受けなくても使用できるようにしました。クリックするだけで操作できるUIや、機能を段階的に複雑にすることで、要件がそれほど多くない場合でも、作業をシンプルにすると同時に、必要に応じて複雑な要件にも対応することができます。

さらに興味深いのは、基盤となるアーキテクチャです。DataFlowでは、JDBCやODBCとは対照的に、ThoughtSpotの高速なtsloadバルクロードAPIが利用されています。これにより、DataFlowは拡張性とスピードを両立させ、数十億行をメモリに取り込むことができます。

DataFlowは、一般的なデータベース、データウェアハウス、ファイル、アプリケーションをサポートしています。今後、サポートされるデータソースの種類は更に増える予定です。<br>DataFlowの他の機能の一部は、以下のとおりです。

  • 増分データの読み込み(Load Incremental Data) - 多くの場合、ソースデータには数年間ものデータが含まれる可能性があり、すべてのデータを毎日読み込むことは不可能です。DataFlowを使えば、フィルター条件を指定して、最新のデータのみを取得できます。

  • 詳細な選択(Granular Selection) - ごくまれに、ThoughtSpotにテーブル全体またはファイル全体を読み込む必要が出てくるかもしれません。DataFlowでは、列のサブセットを選択して、ThoughtSpotに読み込むことができます。

  • データマッピング(Data Mapping)  - DataFlowには非常に使いやすいインターフェイスが用意されており、外部テーブルまたはファイルに基づいて、ThoughtSpotで新しいテーブルを作成できるほか、主キーとシャーディングキーを指定できます。DataFlowを使用すると、既存のThoughtSpotテーブルを読み込めるほか、その中の異なる列にマッピングすることもできます。

  • 同期スケジュールの設定(Sync Scheduling) - データをスケジュールできないのであれば、データを読み込む意味はありません。DataFlowには、時間単位のレベルまで、さまざまなスケジュール設定の選択肢があります。ファイルの存在など、他のアクティビティで同期がトリガーされるようにすることもできます。また、データのクリーンアップなどの目的で、データ読み込みの前後でTQLスクリプトを実行することもできます。

  • TQLインターフェイス(TQL Interface) - DataFlowを使用すると、使いやすい方法でテーブルを作成できます。一方、シャーディングキーの変更など、複雑なTQLステートメントを実行する必要が出てくるかもしれません。そのため、このようなTQLコマンドを実行できるように、「TQLエディター」を作成しました。また、アクセスできるテーブルを変更できるという点で、安全であるというメリットもあります。

  • アラートとモニタリング(Alerts & Monitoring) - DataFlowでは、使いやすい方法で、クラスターレベルと個々のテーブルレベルでデータ同期を監視できます。すぐに対処する必要がある問題のアラートを設定して、詳細なログを表示することもできます。

  • ファイルの前後処理(Pre & Post Handling of Files) - ファイルを使用することで、圧縮ファイルの読み込み、FTP/SFTPの保存先からのファイルの移動、Amazon S3、Azure Blob Storage、Google Cloud Storage、HDFSなどのストレージのブロックを行う際に、さらに多くの機能を利用できます。また、完了時には、ディスクがいっぱいにならないように、それらのファイルをアーカイブまたは削除できます。 

これは、DataFlowの機能のほんの一部にすぎません。Embraceデータベースにデータを読み込む、データを読み込む前に変換する、データロードのトリガーを改善するなど、DataFlowには便利な機能を他にも追加予定です。

ベータ版をご利用中のお客様から機能に関するフィードバックをいただいたことや、そのフィードバックを基に新しいユースケースを提供できることについて、大変うれしく思います。詳細については、https://thoughtspot.com/jp/dataflowをご覧ください。ぜひフィードバックをお寄せください。