モダンデータスタックの定義と注目すべき理由

私が2000年代半ばにGoogleで働いていた頃、Google社内では1日あたり数百億件の広告インプレッションを扱い、数年分の履歴データを使っていくつかの機械学習モデルをトレーニングし、頻繁に更新されるモデルを広告の順位付けに使用していました。システム全体がエンジニアリングの驚異的な成果であり、これほど大量のデータを扱えるシステムは世の中に存在しませんでした。このシステムを実現するには長い年月と何百人ものエンジニアが必要でしたが、今ではどの企業でも同じ規模を実現できます。

このような規模の拡大は、クラウドデータ技術の急速な革新と、データおよび分析分野における新製品や企業の数の急激な増加によって実現されたものです。こうしたツールのサブセットは、よく「モダンデータスタック」と呼ばれています。

モダンデータスタックとは

モダンデータスタックとは、データの収集、処理、保存、分析に使用されるツールやクラウドデータテクノロジーをまとめて表したものです。

1. データソース 

データが発生する場所です。Salesforce、ServiceNow、HubSpotなどを思い浮かべてみてください。これらのデータソースは、大量のバラバラな生データを生成し、組織にはこの解読作業が必要になります。 

2. 抽出および読み込みツール 

価値を提供しながらサイロ化を避けるには、データをデータソースから抽出しなければなりません。これには、Matillion、Airbyte、Fivetran、Supermetricsなどのツールが活躍します。こうしたツールにより、クラウドデータウェアハウスの準備段階として、データが体系化されます。

3. クラウドデータウェアハウス

クラウドデータウェアハウス(CDW)とは、クラウドデータプラットフォームとも呼ばれ、整理されたデータが保存される場所です。

4.変換ツール

dbtのような変換ツールは、クラウドデータウェアハウスの内部で機能します。基本的に、変換ツールを使うと、分析に備えてデータを変換できます。変換レイヤーは、抽出、読み込み、変換(ELT)や、抽出、変換、読み込み(ETL)といったデータパイプラインのいくつかのポイントで実行できます。

5.エクスペリエンスと分析

こうしたツールはすべて、ビジネスユーザーがデータを操作し、そこからインサイトを得るために必要なものです。ここで登場するのが、ThoughSpotのようなデータビジュアライゼーションツールです。

モダンデータスタックに含まれるツールのモダンが意味するもの

1. 試しやすく、展開しやすい

モダンデータスタックのツールのほとんどは、SaaSで提供されます。無料トライアル版やオープンソース版で試すことができます。トレーニングやプレゼンテーションに長時間かかるものとは異なり、一般ユーザーにも理解しやすいツールです。また、通常、モダンデータスタックの他のツールとの統合も容易であるため、トライアルにかかるコストは高くありません。さらに、ホスティングやセキュリティーについての懸念がないため、本番環境への導入も簡単です。

2. 大規模なスケーラビリティー

モダンツールのもう1つの重要な側面として、大規模に対応できるように設計されていることがあります。この理由は、クラウド本来の柔軟性による部分もありますが、モダンシステムのほとんどが、古いデスクトップや単一サーバーのアプリケーションではなく、水平方向のスケーラビリティーを可能にする分散システムの原理で設計されているからです(例:Snowflake、Databricks、ThoughtSpot)。スケーラビリティーについて掘り下げる場合は、おおまかに次の3つの面から考えます。

1.    データ:使用するソリューションは、数千億、あるいは数兆のレコードを扱う場合でも、満足のいくパフォーマンスを発揮できるでしょうか。

2.    ユーザー:ユーザー数が数万人規模の場合、または外部の顧客に公開されて数百万人のユーザーが集中的な並行処理を行う可能性がある場合、ツールは機能するでしょうか。

3.    ユースケース:ユースケースの数と複雑さが増すにつれて、ツールでどのようにその複雑性に対処できるのでしょうか。ダッシュボード、キューブ、抽出関連で構築されたツールの場合、これがうまくいかないとユーザーの期待が大きく裏切られかねません。各ユースケースにおいて、ビジネス上の疑問点が新たに生じると、新たな作業が発生します。この作業は通常、何度も行われたことのある作業の変化形になります。そして、最終的には何万ものダッシュボードやレポートが不要になり廃棄されてしまいます。これは分析レイヤーに限ったことではありません。変換レイヤーや指標レイヤーでも発生します。

3. コンポーザブル・データスタック

コンポーザブル・データスタックとは、各製品が独立的に機能するのではなく、より大きなアーキテクチャー内の構成可能なコンポーネントのように動作するという考え方です。ネットワーク分野では、以前はルーターを1台ずつ手作業で設定していました。複雑なネットワークを管理するには多くの人手が必要で、エラーが発生しやすく、大きな混乱を引き起こすこともありました。この10年でネットワーク業界は大きく変わりました。現在では、コントロールプレーンを通じてすべてをプログラムで構成でき、大規模で複雑なネットワークの管理は向上しています。データ業界にも同様の変化があります。では、あるツールが同様の原理に従っているかどうかを知るにはどうすればよいのでしょうか。

モダンデータスタックを使用するメリット

1つは、スクリプト化可能なインターフェイスです。分析に使用されるLookerのLookML、ThoughtSpotのTMLや変換用のdbtには、一連のモダンツールがあり、コードで処理されるあらゆることを構成言語で定義できます。これには、いくつかのメリットがあります。

1. バージョン管理

バージョン管理を利用すると、ワークロードの変更とアナリティクスワークロードの定義を管理できるため、望ましくない変更を元に戻したり、変更の原因を把握したりできます。このように構成を管理すれば、大量の構成の管理がはるかに容易になります。コードを論理ユニットにまとめたり、増分の一括変更を行ったり、後日に備えて変更を文書化したりできます。もし何かが壊れても、問題ないと最後に確認した際の状態に簡単に戻せます。

2. 再利用

いったん定義されたコードは、適合する状況であれば繰り返し再利用できます。このため、類似したコードの新規作成が簡単になります。バグの修正も、さまざまな場所ではなく、一元的な場所で実施できます。 

3. ナレッジ共有のコミュニティ

ユーザーがシステムで行う操作をコードで表現できると、ナレッジ共有に役立つ強力なツールになります。Lookerでは、コード部分を共有することでさまざまな操作方法を共有するコミュニティが存在したため、開発者コミュニティが驚異的に成長しました。そして、TMLでも同様の傾向があります。

4.自動化

ユーザーのワークフローをコードで表現できれば、それを自動化するのはかなり簡単です。自動化を行うことで、従来よりもはるかに大きな規模でツールを活用できます。たとえば、ThoughtSpotでは何百社ものお客様にセルフサービス分析を提供しています。こうしたお客様はすべて同じコアデータモデルからスタートしますが、それぞれのニーズは少し異なります。TMLが存在する前であれば、この管理のために大勢の人が必要だったと思われますが、今では完全に自動化できます。 

さらに、APIを通じて他のツールと連携できることも重要なポイントです。今日では、単独で存在するツールはありません。多くの場合、データツールは本来の目的に沿って使用されるだけではなく、他の製品のビルディングブロックとしても活用されます。最近のデータツールは、単にボード機能のAPIだけでなく、きめ細かいAPIを公開しているため、開発者は望みに応じた製品を創り出せるようになりました。そのため、こうしたツールは、ユーザーにとってより汎用的で価値のあるものになっています。

注目すべき理由

現代のデータスタックは多くの変化をもたらしていますが、正しく行われなければ、困難、コスト、リスクを招くことがあります。企業のデータスタック責任者との会話では、多くの場合、あるツールと別のツールの比較ではなく、現状に耐えられるか、あるいは変化を求める強い意志があるかということが問題になります。変化が必要だと考える理由を次に説明します。

効率性の向上

モダンデータスタックが支持を得ている最大の理由の1つは、これらのシステムのほとんどが、ユーザビリティ、管理性、人間が作業する際の一般的な効率性に関して、より優れた基準で設計されているからです。かつては、MPPデータベースの管理はチームで行っていました。しかし現在のクラウドデータウェアハウスでは、管理にかかる手間がチームにとってわずかなものになっています。多くの場合、アナリストは従来の分析ツールと比較して、ThoughtSpotでは分析にかかる時間が大幅に短縮されたと報告しています。現代の変換ツールでは、人間が行う作業量を大幅に減らしながら多くのタスクを管理できます。

前職がFirst Command Financial Servicesのエンタープライズデータ&アナリティクス担当副社長であり、現在はWestern Alliance Bankのエンタープライズデータ&アナリティクス担当シニアディレクターであるDarren Pedroza氏は、データ責任者に関するエピソードとして次のように述べています。「従来のウェアハウス視点ではなく、パイプライン視点でデータを見る力が、変革を生み出しました。我々のデータ戦略におけるクラウドの役割は、柔軟性、俊敏性、民主化がすべてです」エピソードの全編はこちらで聴くことができます。 

俊敏性によるイノベーション

ここで、次のポイントに移ります。企業がどれほど革新的であるかは、アイデアから検証(または却下)までにかかる時間を測定することでわかります。イノベーションのペースが速い企業と、停滞している企業の違いを見てみると、後者に優れたアイデアを持つ人材が不足しているというわけではありません。前者の方が、イノベーションを支える環境がずっと整っているのです。アイデアのほとんどは、生み出された時点では素晴らしいものではありません。試行錯誤を経て、良いアイデアにたどり着くのです。仮説の検証や却下にかかるコストが高すぎると、多くの場合スタートラインにすら立てないことになるのです。今日の世界では、仮説を検証や却下に使用できるデータをスピーディーに入手できる能力は、競争上の優位性だけでなく、企業の存続と消滅の分かれ目となる場合もあります。

American ExpressのCDO、Pascale Hutz氏は次のように述べています。「(前略)データは生き物のようなものでなければなりません。そしてそのような心構えでいると、データに完成があるとは思えなくなります。データに終わりはありません。プラットフォームは決してPOAではありません。常に新しいものがやってくるため、到達点にはならないのです。このような心構えでデータを捉え、データを製品と考えていれば、私たちはテクノロジーの進化と歩調を合わせ、その方向性を確かなものにしていくことができるのです。現在はクラウドですが、5年後にはきっと別のものになっているでしょう。ですから、そのための備えをしなければなりません」エピソードの全編はこちらで聴くことができます

速度

従業員も顧客も少ないスタートアップでは、誰もがほぼすべてのツールセットに頼ることができます。しかし、急成長が始まると、予想以上に早くデータスタックは複雑さを急速に増します。データのスケーリングは、お金をかければよいだけの話のため、比較的簡単に解決できる問題です。しかし、不必要に複雑化したデータを拡張すると、技術的な負債とフラストレーションの罠にはまってしまいます。私は、多くの中規模企業が何百ものダッシュボードを維持管理し、何百もの変換ジョブに支えられて、どれが価値を提供しているのか分からないまま、データをビジネスユーザーに提供するリクエストのバックログと1か月間戦い続けているのを目にしてきました。そして、あえて言いますが、良い結果が得られることはありません。

Modern Milk Manの最高戦略責任者であるJohn Hughes氏の場合もそうでした。同社は、当初の資金調達額の4分の1近くをデータプラットフォームの最新化に充てるというリスクを負っていました。しかし、大規模な事業で非効率的なレガシーテクノロジーを見てきたJohn氏は、この新興企業に最も効果的なモダンデータツールを確実に取り入れようと決めました。この投資のおかげで、同社は現在、顧客に対してよりインテリジェントなマーケティングを行い、事業面のギャップを予測し、環境への影響を定量化できるようになったのです。エピソードの全編はこちらで聴くことができます

モダンデータスタックを採用する方法

マインドセットを変える

モダンデータスタックには、ツールを変えるだけではなく、考え方や文化の変革も必要です。SnowflakeやGoogle BigQueryなどのクラウドデータウェアハウスは、成長を見据えたアーキテクチャーと価格を提供しています。履歴を必要なだけ保存し、敏速に新しいデータリクエストに対応できます。これは、これまで存在していた多くの壁を打ち砕くものです。

同様に、ThoughtSpotのようなセルフサービス分析ツールなら、アナリストがデータモデルの改善や、ビジネスユーザーが自らデータに関する質問を行い回答できるようにするなどの戦略的な事柄に集中できます。拡張アナリティクスツールは、ビジネスユーザーが「何を」追求するのではなく、「なぜ」をより深く探求できるようにします。

モダンデータスタックへの移行は、組織内に運用方法を変えたいという願望がない限り、望ましい結果を得ることはできません。

ベストオブブリードのものを選ぶ

この業界では、スタックの各レイヤーに最適なソリューションを選択するか、最適なエコシステムを選択するかで行ったり来たりする傾向があります。通常、ある領域でイノベーションが多く進んでいるときは、垂直統合よりもベストオブブリードのものを選ぶ方がはるかにうまくいきます。業界は成熟してくると、大手テクノロジーベンダーが(主に買収を通じて)技術革新に追いつき、統合による効率化をさらに推し進める傾向があります。今は、それぞれのスタックに最適なツールを選択するのに適した時期であることは間違いありません。クラウドインフラプロバイダー(例:AWS、GCP、Azure)は、各スタックに独自のツールを用意していますが、これらの企業は各レイヤーで勝つことよりも、顧客が自社のクラウドを選び、良い使用経験を得ることに重きを置いています。その結果、こうした企業は顧客のために素晴らしいエクスペリエンスを構築する誰に対しても、かなりオープンで協力的です。

段階的かつ垂直的な構築

ほとんどの大きな変化の場合と同様に、これを行う最良の方法は、大幅な変革ではなく、小さい変化での成功を積み重ねながら道を切り開いていくことです。データスタックを水平に構築している人を時々見かけます。言い換えると、変革や分析について考える前に、すべてのデータをクラウドに保存してしまおうということです。このようなアプローチでは、ビジネス価値の向上は望めません。それよりも、製品使用のエクスペリエンスや営業の業務など、1つの分野を選んで、すぐに価値を提供できる1つのスタックの全体を構築する方がずっと良いのです。私の経験では、勝利の方程式は「短期的な成功を収め、それを反復する」です。

完璧を良しとしない

これは、データの民主化のためというより、何よりも重要なことです。ビジネスユーザーに能力を与えるモダンツールの導入をためらうチームをよく見かけますが、それはユーザーが自分で墓穴を掘ることを恐れているからです。この懸念は筋が通っていますが、これは新しい問題ではなく、多くのチームが適切に管理された方法でそれを行う方法を見つけ出しています。もう1つの起こりがちな不安は、「自分のデータは十分にクリーンではない」というものです。データの問題を解決する最良の方法の1つは、データにスポットライトを当て、ユーザーが問題を特定できるようにすることです。 

おわりに

モダンデータスタックは、これからも存在し続けるでしょう。進化し、改善され、採用が大きく広がるでしょう。モダンデータスタックを正しく採用した企業は、顧客の満足を得て、革新的で成長力のあるビジネスを構築する上でより有利な立場に立つことができます。もし貴社が独自のデータスタックを構築している最中であれば、そのまま正しい道を歩んでください。そして、もし移行が必要になったときは、段階的な勝利がたくさんある道を選ぶことを忘れないでください。