データメッシュ、データファブリック、データレイクハウスはデータウェアハウスの座を奪うのか?

データ管理の分野で生き残りをかけた戦いが起ころうとしています。このような予兆は、従来のデータウェアハウスの時代が終わりに近づいていることの証なのかもしれません。多くのデータアーキテクトにとって冒涜と思えるかもしれませんが、これには十分な理由があります。データ量は急速に増え続けているため、インサイトを導き出し、行動を起こすには、より迅速でアジャイルな方法が必要である、という点で業界内の意見は一致しています。しかしそれくらいしか意見が一致していません。

イデオロギーとテクノロジーの間には戦線が引かれています。それぞれが、データリーダーや彼らのビジネスが今日直面している課題を解決するための特効薬があると主張しています。受け入れ難い現実ですが、あらゆる問題に有効な解決策というものは存在しません。どんなものにも長所と短所があり、それぞれの支持者がいます。The Data Chief LIVEのエピソードに先立ち、どちらを支持するかデータリーダーたちに投票してもらいました。ご覧のように、意見は真っ二つに分かれました。

進化するデータ管理の世界に関する読者向けダイジェスト

さまざまなテクノロジーを理解するのに四苦八苦しているのは、あなただけではありません。<br><br>以下に簡単な説明を示します。

  • データウェアハウス:データウェアハウスは十分なテストが行われた概念であり、その起源は1992年に発行されたBill Inmon氏の最初の著書『Building the Data Warehouse』に遡ります。その後、Ralph Kimball氏の著書『The Data Warehouse Toolkit』でも論じられました。当時としては貴重な概念でしたが、一元化されたデータウェアハウスをオンプレミス環境で構築するには数か月かかることもありました。また、高度にキュレートされたデータにより、価値ある詳細なインサイトが曖昧になる恐れがあります。さらに、コストも高くなります。

  • データレイク:2010年、データレイクという新たな用語が作られました。データレイクはきめ細かいデータへのアクセスを加速し、コストを削減するという約束を掲げていましたが、残念ながらデータスワンプ(データの沼地)として知られるようになりました。データが使用できるようになるまでに、あまりにも時間がかかるためです。

  • データレイクハウス:データレイクハウスは、データウェアハウスとデータレイクの利点を組み合わせたものです。データレイクハウスは、データサイエンスと分析のユースケース向けに統合型ワークロードを提供します。Databricksはこの用語をマーケティング資料で利用し、Snowflakeは「データクラウド」という用語を好んで使用しています。

  • データファブリック:データファブリックは、2014年にNetAppで具体的な概念として誕生しました。それ以来、概念的に進化したデータファブリックはGartnerが支持するパラダイムとなっています。データファブリックでは、クラウドとオンプレミスのデータセット全体から関連データを発見するためのメタデータとAIが非常に重視されています。

  • データメッシュ:データメッシュは、ThoughtWorksが先駆けとなって開発したアーキテクチャアプローチ兼組織概念であり、Zhamak Dehghaniの新しい著書『Data Mesh:Delivering Data-Driven Value at Scale』で定義されています。データメッシュにおける最終目標は、データ製品です。データはドメインごとに整理および管理され、移動することはできません。データファブリックとデータメッシュに関する優れた記事として、こちらのTony Baerの記事をご確認ください。または、Datanovaの活発なディベートをご覧ください。

データウェアハウスの終わりについて耳にしたことはありませんか?

このような会話は、デジャヴュのように感じるかもしれません。データウェアハウスの終わりを業界が予測したのは、今に始まったことではありません。10年前の2012年に開催されたStrata-Hadoop Worldでは、専門家たちはデータレイクによってデータウェアハウスに終止符が打たれるだろうと発言していました。その予測は現実のものとはなっていません。

しかし、今回の予測は、従来のデータウェアハウスがついに終わりを迎えることを示す、より大きな傾向に基づいています。新しい概念の登場とクラウドコンピューティングおよび統合型ワークロードの技術革新により、データウェアハウスは最終的にその座を譲り、よりデータドリブンな世界への道が開かれるでしょう。

ただし、この進歩に障害がないわけではありません。従来型のプロセスとスキルが重大な障壁となります。たとえば、実務担当者がクラウドデータベース内にキューブや集計テーブルを作成すると、他の設計アプローチによってもたらされる利点が無駄になってしまいます。どのようなアプローチを採用しても、一貫性のあるマスターデータを確保することが、引き続き必須要件となります。こうした新しい概念をうまく使いこなすことが将来のデジタルサクセスの基盤であり、今こそ取り入れるべき時です。

<br>その方法と、データの世界を再編しつつある他の主要な傾向を把握するには、ThoughtSpotの2022年のデータと分析における7つの傾向と予測をご確認ください。