データレイクは、膨大な量のデータを非階層的な形式で保存するものです。
この記事を読み終えると、以下のことができるようになります。
記事のリンクをコピーする
データレイクとは、データを自然または未加工の形式で保存するリポジトリの一種です。「データプール」とも呼ばれるデータレイクは、大量の構造化データおよび非構造化データを扱うために設計されたクラウドベースのストレージシステムであるオブジェクトストレージの機能です。
データレイクは非階層構造であるため、従来のファイルベースのストレージシステムと比較して、柔軟性と拡張性を備えたオプションとなります。しかし、データレイクへのデータの整理と取得は、組織的な設計と複雑なデータエグレス料金設定により、低速かつコスト高となる可能性があります。
データレイクがデータを保存する方法を理解するには、まずオブジェクトストレージの仕組みを理解することが重要になります。データがフォルダとファイルの階層内に保存される従来のファイルベースのストレージとは異なり、オブジェクトストレージは個々のデータまたはオブジェクトを同じ場所に収集し、カスタマイズ可能なメタデータでタグ付けします。
このメタデータ、つまりファイルを識別するために使用される情報(例:名前、タイプ、サイズ、一意の識別子)を活用することで、フォルダからフォルダへの特定の経路をたどる必要なく、ユーザーやアプリケーションがデータを見つけて取得するのに役立ちます。データレイクは膨大な量のデータを格納するように設計されているため、各オブジェクトに割り当てられたメタデータは非常に詳細なものとなり、検索の高速化に役立ちます。
階層型と非階層型のデータストレージの違いを説明するために、ボブが何千ものレコードレコードを保存する場合を想定して説明します。階層的なストレージシステムを使えば、音楽のジャンルごとに分類した大きなbinまたはフォルダにレコードを分類できます。これによりどんなアルバムもすぐに見つけられる一方、そのジャンルのレコードをさらに取得するとbinのスペースがなくなる可能性があります。この方法は、データを特定の場所に整理して保存する必要があるファイルベースのストレージと似ています。
その一方、非階層的なストレージシステムであれば、ボブは自分のすべてのレコードをある部屋、つまりデータレイクに自分の望む順序で配置できます。各レコードには、ジャンルを表示したラベルが付けられます。この方法により、単一のレコードを識別するプロセスは遅くなるものの、ボブは特定のビンに保存する必要なく、コレクションに多くのレコードを追加することができます。この方法はオブジェクトストレージと似ており、より大量のデータを同じ場所に保存することができます。
このプロセスについて、詳しくはオブジェクトストレージとはをお読みください。
データレイクアーキテクチャとは、データレイク内でデータの保存、変換、アクセス、保護のために使用されるプロセスとツールを指します。 このアーキテクチャはクラウドまたはオンプレミスにありますが、多くの場合、次のコンポーネントを共有しています。
データレイクは、データ分析やデータ探索、モノのインターネット(IoT)管理、パーソナライズされた消費者体験、高度な機械学習など、幅広い目的で利用できます。データレイクは、効果的なアウトプットを生成するために非常に大規模なデータセットを必要とすることが多い人工知能AIモデルのトレーニングにも有用です。
例えば、ある旅行会社が顧客に合わせた旅行を自動でおすすめしたいとします。データレイクを利用することで、一般的な旅行パターン、人気の目的地、滞留期間、宿泊施設のタイプ、アクティビティなどに関する大量の顧客データを取り込むことができます。さらに、そのデータをAIモデルの訓練に活用することで、より高度なレコメンデーションを開発でき、理想的には顧客満足度も向上させられます。
データレイクとは、構造化データおよび非構造化データの大規模な保管庫となっています。大規模で費用対効果の高い運用を行う能力であることが主な利点となる一方、その規模や分類システムの複雑さにより、他のタイプのデータ処理やストレージに比べて非効率である可能性があります。
データレイクと同様、データウェアハウスもデータの大規模な保管庫です。データレイクとは異なり、構造化されたデータのみが保存され、データの整理、保存、取得には従来のファイル階層が使われます。このアーキテクチャにより、データの取得とパフォーマンスの高速化は可能になるものの、データレイクよりもスケールのコストが指数関数的に高くなります。
データレイクとウェアハウスのコア機能と利点を組み合わせたデータレイクハウスと呼ばれるハイブリッドアプローチを提供するクラウドベンダーも存在します。ここでは、構造化データと非構造化データを個別のシステムにサイロ化しておくのではなく、データレイクハウスを利用し、あらゆるタイプのデータを処理・保存できます。データウェアハウスの組織的能力と高いパフォーマンスと、データレイクのコスト効率に優れたスケーラビリティを備えています。このアプローチであれば、自動化されたデータガバナンスおよびコンプライアンスツールによって、データの完全性と信頼性をさらに向上させることもできます。
Cloudflare R2は、企業が独自のデータレイクを開発できるようにするエグレス料金無料のオブジェクトストレージソリューションです。Cloudflareのグローバルネットワークに支えられたR2は、オブジェクトを複数回複製することで、最適なデータの耐久性と信頼性を確保します。これにより、オブジェクトは容易にアクセス可能であり、リージョン独自の障害やデータの損失に対して優れた耐性を維持します。
R2について、またコネクティビティクラウドによるクラウド間でのデータ移動時のエグレス料金削減の仕組みについてリンクより詳細をご覧ください。