概要¶
更新プログラム 8.0u20230301 以降、Denodo は、 Presto に基づく独自の MPP エンジンである Denodo 組み込み MPP を組み込んできました。
重要
Denodo 組み込み MPP を使用するには、 エンタープライズプラス サブスクリプションバンドルと更新プログラム 8.0u20230301 が必要です。
Presto は、ビッグデータ向けの高性能な分散 SQL クエリエンジンです。元々は Facebook がその大規模なデータセット上でセルフサービス分析を提供するために作成したものであり、現在はオープンソースになっています。
Denodo 組み込み MPP の主な目標は、Data Lake のコンテンツであるParquet ファイル、Delta Lake テーブル、および Apache Iceberg テーブルに、SQL のみを使用する簡単な方法で効率的にアクセスできるようにすることです。
また、Denodo 組み込み MPP があれば、他の外部エンジンを使用する必要はなくなります。MPP エンジンとオブジェクトストレージを使用することで、キャッシュ、クエリ高速化、リモートテーブル、サマリなど、ストレージを必要とする Denodo 機能をすぐに利用できます。
Denodo 組み込み MPP を使用するための主な手順を以下に示します。
オブジェクトストレージにデータセットを保存します。Denodo 組み込み MPP は、以下のような多くの分散ストレージシステムからデータを読み込むことができます。
Amazon S3
S3 互換ストレージ
Azure Data Lake Storage Gen2
Google Cloud Storage
Hadoop Distributed File System (HDFS)
Denodo 組み込み MPP を Helm チャートを使用して Kubernetes にデプロイし、Denodo Platform にデータソースとして登録します。
オブジェクトストレージで Parquet ファイル形式で保存されているデータをグラフィカルに確認し、それに対応するテーブルを組み込み MPP に、基本ビューを Denodo にそれぞれ作成します。
MPP の高速化を使用して Denodo で Data Lake をクエリします。
キャッシュ、リモートテーブル、サマリなどの Denodo の機能を使用して、Parquet ファイル形式でデータを Data Lake に読み込みます。
注釈
Denodo サーバーのクラスタを使用している場合、組み込み MPP の高速化 の手法を利用するために、 そのクラスタのメタデータが外部データベースに保存される ようにクラスタを構成する必要があります。Virtual DataPort サーバーが 1 台のみの環境では、次を実行することでこの制限を回避できます。
SET 'queryOptimization.parallelProcessing.denodoConnector.enableUsingSharedMetadataOnly'='false';