USER MANUALS

Data Lake Storage の管理

Virtual DataPort では、HDFS、Amazon S3、Azure ADLS Gen2、および複数のユースケースで以前のストレージと互換性がある他のストレージへのアクセスをサポートしています。

  • 区切りファイル、JSON、XML などの形式のファイルへのアクセス。

  • Parquet、Delta、Iceberg 形式の分析データへのアクセス。

  • Hive、Impala、Presto、Spark、Databricks、 Denodo 組み込み MPP のようなストレージを使用するデータソースへのデータの読み込み。

オブジェクトストレージへのデータ一括読み込みの構成方法については、「 HDFS、S3、または ADLS などの分散オブジェクトストレージへのデータ一括読み込み 」のセクションを参照してください。Google Cloud Storage などの互換性のある他のストレージにアクセスする方法については、「 Hadoop 互換ストレージのサポート 」のセクションを参照してください。以下のセクションでは、オブジェクトストレージに保存される各種ファイル形式やテーブル形式のサポートについて詳しく説明します。最後の「 オブジェクトストレージへのアクセスに関する問題のトラブルシューティング 」のセクションでは、オブジェクトストレージへのアクセスでエラーやタイムアウトが発生した場合のトラブルシューティングに役立つ情報が記載されています。

CSV、JSON、XML ファイル形式

オブジェクトストレージの CSV (またはその他の区切りファイル)、JSON、XML ファイルにアクセスするには、「 区切り形式ファイルソース 」、「 JSON ソース 」、「 XML ソース 」の各セクションの指示に従います。認証を構成するには、正しいデータルート HDFSS3 、または Azure ADLS を選択する必要があります。Google Cloud Storage のような別のオブジェクトストレージにアクセスするには、「 Hadoop 互換ストレージのサポート 」のセクションを参照してください。

Apache Parquet ファイル形式

Apache Parquet はオープンソースの列指向データファイル形式であり、データの効率的な保存と検索を目的としています。

Virtual DataPort では、組み込み MPP を使用した、 Parquet 形式のデータへのアクセス をサポートしています。

また、Hive、Impala、Presto、Spark、Databricks、または Denodo 組み込み MPP などの Hadoop 互換ストレージを使用して、データベースに一括挿入するデータを Parquet 形式で生成します。このトピックの詳細については、「 HDFS、S3、または ADLS などの分散オブジェクトストレージへのデータ一括読み込み 」のセクションを参照してください。

Delta Lake テーブル形式

Delta Lake はオープンソースのテーブル形式であり、 Databricks のデフォルト形式です。ACID トランザクションと拡張性の高いメタデータ処理のために、ファイルベースのトランザクションログで Parquet データファイルを拡張します。Denodo では、組み込み MPP を使用した、 Delta 形式のデータにアクセスするための基本ビューの作成 をサポートしています。また、 Delta 形式 を使用した、Databricks でのリモートテーブルの作成やデータの読み込みもサポートしています。

Iceberg テーブル形式

Apache Iceberg は、大規模な分析データセットの高性能テーブル形式です。Iceberg テーブルは ACID トランザクション、スキーマの完全な進化、パーティションの進化、さらに テーブルバージョンのロールバック をサポートしており、テーブルの書き換えや移行は必要ありません。

以下の表では、Iceberg テーブルを使用する、Denodo で現在サポートされている機能について説明しています。詳細については、「 Iceberg テーブル 」のセクションを参照してください。

機能

サポート対象

選択

挿入

データ一括読み込み

更新

×

削除

×

マージ

×

MPP カタログからの基本ビューの作成

オブジェクトストレージからの基本ビューの作成

リモートテーブルの作成

リモートテーブルの削除

サマリビューの作成

キャッシュ

ロールバック

Iceberg 形式でサマリビューを作成するには、 リモートテーブルの作成 と同じ手順に従います。

オブジェクトストレージへのアクセスに関する問題のトラブルシューティング

Denodo から S3 や Azure などのオブジェクトストレージにアクセスする際に問題が発生した場合は、以下の手順に従って問題をトラブルシューティングしてください。

  • ストレージのネットワークセキュリティルールを確認して、Denodo Virtual DataPort がアクセスできることを検証します。

  • SSL/TLS を使用してオブジェクトストレージにアクセスし、証明書がプライベート認証機関によって署名されている場合や自己署名されている場合は、その証明書が Virtual DataPort サーバーのトラストストアに含まれていることを確認します。

  • Virtual DataPort ログ (<DENODO_HOME>/logs/vdp/vdp.log) を確認します。

  • Azure ストレージアカウントにアクセスしている場合:

    • 2024 年 11 月以降、新規および既存の Azure ストレージアカウントでは TLS 1.0 と TLS 1.1 のサポートが廃止されます。

    • Azure ストレージアカウントで新たに TLS 1.3 がサポートされたため、SSL/TLS を使用するコネクションが失敗します。コネクションが確立しないため、Denodo がタイムアウトを返すことがあります。その場合は、次の JVM パラメータを記述して、Virtual DataPort が許可する TLS バージョンからバージョン 1.3 が除外されるように指定します。以下に例を示します。

      -Dhttps.protocols="TLSv1,TLSv1.1,TLSv1.2" -Djdk.tls.client.protocols="TLSv1,TLSv1.1,TLSv1.2"
      
  • それ以外の状況でログに十分な情報が記録されていない場合、Design Studio の VQL シェルから以下を実行して、詳細情報をログに記録します。

    CALL LOGCONTROLLER('com.denodo.vdb.util.hdfs', 'TRACE');
    CALL LOGCONTROLLER('org.apache.hadoop.fs.FileSystem', 'DEBUG');
    
  • ストレージルートへのコネクションを再度テストします。

  • ログレベルをエラーに戻します。

  • ログ <DENODO_HOME>/logs/vdp/vdp.log を確認します。

  • 最後に、これまでの手順で問題が解決しなかった場合は、SSL コネクションの問題をデバッグするため、以下を実行します。

    • Virtual DataPort サーバーに以下の JVM パラメータを記述します。

    -Djavax.net.debug=all
    
  • コネクションをテストします。

  • JVM パラメータは非常に冗長になるため削除します。

  • ログ <DENODO_HOME>/logs/vdp/vdp.log を確認します。

Add feedback