Hadoop 互換ストレージ¶
オブジェクトストレージへのアクセスが必要になる可能性があるユースケースは多数存在します。以下に例を示します。
組み込み MPP を使用して Parquet 形式または Delta 形式 のデータにアクセスする
DF/JSON/XML/Excel のデータソースにアクセスする
データ一括読み込み 用にストレージを構成する
HDFS、S3、または ADLS Gen2 とは異なるオブジェクトストレージが Hadoop API と互換性がある場合、HDFS オプションを選択して適切な Hadoop プロパティを指定することでアクセスできます。たとえば、WASB ドライバーを使用する Azure Blob ファイルシステムや Google Cloud Storage と連携できます。Google Cloud Storage のルートを使用する手順を以下に示します。
Google Cloud Storage のタイプに従ってコネクションを構成します。
URI の構文:
gs://<bucket>/<path>/
以下の Hadoop プロパティを構成します。 Hadoop のドキュメント で、使用可能な方法およびそれらを構成するためのプロパティを確認できます。ここでは、JSON キーファイルのサービスアカウント認証の例を示します。
名前
値
google.cloud.auth.service.account.enable
true
google.cloud.auth.service.account.json.keyfile
<JSON キーファイルのパス>
fs.gs.impl.disable.cache
true
HDFS パスを使用する DF/JSON/XML/Excel の各データソースの場合、認証セクションで [None] を選択します。
注釈
HDFS パスを使用する DF/JSON/XML/Excel の各データソースの場合、URI の「@」文字は、環境変数との混同を回避するために、バックスラッシュ (\@) を使用してエスケープする必要があります。これは、 データ一括読み込み 用または Parquet、Delta、Iceberg 形式のオブジェクトストレージデータ 用の構成では 適用されません 。