Hadoop 互換ストレージ¶
オブジェクトストレージへのアクセスが必要になる可能性があるユースケースは多数存在します。以下に例を示します。
Access data in Parquet or Delta format using the embedded MPP
DF/JSON/XML/Excel のデータソースにアクセスする
データ一括読み込み 用にストレージを構成する
HDFS、S3、または ADLS Gen2 とは異なるオブジェクトストレージが Hadoop API と互換性がある場合、HDFS オプションを選択して適切な Hadoop プロパティを指定することでアクセスできます。たとえば、Azure Blob ファイルシステムや Google Cloud Storage と連携できます。これらのルートを使用する手順を以下に示します。
Azure Blob ファイルシステム のタイプに従ってコネクションを構成します。
URI の構文:
wasb://<container>\@<account_name>.blob.core.windows.net/<path>/<file_name>
。
注釈
HDFS パスを使用する DF/JSON/XML/Excel の各データソースの場合、URI の「@」文字は、環境変数との混同を回避するために、上記の例に示すようにエスケープする必要があります。これは、 データ一括読み込み 用または Parquet 形式と Delta 形式のオブジェクトストレージデータ 用の構成では 適用されません 。
以下の Hadoop プロパティを構成します。Hadoop のドキュメント で、使用可能な方法およびそれらを構成するためのプロパティを確認できます。ここでは、共有キーを使用する例を示します。
名前
値
fs.azure.account.key.<account_name>.blob.core.windows.net
<アクセスキー>
fs.azure.always.use.ssl
false
注釈
SSL の使用は、
fs.azure.always.use.ssl
プロパティをtrue
に設定するか、またはwasbs://<container>\@<account_name>.blob.core.windows.net/<path>/<file_name>
(この代替案ではプロパティは削除されます) のようなルートからリソースにアクセスすることによって、トリガーできます。
Google Cloud Storage のタイプに従ってコネクションを構成します。
URI の構文:
gs://<bucket>/<path>/
以下の Hadoop プロパティを構成します。 Hadoop のドキュメント で、使用可能な方法およびそれらを構成するためのプロパティを確認できます。ここでは、JSON キーファイルのサービスアカウント認証の例を示します。
名前
値
google.cloud.auth.service.account.enable
true
google.cloud.auth.service.account.json.keyfile
<JSON キーファイルのパス>
fs.gs.impl.disable.cache
true
HDFS パスを使用する DF/JSON/XML/Excel の各データソースの場合、認証セクションで [None] を選択します。