HDFS パス¶
このタイプのパスを使用して、HDFS ファイルシステムにある 1 つまたは複数のファイルからデータを取得します。このファイルシステムタイプは、 Hadoop 互換ストレージ にも使用できます。
Filters: フィルタについては、「 圧縮または暗号化されたデータソース 」を参照してください。フィルタはどのタイプのパス (ローカル、HTTP、FTP など) でも同様に動作します。
構成¶
[URI] には、データの取得元のパスを入力します。ファイルやディレクトリを参照定することができ、補間変数を使用できます (「 補間変数によるパスなどの値 」のセクションを参照)。
[Hadoop properties] では、 core-site.xml
のような Hadoop 構成ファイルに記述するのと同じ Hadoop プロパティを設定できます。これにより、Hadoop コネクターが存在する場合は、他のルートを使用できます。「 他のルートのサポート 」を参照してください。
ディレクトリを参照するパス¶
ディレクトリを参照するデータソースから基本ビューを作成すると、Virtual DataPort では、そのディレクトリの先頭にあるファイルから新しいビューのスキーマを推測し、他のすべてのファイルはそれと同じスキーマを持つものと仮定します。
区切り形式ファイルのデータソースの場合のみ: ディレクトリを参照するパスを指定している場合、[File name pattern] に値を入力すると、そのボックスに入力された正規表現と一致する名前のファイルのみがデータソースで処理されます。たとえば、拡張子が log
のファイルのみを処理する場合は、「 (.*)\.log
」と入力します。
注釈
XML データソースでは、[Validation file] を指定した場合は、ディレクトリ内のすべてのファイルがその スキーマ または DTD に一致している必要があります。
認証¶
以下の認証モードがあります。
None: HDFS サーバーで認証が必要ない場合、このオプションを使用します。
Simple: ユーザー名を構成する必要があります。この認証モードは、ターミナルでの Hadoop コマンドの実行時に HADOOP_USER_NAME 変数を使用する場合と同じです。
Kerberos with user and password: ユーザー名とパスワードを構成する必要があります。
Kerberos with keytab: ユーザー名を構成し、keytab をアップロードする必要があります。