ビューのデータプロファイリング

Virtual DataPort の実行エンジンは、最適化が有効になっている場合、さまざまな最適化を実行して、クエリの実行を高速化することができます。その 1 つが、いわゆるコストベースの最適化です。つまり、Virtual DataPort には、同一のクエリを実行するためのオプションが複数用意されています。実行エンジンは、各オプションの実行にかかる予測コストを評価し、最適なプランを選択します。このコスト評価を実行するには、管理者はビューでいくつかの統計 (行数、各フィールドの平均サイズ、フィールドの NULL 値の数など) を収集するよう Virtual DataPort を構成しておく必要があります。

参考

コストベースの最適化および必要な統計を収集するための Virtual DataPort の構成方法の詳細については、『 Virtual DataPort 管理ガイド 』を参照してください。

Virtual DataPort の実行エンジンのフィードに加え、これらの統計も Data Catalog にとって有用です。統計から、ビューの各フィールドの想定されるデータの種類がわかるからです。これらの統計が現在のビューで使用可能な場合は、[データプロファイリング] タブに表示されます。

Statistics for each field of a view in the Data profiling tab

[データプロファイリング] タブに表示されたビューの各フィールドの統計

[データプロファイリング] タブの上部には、ビューの行数と列数、および統計が収集された日時が表示されます。さらに、ビューのフィールドごとに、そのデータに関する以下の情報が表示されます。

  • フィールド名: フィールドの名前と型。

  • 平均サイズ: フィールドが text 型の場合、文字の平均長さ、平均サイズ (バイト単位) など。

  • データ範囲: フィールドが numeric または date 型の場合、最小値と最大値。

  • 個別の値の数: フィールドに含まれる個別の値の数および値ごとの平均行数。

  • null 値の数: フィールドに含まれる NULL 値の数および NULL 値を含む行の割合。

注釈

n/a 値は、フィールドの統計が使用できないことを示します。