Skip to content
RATH
データの準備
Data Profiling

データプロファイリング

データプロファイリングとは

データ プロファイリングとは、データを調査および分析して、その構造、内容、および品質をよりよく理解するプロセスです。 これには、データの種類、長さ、パターン、完全性などのデータ属性に関する統計と指標を収集して、データ品質に影響を与える可能性のある潜在的な問題や矛盾を特定することが含まれます。

データ プロファイリングの目的は、データの包括的な概要を提供し、データ ガバナンス、データ クレンジング、およびデータ統合アクティビティをサポートすることです。

RATH によるデータ プロファイリング

RATH をデータ ソースに接続すると、[データ ソース] タブでデータの鳥瞰図にアクセスできます。 このページでは、データ ソースの概要を示す 3 つの異なるオプションを使用して、データ ソースの分布と基本統計にアクセスできます。

  • テーブル ビュー: テーブル形式でデータを一目で確認できます。
  • メタ ビュー: メタデータの概要を確認できます。 ベスト プラクティス: メタ ビューを使用して、データ フィールドのタイプをすばやく構成します。
  • 統計ビュー: データ ソースの統計情報を確認できます。 ベスト プラクティス: このビューは、統計およびデータ分布分析に使用します。 データ ビュー

テーブルビュー

テーブル ビューでは、使用可能なデータ フィールドを一目で確認できるため、このデータセットの概要を理解することができます。 テーブル ビュー

編集する特定のデータ フィールドにマウス カーソルを移動します。 この例では、date フィールドを変更しようとしています。 テーブル ビューでフィールドを編集

  • 「日付」の右側にある「ペン」ボタンをクリックして、このフィールドの名前を変更します。

  • 「日付」の右側にある「電球」ボタンをクリックして、セミオート探索機能でこのフィールドを探索します。

  • [変換] ボタンをクリックして、このフィールドを変換します。 この場合、RATH は「date」フィールドを DateTime フィールドとして自動的に検出し、フィールドを時間単位でグループ化することを提案します。 テーブル ビューでフィールドを変換

  • このフィールドの次元を変更します。

    • データ型については、名義、序数、量的、一時的から選択できます。
    • これら 4 つの異なるデータ型の詳細については、このドキュメント (opens in a new tab) を参照してください。
  • データセットからこのフィールドの選択を解除するには、[フィールドを使用] オプションをオンにします。

ディメンションとメジャーの概念は、ビジネス インテリジェンス (BI) から借用されています。 厳密には:

  • ディメンションは 独立変数 ですが、メジャーは 従属変数 です。
  • または、ディメンションは 機能変数 であり、メジャーは ターゲット変数 です。

RATH は、ディメンションとメジャーの割り当てを自動的に支援します。

ベスト プラクティス: 未調査のデータセットの場合、RATH を使用して迅速な分析結果を生成できます。 後で、理解に応じてフィールド タイプを調整できます。

メタビュー

メタ ビューは、データセットを監視する別の方法ですが、メタデータにより重点を置いています。 メタビュー

フィールドの変更、分析タイプとセマンティック タイプの変更、フィールドのフィルタリング、調査、変換などを簡単に行うことができます。

統計ビュー

統計ビューでは、RATH は左側のパネルにすべてのデータ分布ビューを表示します。 任意のフィールドをクリックすると、このフィールドに関する詳細情報が表示されます。これには、一意の値、最大値と最小値、中間値、分位数、標準偏差などが含まれます。 統計ビュー

フィールドの一部を選択できます。 RATH は、選択したパーツのデータ統計を自動的に生成します。 選択

選択したフィールドをドラッグ アンド ドロップで移動します。 それに応じて、選択したデータ統計が変更されます。 統計ビューでデータを選択