データを変換する
データ変換は、分析とモデリングのために生データを準備するのに役立つプロセスです。 これは、データが正確で信頼できるものであることを確認するための 4 つの主な手順で構成されています。
-
データ クリーニング: このステップでは、データのエラー、不整合、欠損値を修正します。
-
データのフィルタリング: このステップでは、分析に関連するデータのみを選択できます。
-
データ変換: このステップでは、データの形式を変更して、作業しやすくします。
-
データ サンプリング: このステップでは、時間とリソースを節約するためにデータの一部を選択します。
これらの手順に従うことで、分析とモデリングから正確な結果を得る高品質のデータを操作できるようになります。
RATH を使用したデータ ラングリング
データクリーニング
データ クリーニングは、データセットから、正しくない、破損している、形式が正しくない、重複している、または不完全なデータを修正または削除するプロセスです。 適切なデータ クリーニングは、分析の品質を向上させることができます。
データ クリーニングに RATH を使用する前に、データセットのデータ形式が標準化されていることを確認してください。 これは含まれて:
- DateTime データ:
YYYY-MM-DD
として標準化する必要があります。- 数値データ: 正しいはずです。 たとえば、スーパーマーケットの販売記録のデータセットを考えてみましょう。 販売データは、「$100」または「100 ドル」ではなく、「100」として標準化する必要があります。
データ クリーニングに RATH を使用するには、データ ソースからデータをインポートするだけです。 RATH は自動的にデータを消去できます。
Data Source タブの Clean Method ドロップ メニューからオプションを選択することもできます。
要件に一致するオプションの 1 つを選択して続行します。
データフィルタリング
RATH を使用してデータをフィルタリングすることもできます。 メタ ビューに移動し、特定のフィールドの [フィルター] ボタンをクリックします。
フィルタを有効にして、特定の範囲または値セットを選択します。 上記の例では、気温が 20 ~ 30 度のデータを選択しています。
異常を削除するだけの場合は、高速選択 ボタンを選択し、高速フィルタリング機能を使用してデータの主要部分を取得します。 次の画面で詳細を設定できます。
データ変換
テーブル または メタ ビューで、特定のフィールドの [変換] オプションを選択します。 RATH は、データ変換の提案を自動的に生成できます。
たとえば、DateTime オブジェクトを選択すると、RATH は DateTime を時間単位でグループ化することを提案します。
カテゴリ変数の場合、RATH はワンホット エンコーディング アルゴリズムの使用を提案します。
RATH が特定のフィールドで潜在的な異常を検出した場合、RATH は Isolation Forest アルゴリズムの使用を提案します。
データサンプリング
データ サンプリングは、より大きなデータセットからデータの代表的な部分を選択して、母集団全体に関する推論を引き出すプロセスです。 効率的かつ効果的な調査と分析を可能にし、正確な洞察を提供しながら処理するデータの量を減らします。
データ サンプリングの詳細については、データを接続する の章の関連セクションを参照してください。