Skip to content
RATH
データの準備
Transform Your Data

データを変換する

データ変換は、分析とモデリングのために生データを準備するのに役立つプロセスです。 これは、データが正確で信頼できるものであることを確認するための 4 つの主な手順で構成されています。

  • データ クリーニング: このステップでは、データのエラー、不整合、欠損値を修正します。

  • データのフィルタリング: このステップでは、分析に関連するデータのみを選択できます。

  • データ変換: このステップでは、データの形式を変更して、作業しやすくします。

  • データ サンプリング: このステップでは、時間とリソースを節約するためにデータの一部を選択します。

これらの手順に従うことで、分析とモデリングから正確な結果を得る高品質のデータを操作できるようになります。

RATH を使用したデータ ラングリング

データクリーニング

データ クリーニングは、データセットから、正しくない、破損している、形式が正しくない、重複している、または不完全なデータを修正または削除するプロセスです。 適切なデータ クリーニングは、分析の品質を向上させることができます。

データ クリーニングに RATH を使用する前に、データセットのデータ形式が標準化されていることを確認してください。 これは含まれて:

  • DateTime データ: YYYY-MM-DD として標準化する必要があります。
  • 数値データ: 正しいはずです。 たとえば、スーパーマーケットの販売記録のデータセットを考えてみましょう。 販売データは、「$100」または「100 ドル」ではなく、「100」として標準化する必要があります。

データ クリーニングに RATH を使用するには、データ ソースからデータをインポートするだけです。 RATH は自動的にデータを消去できます。

Data Source タブの Clean Method ドロップ メニューからオプションを選択することもできます。 RATH によるデータクリーニング

要件に一致するオプションの 1 つを選択して続行します。

データフィルタリング

RATH を使用してデータをフィルタリングすることもできます。 メタ ビューに移動し、特定のフィールドの [フィルター] ボタンをクリックします。 データフィルタリング

フィルタを有効にして、特定の範囲または値セットを選択します。 上記の例では、気温が 20 ~ 30 度のデータを選択しています。

異常を削除するだけの場合は、高速選択 ボタンを選択し、高速フィルタリング機能を使用してデータの主要部分を取得します。 次の画面で詳細を設定できます。 高速データフィルタリング

データ変換

テーブル または メタ ビューで、特定のフィールドの [変換] オプションを選択します。 RATH は、データ変換の提案を自動的に生成できます。

たとえば、DateTime オブジェクトを選択すると、RATH は DateTime を時間単位でグループ化することを提案します。 テーブル ビューでフィールドを変換

カテゴリ変数の場合、RATH はワンホット エンコーディング アルゴリズムの使用を提案します。 テーブル ビューでフィールドを変換

RATH が特定のフィールドで潜在的な異常を検出した場合、RATH は Isolation Forest アルゴリズムの使用を提案します。 テーブル ビューでフィールドを変換

データサンプリング

データ サンプリングは、より大きなデータセットからデータの代表的な部分を選択して、母集団全体に関する推論を引き出すプロセスです。 効率的かつ効果的な調査と分析を可能にし、正確な洞察を提供しながら処理するデータの量を減らします。

データ サンプリングの詳細については、データを接続する の章の関連セクションを参照してください。