Skip to content
RATH
データを接続する
Best Practices

データ接続のベストプラクティス

データサンプリング

データサンプリングは、大きなデータセットから代表的なサブセットを選択する方法です。このプロセスの目的は、結果の正確性を損なうことなく、データの量を減らすことです。RATHでは、100 MBを超えるデータセットに対してデータサンプリングを使用することを推奨します。

最適な結果を得るには、データセットの行数を10万件以下に減らしてください。10万行から100万行のデータセットでは、いくらかの遅延が発生する可能性があり、100万行を超えるデータセットでは、データサンプリングが必要です。

以下の方法でサンプルサイズを選択できます。固定サンプルサイズボタンをクリックし、希望するサンプルサイズを選択してください。

データサンプリング

データサンプリングの代替手段

大規模なデータセットを処理するために最適化されたMPP(Massively Parallel Processing)データベースであるClickHouseを使用することができ、データサンプリングに比べてパフォーマンスが向上する可能性があります。

他の種類のMPPデータベースのサポートについては、RATHチームまでお問い合わせください。# データ接続のベストプラクティス

データサンプリング

データサンプリングは、大きなデータセットから代表的なサブセットを選択する方法です。このプロセスの目的は、結果の正確性を損なうことなく、データの量を減らすことです。RATHでは、100 MBを超えるデータセットに対してデータサンプリングを使用することを推奨します。

最適な結果を得るには、データセットの行数を10万件以下に減らしてください。10万行から100万行のデータセットでは、いくらかの遅延が発生する可能性があり、100万行を超えるデータセットでは、データサンプリングが必要です。

以下の方法でサンプルサイズを選択できます。固定サンプルサイズボタンをクリックし、希望するサンプルサイズを選択してください。

データサンプリング

データサンプリングの代替手段

大規模なデータセットを処理するために最適化されたMPP(Massively Parallel Processing)データベースであるClickHouseを使用することができ、データサンプリングに比べてパフォーマンスが向上する可能性があります。

他の種類のMPPデータベースのサポートについては、RATHチームまでお問い合わせください。