Skip to content
RATH
데이터 연결하기
Best Practices

데이터 연결의 최상의 실행 방법

데이터 샘플링

데이터 샘플링은 대규모 데이터셋에서 대표적인 하위집합을 선택하는 방법입니다. 이 과정의 목적은 결과의 정확성을 유지하면서 데이터 양을 줄이는 것입니다. RATH에서는 100MB를 초과하는 데이터셋에 대해 데이터 샘플링을 사용하는 것이 좋습니다.

최상의 결과를 얻으려면 데이터셋의 행 수를 10만 개 미만으로 줄이세요. 10만 개에서 100만 개의 행을 가진 데이터셋은 약간의 지연이 발생할 수 있으며 100만 개를 초과하는 데이터셋의 경우 데이터 샘플링이 필요합니다.

다음과 같은 방법으로 샘플 크기를 선택할 수 있습니다. 고정 샘플 크기 버튼을 클릭하고 원하는 샘플 크기를 선택하세요. Data Sampling

데이터 샘플링 대안

대용량 데이터셋을 처리하는 데 최적화된 MPP (대규모 병렬 처리) 데이터베이스인 ClickHouse를 사용할 수 있습니다. 데이터 샘플링과 비교하여 더 나은 성능을 제공할 수 있습니다.

다른 유형의 MPP 데이터베이스 지원에 대해서는 RATH 팀에 문의하세요.# 데이터 연결의 최상의 실행 방법

데이터 샘플링

데이터 샘플링은 대규모 데이터셋에서 대표적인 하위집합을 선택하는 방법입니다. 이 과정의 목적은 결과의 정확성을 유지하면서 데이터 양을 줄이는 것입니다. RATH에서는 100MB를 초과하는 데이터셋에 대해 데이터 샘플링을 사용하는 것이 좋습니다.

최상의 결과를 얻으려면 데이터셋의 행 수를 10만 개 미만으로 줄이세요. 10만 개에서 100만 개의 행을 가진 데이터셋은 약간의 지연이 발생할 수 있으며 100만 개를 초과하는 데이터셋의 경우 데이터 샘플링이 필요합니다.

다음과 같은 방법으로 샘플 크기를 선택할 수 있습니다. 고정 샘플 크기 버튼을 클릭하고 원하는 샘플 크기를 선택하세요. Data Sampling

데이터 샘플링 대안

대용량 데이터셋을 처리하는 데 최적화된 MPP (대규모 병렬 처리) 데이터베이스인 ClickHouse를 사용할 수 있습니다. 데이터 샘플링과 비교하여 더 나은 성능을 제공할 수 있습니다.

다른 유형의 MPP 데이터베이스 지원에 대해서는 RATH 팀에 문의하세요.