데이터 변환
데이터 변환은 분석 및 모델링을 위해 원시 데이터를 준비하는 데 도움이 되는 프로세스입니다.데이터가 정확하고 신뢰할 수 있는지 확인하기 위한 네 가지 주요 단계로 구성됩니다.
-
데이터 정리: 이 단계에는 데이터의 오류, 불일치 및 누락된 값 수정이 포함됩니다.
-
데이터 필터링: 이 단계에서는 분석과 관련된 데이터만 선택할 수 있습니다.
-
데이터 변환: 이 단계는 작업하기 쉽도록 데이터 형식을 변경합니다.
-
데이터 샘플링: 이 단계에는 시간과 리소스를 절약하기 위해 데이터의 작은 부분을 선택하는 작업이 포함됩니다.
다음 단계를 따르면 분석 및 모델링에서 정확한 결과를 얻을 수 있는 고품질 데이터로 작업할 수 있습니다.
RATH를 사용한 데이터 랭글링
데이터 정리
데이터 정리는 데이터세트에서 올바르지 않거나 손상되었거나 형식이 잘못되었거나 중복되거나 불완전한 데이터를 수정하거나 제거하는 프로세스입니다.적절한 데이터 정리는 분석 품질을 향상시킬 수 있습니다.
RATH를 데이터 정리에 사용하기 전에 데이터세트에 표준화된 데이터 형식이 있는지 확인하세요.여기에는 다음이 포함됩니다.
- 날짜/시간 데이터: 다음과 같이 표준화되어야 합니다.
YYYY-MM-DD
.- 수치 데이터: 정확해야 합니다.슈퍼마켓 판매 기록을 위한 데이터세트를 예로 들어 보겠습니다.판매 데이터는 다음과 같이 표준화되어야 합니다.
100
대신$100
또는100 dollars
.
RATH를 데이터 정리에 사용하려면 데이터 소스에서 데이터를 가져오기만 하면 됩니다.RATH는 데이터를 자동으로 정리할 수 있습니다.
데이터 원본 탭의 정리 방법 드롭다운 메뉴에서 옵션을 선택할 수도 있습니다.
계속하려면 요구 사항에 맞는 옵션 중 하나를 선택합니다.
데이터 필터링
RATH를 사용하여 데이터를 필터링할 수도 있습니다.메타 보기로 이동하여 특정 필드의 “필터” 버튼을 클릭합니다.
필터를 활성화하고 특정 범위 또는 값 세트를 선택합니다.위의 예에서는 온도가 20도에서 30도 사이인 데이터를 선택합니다.
예외 항목을 제거하려는 경우Fast Selection 버튼을 선택하고 빠른 필터링 기능을 사용하여 데이터의 주요 부분을 가져오세요.다음 화면에서 자세한 내용을 구성할 수 있습니다.
데이터 변환
테이블 또는 메타 보기에서 지정된 필드의 변환 옵션을 선택합니다.RATH는 데이터 변환을 위한 제안을 자동으로 생성할 수 있습니다.
예를 들어 DateTime 객체를 선택하면 RATH는 DateTime을 시간 단위로 그룹화하도록 제안합니다.
범주형 변수의 경우 RATH는 원-핫 인코딩 알고리즘 사용을 제안합니다.
RATH가 특정 필드에서 잠재적인 이상 현상을 감지하면 RATH는 Isolation Forest 알고리즘을 사용할 것을 제안합니다.
데이터 샘플링
데이터 샘플링은 대규모 데이터셋에서 데이터의 대표적인 부분을 선택하여 전체 모집단에 대한 추론을 도출하는 프로세스입니다.효율적이고 효과적인 탐색 및 분석을 지원하여 처리해야 하는 데이터의 양을 줄이는 동시에 정확한 통찰력을 제공합니다.
데이터 샘플링에 대한 자세한 내용은 데이터 연결 장의 관련 섹션을 참조하십시오.