Skip to content
RATH
데이터 준비하기
데이터 프로파일링

데이터 프로파일링

데이터 프로파일링이란

데이터 프로파일링은 데이터의 구조, 내용 및 품질을 더 잘 이해하기 위해 데이터를 검토하고 분석하는 프로세스입니다.여기에는 데이터 품질에 영향을 미칠 수 있는 잠재적 문제 및 불일치를 식별하기 위해 데이터 유형, 길이, 패턴 및 완전성을 비롯한 데이터 속성에 대한 통계 및 지표를 수집하는 작업이 포함됩니다.

데이터 프로파일링의 목적은 데이터에 대한 포괄적인 개요를 제공하고 데이터 거버넌스, 데이터 정리 및 데이터 통합 활동을 지원하는 것입니다.

RATH를 사용한 데이터 프로파일링

RATH를 데이터 소스에 연결한 후데이터 소스 탭에서 데이터를 한눈에 볼 수 있습니다.이 페이지에서는 데이터 원본의 개요를 보여주는 세 가지 옵션을 통해 데이터 원본의 분포 및 기본 통계에 액세스할 수 있습니다.

  • 테이블 보기: 테이블 형태로 데이터를 한 눈에 볼 수 있는 곳입니다.
  • 메타 뷰: 메타데이터를 개괄적으로 볼 수 있는 곳입니다.모범 사례: 메타 뷰를 사용하여 데이터 필드 유형을 빠르게 구성하십시오.
  • 통계 보기: 데이터 소스의 통계 정보를 확인할 수 있는 곳입니다.모범 사례: 이 뷰를 통계 및 데이터 분포 분석에 사용하십시오. 데이터 뷰

테이블 보기

테이블 보기에서는 사용 가능한 데이터 필드를 한 눈에 볼 수 있어 이 데이터셋이 무엇에 관한 것인지 전반적으로 파악할 수 있습니다. 테이블 뷰

편집하려는 특정 데이터 필드 위로 마우스 커서를 이동합니다.이 예제에서는 다음을 수정하려고 합니다. date 필드. 테이블 보기에서 필드 편집

  • 오른쪽에 있는 “펜” 버튼을 클릭합니다. date 를 사용하여 이 필드의 이름을 변경할 수 있습니다.

  • 화면 오른쪽에 있는 “전구” 버튼을 클릭하세요 date 반자동 탐색 기능을 사용하여 이 필드를 탐색할 수 있습니다.

  • 이 필드를 변환하려면 변환 버튼을 클릭하십시오.이 경우 RATH는 자동으로 다음을 감지합니다. date 필드를 DateTime 필드로 사용하고 시간 단위별로 필드를 그룹화하도록 제안합니다. 테이블 뷰의 필드 변환

  • 이 필드의 크기를 변경하세요.

  • 데이터 유형의 경우 명목형, 순서형, 정량형 및 시간형 중에서 선택할 수 있습니다.

  • 이러한 4가지 데이터 유형에 대한 자세한 내용은 이 문서 (opens in a new tab) 를 참조하십시오.

  • 데이터세트에서 이 필드를 선택 취소하려면 “필드 사용” 옵션을 선택하세요.

차원 및 측정값의 개념은 비즈니스 인텔리전스 (BI) 에서 차용했습니다.엄밀한 의미에서:

  • 차원은 독립 변수이고 측정값은 종속 변수입니다.
  • 또는 차원은 특징 변수이고 측정값은 대상 변수입니다.

RATH는 자동으로 차원 및 측정값을 지정하는 데 도움을 줍니다. 모범 사례: 아직 탐색되지 않은 데이터세트의 경우 RATH를 사용하여 빠른 분석 결과를 생성할 수 있습니다.나중에 이해한 내용에 따라 필드 유형을 조정할 수 있습니다.

메타 뷰

메타 뷰는 데이터세트를 감독하는 또 다른 방법이지만 메타데이터에 더 초점을 맞춥니다. 메타 뷰

필드를 쉽게 수정하고, 분석 및 시맨틱 유형을 변경하고, 필드를 필터링, 탐색 또는 변환하는 등의 작업을 수행할 수 있습니다.

통계 보기

통계 보기에서 RATH는 왼쪽 패널에 모든 데이터 분포 보기를 표시합니다.아무 필드나 클릭하면 고유 값, 최대값 및 최소값, 중간값, 분위수, 표준편차 등 이 필드에 대한 자세한 정보를 볼 수 있습니다. 통계 보기

필드의 일부를 선택할 수 있습니다.RATH는 선택한 부품에 대한 데이터 통계를 자동으로 생성합니다. 셀렉트

선택한 필드를 드래그 앤 드롭하여 이동합니다.선택한 데이터 통계가 그에 따라 변경됩니다. 통계 보기에서 데이터 선택