Skip to content
한 번의 클릭으로 데이터의 이상값을 손쉽게 감지하는 방법

이상값 탐지 마스터하기: 데이터 분석가를 위한 종합 가이드

이상값은 나머지 데이터와 크게 다른 데이터 포인트로, 종종 분석의 정확성을 떨어뜨립니다.이상값을 식별하고 처리하는 것은 모든 데이터 분석 워크플로우에서 중요한 단계입니다.이 글에서는 R의 이상값을 식별하는 방법과 한 번의 클릭으로 이상값을 식별할 수 있는 시각적이고 직관적인 도구인 RATH를 살펴보겠습니다.

📚

이상값을 감지하는 가장 좋은 방법: RATH 사용

카나리아 RATH (opens in a new tab) 를 사용하면 코딩 지식 없이도 이상값을 쉽게 감지할 수 있습니다.아래 단계를 따르세요.

1단계.RATH 온라인 데모 (opens in a new tab) 에서 RATH를 실행하세요.데이터 연결 페이지에서파일 옵션을 선택하고 Excel 또는 CSV 데이터 파일을 업로드합니다.

팁: ClickHouse, BigQuery 또는 SQL과 같은 온라인 데이터베이스에서 데이터를 가져오려면 데이터베이스 옵션을 선택하고 RATH를 데이터에 연결하세요.

2단계.데이터 원본 탭에는 데이터에 대한 일반적인 개요가 부여됩니다.

데이터 소스 테이블 RATH는 어떤 변수가 이상치일 수 있는지 자동으로 감지하고 Isolation Forest 알고리즘을 사용하여 재그룹화하도록 제안할 수 있습니다.

이상값에 따른 변수 재그룹화

옵션을 클릭하여 아이솔레이션 포레스트 알고리즘을 아웃라이어에 적용합니다.

이상값 감지

RATH를 사용하면 이상값 탐지 프로세스를 매우 쉽고 간단하게 수행할 수 있습니다.그 외에도 RATH는 데이터에서 패턴 및 인과 추론을 찾는 프로세스를 단순화하는 고급 데이터 분석 자동화 도구이기도 합니다.Tableau와 유사한 드래그 앤 드롭 인터페이스를 사용하면 코딩 지식 없이도 다차원 데이터 시각화를 생성 하고 고급 증강 분석 엔진을 통해 자동화된 통찰력을 얻을 수 있습니다.

RATH를 시작하려면 GitHub 리포지토리 (opens in a new tab) 를 방문하여 온라인 데모 (opens in a new tab) 를 시도해 보세요.

RATH를 사용하여 연도, 월, 주, 날짜, 시간별로 데이터를 그룹화하세요 (opens in a new tab)

R에서의 이상값 탐지 기법

박스 플롯으로 이상값 식별하기

박스 플롯은 데이터 분포를 시각화하고 이상값을 식별하기 위한 간단하면서도 강력한 도구입니다.R에서는 다음 코드를 사용하여 박스 플롯을 만들 수 있습니다.

코드_블록_플레이스홀더_0

데이터세트를 데이터세트의 이름으로 바꾸고 column_name을 분석하려는 특정 열로 바꾸십시오.박스 플롯에는 데이터의 사분위수 범위 (IQR), 중앙값 및 잠재적 이상치가 표시됩니다.이상값은 일반적으로 상자 그림의 수염을 벗어난 개별 점으로 표시됩니다.

Z-스코어 방식

Z-점수 방법은 데이터 점이 분포의 평균으로부터 얼마나 멀리 떨어져 있는지를 측정하는 통계 기법이며, 표준 편차로 표현됩니다.R에서는 다음 코드를 사용하여 Z-점수를 계산하고 이상값을 식별할 수 있습니다.

코드_블록_플레이스홀더_1

임계값 2.5는 임의적이며 특정 요구 사항에 따라 조정할 수 있습니다.Z-점수가 2.5보다 크거나 -2.5보다 작은 데이터 포인트는 이상값으로 간주됩니다.

터키 울타리

Tukey의 펜스는 IQR을 기반으로 이상값을 탐지할 수 있는 강력한 방법입니다.다음 공식을 사용하여 이상값의 하한과 상한을 정의합니다.

  • 하한선: Q1 - 1.5 × IQR
  • 상한선: Q3 + 1.5 × IQR R에서는 다음 코드를 사용하여 Tukey의 울타리를 적용할 수 있습니다.

코드_블록_플레이스홀더_2

R에서의 이상값 처리

이상값을 식별한 후에는 분석 목표에 따라 이상값을 제거하거나 변환할 수 있습니다.

이상값 제거

데이터세트에서 이상값을 제거하려면 다음 코드를 사용하세요.

코드_블록_플레이스홀더_3 이 코드는 식별된 이상값 없이 clean_data라는 새 데이터세트를 만듭니다.특이치를 제거하면 데이터셋의 평균이 변경될 수 있다는 점에 유의해야 합니다.데이터 분포에 따라 평균이 이상값에 매우 민감할 수 있으며, 이상값을 제거하면 데이터의 중심 경향을 더 정확하게 표현할 수 있습니다.

아웃라이어 변환

이상값을 제거하는 대신 변환하여 분석에 미치는 영향을 줄일 수 있습니다.일반적인 변환 기법에는 다음이 포함됩니다.

  • Winsorization: 극단값을 외곽이 아닌 가장 가까운 데이터 포인트로 대체합니다.
  • 로그 변환: 데이터에 로그 변환을 적용하면 극단값의 영향을 줄이는 데 도움이 될 수 있습니다. R에서는 DescTools 패키지의 winsorize 함수를 사용하여 윈정렬을 적용할 수 있습니다.

코드_블록_플레이스홀더_4

로그 변환을 적용하려면 다음 코드를 사용하십시오.

코드_블록_플레이스홀더_5

로그 변환을 위해서는 모든 데이터 요소가 양수여야 한다는 점을 명심하십시오.데이터에 음수 값이 포함된 경우 변환을 적용하기 전에 데이터에 상수를 추가해야 할 수 있습니다.

이상치가 통계 측정 및 모델에 미치는 영향

이상치는 다양한 통계 측정 및 모델에 상당한 영향을 미칠 수 있습니다.

  • 평균: 앞서 언급한 것처럼 평균은 이상값에 민감하며 이상값을 제거하면 값이 크게 변할 수 있습니다.
  • 중위수: 중위수는 데이터의 중간 값을 나타내므로 이상값에 더 잘 견딥니다.
  • 표준 편차: 표준 편차는 평균 주위의 데이터 포인트 분산을 측정하므로 이상값에 민감합니다.
  • 상관관계: 이상값은 변수 간의 상관관계에 영향을 주어 잠재적으로 잘못된 관계나 오해의 소지가 있는 관계로 이어질 수 있습니다.
  • 랜덤 포레스트 (Random Forest): 랜덤 포레스트 모델은 일반적으로 이상값의 영향을 덜 받습니다. 의사 결정 트리는 극단값에 더 강하기 때문입니다.
  • 스캐터 차트: 이상값은 일반적으로 주 데이터 클러스터에서 멀리 떨어진 고립된 점으로 나타나므로 스캐터 차트에서 쉽게 식별할 수 있습니다.

RATH를 사용한 이상값 시각화하기

RATH의 강력한 시각화 기능을 사용하면 통찰력 있는 플롯 생성 을 통해 이상값을 식별하고 분석할 수 있습니다.RATH의 고급 데이터 시각화 기능을 활용하면 스캐터 차트, 박스 플롯 및 기타 시각화를 자동으로 생성 하여 이상값이 데이터에 미치는 영향을 살펴볼 수 있습니다.

이상값 시각화하기

분석 기술을 더욱 향상시키려면 RATH의 증강 분석 엔진을 사용하여 탐색적 데이터 분석 워크플로를 간소화하고 데이터 내의 패턴 및 인과 추론을 발견해 보십시오.

RATH를 사용하여 연도, 월, 주, 날짜, 시간별로 데이터를 그룹화하세요 (opens in a new tab)

결론

이상값 감지는 데이터 분석 프로세스의 중요한 단계입니다.이 종합 가이드에서는 자동화된 데이터 분석 및 시각화를 위한 강력한 도구인 RATH를 사용하여 R의 이상값을 식별하고 처리하는 다양한 기법을 살펴보았습니다.이러한 방법을 익히면 데이터 분석 결과가 정확하고 신뢰할 수 있도록 보장할 수 있습니다.지금 바로 RATH로 데이터 탐색을 시작하고 데이터 분석 기술을 한 단계 끌어올리세요!

📚