이상값 탐지 마스터하기: 데이터 분석가를 위한 종합 가이드
Updated on
이상값은 나머지 데이터와 크게 다른 데이터 포인트로, 종종 분석의 정확성을 떨어뜨립니다.이상값을 식별하고 처리하는 것은 모든 데이터 분석 워크플로우에서 중요한 단계입니다.이 글에서는 R의 이상값을 식별하는 방법과 한 번의 클릭으로 이상값을 식별할 수 있는 시각적이고 직관적인 도구인 RATH를 살펴보겠습니다.
이상값을 감지하는 가장 좋은 방법: RATH 사용
카나리아 RATH (opens in a new tab) 를 사용하면 코딩 지식 없이도 이상값을 쉽게 감지할 수 있습니다.아래 단계를 따르세요.
1단계.RATH 온라인 데모 (opens in a new tab) 에서 RATH를 실행하세요.데이터 연결 페이지에서파일 옵션을 선택하고 Excel 또는 CSV 데이터 파일을 업로드합니다.
팁: ClickHouse, BigQuery 또는 SQL과 같은 온라인 데이터베이스에서 데이터를 가져오려면 데이터베이스 옵션을 선택하고 RATH를 데이터에 연결하세요.
2단계.데이터 원본 탭에는 데이터에 대한 일반적인 개요가 부여됩니다.
RATH는 어떤 변수가 이상치일 수 있는지 자동으로 감지하고 Isolation Forest 알고리즘을 사용하여 재그룹화하도록 제안할 수 있습니다.
옵션을 클릭하여 아이솔레이션 포레스트 알고리즘을 아웃라이어에 적용합니다.
RATH를 사용하면 이상값 탐지 프로세스를 매우 쉽고 간단하게 수행할 수 있습니다.그 외에도 RATH는 데이터에서 패턴 및 인과 추론을 찾는 프로세스를 단순화하는 고급 데이터 분석 자동화 도구이기도 합니다.Tableau와 유사한 드래그 앤 드롭 인터페이스를 사용하면 코딩 지식 없이도 다차원 데이터 시각화를 생성 하고 고급 증강 분석 엔진을 통해 자동화된 통찰력을 얻을 수 있습니다.
RATH를 시작하려면 GitHub 리포지토리 (opens in a new tab) 를 방문하여 온라인 데모 (opens in a new tab) 를 시도해 보세요.
R에서의 이상값 탐지 기법
박스 플롯으로 이상값 식별하기
박스 플롯은 데이터 분포를 시각화하고 이상값을 식별하기 위한 간단하면서도 강력한 도구입니다.R에서는 다음 코드를 사용하여 박스 플롯을 만들 수 있습니다.
코드_블록_플레이스홀더_0
데이터세트를 데이터세트의 이름으로 바꾸고 column_name을 분석하려는 특정 열로 바꾸십시오.박스 플롯에는 데이터의 사분위수 범위 (IQR), 중앙값 및 잠재적 이상치가 표시됩니다.이상값은 일반적으로 상자 그림의 수염을 벗어난 개별 점으로 표시됩니다.
Z-스코어 방식
Z-점수 방법은 데이터 점이 분포의 평균으로부터 얼마나 멀리 떨어져 있는지를 측정하는 통계 기법이며, 표준 편차로 표현됩니다.R에서는 다음 코드를 사용하여 Z-점수를 계산하고 이상값을 식별할 수 있습니다.
코드_블록_플레이스홀더_1
임계값 2.5는 임의적이며 특정 요구 사항에 따라 조정할 수 있습니다.Z-점수가 2.5보다 크거나 -2.5보다 작은 데이터 포인트는 이상값으로 간주됩니다.
터키 울타리
Tukey의 펜스는 IQR을 기반으로 이상값을 탐지할 수 있는 강력한 방법입니다.다음 공식을 사용하여 이상값의 하한과 상한을 정의합니다.
- 하한선: Q1 - 1.5 × IQR
- 상한선: Q3 + 1.5 × IQR R에서는 다음 코드를 사용하여 Tukey의 울타리를 적용할 수 있습니다.
코드_블록_플레이스홀더_2
R에서의 이상값 처리
이상값을 식별한 후에는 분석 목표에 따라 이상값을 제거하거나 변환할 수 있습니다.
이상값 제거
데이터세트에서 이상값을 제거하려면 다음 코드를 사용하세요.
코드_블록_플레이스홀더_3 이 코드는 식별된 이상값 없이 clean_data라는 새 데이터세트를 만듭니다.특이치를 제거하면 데이터셋의 평균이 변경될 수 있다는 점에 유의해야 합니다.데이터 분포에 따라 평균이 이상값에 매우 민감할 수 있으며, 이상값을 제거하면 데이터의 중심 경향을 더 정확하게 표현할 수 있습니다.
아웃라이어 변환
이상값을 제거하는 대신 변환하여 분석에 미치는 영향을 줄일 수 있습니다.일반적인 변환 기법에는 다음이 포함됩니다.
- Winsorization: 극단값을 외곽이 아닌 가장 가까운 데이터 포인트로 대체합니다.
- 로그 변환: 데이터에 로그 변환을 적용하면 극단값의 영향을 줄이는 데 도움이 될 수 있습니다. R에서는 DescTools 패키지의 winsorize 함수를 사용하여 윈정렬을 적용할 수 있습니다.
코드_블록_플레이스홀더_4
로그 변환을 적용하려면 다음 코드를 사용하십시오.
코드_블록_플레이스홀더_5
로그 변환을 위해서는 모든 데이터 요소가 양수여야 한다는 점을 명심하십시오.데이터에 음수 값이 포함된 경우 변환을 적용하기 전에 데이터에 상수를 추가해야 할 수 있습니다.
이상치가 통계 측정 및 모델에 미치는 영향
이상치는 다양한 통계 측정 및 모델에 상당한 영향을 미칠 수 있습니다.
- 평균: 앞서 언급한 것처럼 평균은 이상값에 민감하며 이상값을 제거하면 값이 크게 변할 수 있습니다.
- 중위수: 중위수는 데이터의 중간 값을 나타내므로 이상값에 더 잘 견딥니다.
- 표준 편차: 표준 편차는 평균 주위의 데이터 포인트 분산을 측정하므로 이상값에 민감합니다.
- 상관관계: 이상값은 변수 간의 상관관계에 영향을 주어 잠재적으로 잘못된 관계나 오해의 소지가 있는 관계로 이어질 수 있습니다.
- 랜덤 포레스트 (Random Forest): 랜덤 포레스트 모델은 일반적으로 이상값의 영향을 덜 받습니다. 의사 결정 트리는 극단값에 더 강하기 때문입니다.
- 스캐터 차트: 이상값은 일반적으로 주 데이터 클러스터에서 멀리 떨어진 고립된 점으로 나타나므로 스캐터 차트에서 쉽게 식별할 수 있습니다.
RATH를 사용한 이상값 시각화하기
RATH의 강력한 시각화 기능을 사용하면 통찰력 있는 플롯 생성 을 통해 이상값을 식별하고 분석할 수 있습니다.RATH의 고급 데이터 시각화 기능을 활용하면 스캐터 차트, 박스 플롯 및 기타 시각화를 자동으로 생성 하여 이상값이 데이터에 미치는 영향을 살펴볼 수 있습니다.
분석 기술을 더욱 향상시키려면 RATH의 증강 분석 엔진을 사용하여 탐색적 데이터 분석 워크플로를 간소화하고 데이터 내의 패턴 및 인과 추론을 발견해 보십시오.
결론
이상값 감지는 데이터 분석 프로세스의 중요한 단계입니다.이 종합 가이드에서는 자동화된 데이터 분석 및 시각화를 위한 강력한 도구인 RATH를 사용하여 R의 이상값을 식별하고 처리하는 다양한 기법을 살펴보았습니다.이러한 방법을 익히면 데이터 분석 결과가 정확하고 신뢰할 수 있도록 보장할 수 있습니다.지금 바로 RATH로 데이터 탐색을 시작하고 데이터 분석 기술을 한 단계 끌어올리세요!