인과 분석
인과 분석이란 무엇인가요?
인과 분석은 둘 이상의 변수 간의 관계를 조사하여 한 변수가 다른 변수에 인과 영향을 미치는지 확인하는 프로세스를 말합니다.여기에는 특정 결과에 영향을 미칠 수 있는 변수를 식별하고 통계 기법을 사용하여 변수 간에 인과 관계가 존재하는지 여부를 결정하는 것이 포함됩니다.
RATH를 이용한 인과관계 분석 수행 방법
RATH를 사용하여 인과 분석을 수행하려면 다음 단계를 따르십시오.
1.관심 변수를 식별하고 관련 데이터를 수집합니다. 2.통계 기법을 사용하여 데이터를 분석하여 변수 간에 유의미한 관계가 있는지 확인합니다. 3.변수 간의 인과 관계에 대한 결론을 도출하십시오.
사례 연구: Kaggle의 “당뇨병 데이터베이스”에 대한 인과 분석
예를 들어, 인과 분석을 위해 RATH를 사용하여 "Kaggle의 당뇨병 데이터베이스” (opens in a new tab) 를 살펴보겠습니다.먼저 데이터베이스를 RATH로 가져온 다음 다음을 사용하여 잘못된 데이터를 제거하여 데이터를 정리합니다. BMI
, BloodPressures
과 SkinThickness
이는 0과 같습니다.데이터소스 탭에서정리 방법 버튼을 클릭하고null 레코드 삭제 옵션을 선택합니다.
데이터를 정리한 후분석 시작 버튼 오른쪽에 있는 드롭다운 메뉴를 클릭하고인과 분석 옵션을 선택합니다.
1단계: 데이터 구성
인과 분석을 수행하려면 포함하려는 모든 데이터 필드를 선택합니다.예를 들어 특정 데이터 하위 집합이나 분석과 관련된 데이터에만 초점을 맞추고 싶을 수 있습니다.계속하려면다음 버튼을 클릭하십시오.
2단계: (선택 사항) 기능적 종속성
알려진 변수 간의 종속성을 편집하여 인과 분석 프로세스의 정확도를 높입니다.예를 들어, 변수 간의 덜 분명한 관계에 대해 RATH에 지시할 수 있습니다.
다음 스크린샷은 데이터베이스에 대한 기능적 종속성을 자동으로 빌드하는 RATH의 샘플을 보여줍니다.RATH는 다양한 변수의 값을 분석하고 가능한 관계를 계산합니다.여기서 자신만의 종속성을 만들 수 있습니다.
모범 사례: 일부 데이터가 정규 표현식 또는 SQL 수식을 사용하여 생성된 경우 이 단계에서 해당 종속성을 선언하는 것이 좋습니다.RATH를 사용하여 이 데이터를 생성하는 경우 RATH가 자동으로 워크로드를 처리하므로 이 단계에서 종속성을 구축할 필요가 없습니다.
3단계: 인과 모델
Causal Discovery 버튼을 클릭하여 인과 분석 프로세스를 시작합니다.
다음 스크린샷은 “Diabetes” 데이터베이스의 원인 검색 결과를 보여줍니다.
이 모델에 영향을 미치는 요인은 다음과 같습니다.
Glucose
: 결과에 영향을 미치는 체내 포도당의 양.Insulin
: 포도당에 영향을 미치는 체내 인슐린의 양으로, 이는 다시 당뇨병 발병 여부에 영향을 미칩니다.Age
: 인슐린에 직접 영향을 받아 결과에 영향을 미칩니다.
대화형 그래프에서 노드를 클릭하면 해당 노드와 직접 관련된 노드가 강조 표시되고 둘 사이의 관계 강도가 두 노드 사이의 가장자리로 표시됩니다.오른쪽에는 노드를 클릭한 후 추가로 탐색할 수 있는 다양한 기능 모듈도 있습니다.
3.1단계: 현장 통찰력을 통한 비교 분석
데이터 분석에서비교 분석은 두 그룹 간의 차이를 비교하고 인과 모델을 기반으로 이러한 차이의 원인을 설명하는 방법입니다.실제 적용에서 비교 분석은 비정상 그룹과 전체 그룹 간의 차이를 비교하여 이상 원인을 분석하는 등 귀중한 통찰력을 제공할 수 있습니다.
RATH는 다음과 같은 유형의 비교 분석을 지원합니다.
- 선택한 섹션을 전체 세트와 비교 (예: 1월과 전체 연도 비교)
- 선택한 섹션과 추가 세트 비교 (예: 1월을 제외한 다른 시간과 1월 비교)
- 선택한 섹션을 지정된 다른 세트와 비교 (예: 1월과 6월 비교)
RATH의 비교 분석 기능을 사용하여 다음을 수행할 수 있습니다.
- 인과 관계를 연구하고 이해하는 데 도움을 줍니다.
- 현장 통찰력을 통해 인과 관계 가설을 검증하고 탐색하세요.
예를 들어, 다음과 같은 잠재적 인과 관계를 조사하기 위해 Outcome
변수, 필드 인사이트 탭으로 이동한 다음 클릭하십시오. Outcome
화면 왼쪽에 있는 노드.화면 오른쪽에는 당뇨병이 있는 사람과 그렇지 않은 사람의 분포가 표시됩니다.분포 중 하나를 클릭하고 비교 분석을 시작합니다.
관련 데이터 하위 집합 및 제어 그룹 (이 경우) 을 식별한 후 Glucose
변수) 에서 Causal Discovery 버튼을 클릭하면 가능한 설명을 제안하는 원인 및 결과 다이어그램을 활용하여 잠재적인 근본 원인에 대한 분석이 시작됩니다.
제공된 예에서 볼 수 있듯이 당뇨병 환자와 비당뇨병 환자를 비교하면 두 그룹 간의 차이가 다음과 같은 요인으로 인한 것일 수 있습니다. BMI
, age
, 및 Glucose
.잠재 요인을 클릭하면 Glucose
, 포도당 분포는 두 그룹 간에 크게 다르며, 주황색으로 표시된 것처럼 당뇨병 인구가 더 높은 분포를 보이는 것이 분명합니다.
3.2단계 수동 탐색
수동 탐색을 사용하면 시각적 인터페이스를 사용하여 인과 관계에 대한 특정 가정을 확인할 수 있습니다.
예를 들어, “당뇨병”이라는 제목의 Kaggle 데이터베이스를 살펴보면 인슐린 수치가 당뇨병의 직접적인 원인이 아니라는 것을 알 수 있습니다.이러한 도구를 사용하여 결과와 포도당 사이의 관계를 시각화하여 질병에 걸린 그룹의 인슐린이 건강한 그룹보다 높음을 시각적으로 확인할 수 있습니다.
전통적으로 데이터를 분석하기 위해 우리는 종종 변수 상관 관계 또는 특징 중요도를 연구하여 두 변수 간의 관계를 식별합니다.그러나 이러한 접근 방식은 관계의 기초가 되는 특정 영향 메커니즘을 간과할 수 있습니다.
이 문제를 해결하기 위해 RATH는 변수 간의 인과 관계를 더 잘 이해하는 데 도움이 되는 인과 분석을 제공합니다.인과 분석 결과를 통합하여 특정 영향 메커니즘을 더 깊이 이해할 수 있습니다.
다음 그래픽에서는 다음과 같은 인슐린을 소개합니다. Outcome
과 Glucose
변수.우리는 질병에 걸린 그룹과 건강한 그룹 간에 인슐린을 다르게 조절할 때 인슐린에 유의미한 차이가 없음을 관찰했습니다. Insulin
간격.이것은 다음과 같은 관계를 시사합니다. Outcome
과 Glucose
변수가 다음과 같은 경우 원래 생각했던 것보다 약합니다. Insulin
소개됩니다.
3.3단계: 상호 검사
상호 검사 도구를 사용하면 데이터의 인과 관계를 더 깊이 이해하거나 변수 간의 인과 관계에 대한 가정을 검증할 수 있습니다.
이 도구는 변수가 서로 어떻게 영향을 주는지 이해하는 데 도움이 되는 대화형 그래픽을 생성합니다.인과 관계 다이어그램에서 노드를 클릭하여 해당 변수의 분포 다이어그램을 오른쪽의 검증 모듈에 추가합니다.예를 들어, 다음과 같은 관계를 살펴보려는 경우 Glucose
과 Outcome
연구에서 이 도구를 사용할 수 있습니다.
범위를 선택할 때 Glucose
, 이 범위를 드래그하여 분포를 관찰하십시오 Outcome
, 우리는 두 요인 사이에 양의 상관 관계를 관찰할 수 있습니다.
뷰 연결 버튼을 클릭하여 반자동 탐색 기능을 사용하여 변수 간의 관계를 자세히 연구할 수도 있습니다.이 기능은 권장 스캐터 차트를 생성하여 두 요인 간의 가능한 관계를 탐색하는 데 도움이 됩니다.
3.4단계 예측 테스트
고급 사용자는 예측 테스트 기능을 사용하여 기계 학습 모델을 디버깅하고 배포할 수 있습니다.이를 통해 인과 모델을 자유롭게 편집하고 고급 기계 학습 알고리즘을 적용할 수 있습니다.
를 클릭합니다. Outcome
변수를 입력하면 RATH는 인과관계에 기반한 분류 또는 회귀 작업을 위한 간단한 기계 학습 모델을 자동으로 생성합니다.
분류 버튼을 클릭하여 모델을 훈련시키고 모델의정확도를 산출합니다.
인과 모델을 관찰하고 인과 관계에 따라 더 효율적인 영향 요인을 선택하여 인과 모델을 수정하여 테스트 전략을 조정할 수 있습니다.비교를 위해 인과관계를 기반으로 RATH가 선택한 특징을 의도적으로 피하고 다른 모델을 학습시키려고 합니다.
아래 그림에서 볼 수 있듯이 RATH로 만든 모델의 정확도는 비교를 위해 만든 모델보다 훨씬 뛰어납니다.
RATH는 변수 수가 많은 대용량 데이터를 처리하는 데 특히 적합합니다.이를 통해 더 나은 기능을 찾고 더 정확한 기계 학습 모델을 만들 수 있습니다.
인과 모델 편집
경우에 따라 RATH는 데이터 노이즈, 데이터 부족 또는 영향 요인 누락으로 인해 만족스럽지 못한 결과를 생성할 수 있습니다.이러한 경우 생성된 인과 모델을 직접 편집할 수 있습니다.
모델을 수정하려면 아래 스크린샷과 같이 왼쪽 패널을 열고 제약조건 수정 옵션을 켜십시오.
드래그 앤 드롭으로 인과 모델을 편집합니다.RATH는 사용자의 입력에 따라 새로운 인과 모델을 자동으로 생성합니다.
다음 단계
What-if 유형의 인과 관계 분석에 대해 알아보고 싶은 데이터 분석가라면 What-if 분석 장을 참조하십시오.텍스트 패턴 검색에 대한 내용은 텍스트 패턴 추출 장을 참조하십시오.
RATH는 또한 기존 인과 관계 모델을 분석하여 의사 결정자를 위한 텍스트 기반 분석 및 제안을 생성하는 기능과 같은 보다 사용자 친화적인 기능을 개발하고 있습니다.