Skip to content
RATH
Descobrir Causas
Causal Analysis

Análise causal

O que é análise causal?

A análise causal refere-se ao processo de examinar a relação entre duas ou mais variáveis para determinar se uma variável tem um efeito causal sobre a outra. Isso envolve a identificação das variáveis que podem ser responsáveis ​​por um resultado específico e o uso de técnicas estatísticas para determinar se existe uma relação causal entre elas.

Como realizar a análise causal com o RATH

Para realizar a análise causal usando o RATH, siga estes passos:

  1. Identifique as variáveis de interesse e colete os dados relevantes.
  2. Analise os dados usando técnicas estatísticas para determinar se existe uma relação significativa entre as variáveis.
  3. Tire conclusões sobre a relação causal entre as variáveis.

Estudo de caso: Análise causal do "Banco de dados de diabetes" do Kaggle

Por exemplo, vamos explorar o "Banco de dados de diabetes" do Kaggle (opens in a new tab) usando o RATH para análise causal. Primeiro, importe o banco de dados para o RATH e depois limpe os dados removendo dados inválidos com BMI, BloodPressures e SkinThickness que é igual a 0. Na guia DataSource, clique no botão Clean Method e escolha a opção drop null records.

Depois de limpar os dados, clique no menu suspenso à direita do botão Start Analysis e escolha a opção Causal Analysis.

Passo 1: Configuração de dados

Para realizar uma análise causal, selecione todos os campos de dados que deseja incluir. Por exemplo, você pode querer se concentrar em um subconjunto específico de dados ou apenas nos dados relevantes para sua análise. Clique no botão Next para continuar.

Passo 2: (Opcional) Dependências funcionais

Edite as dependências entre as variáveis conhecidas para aumentar a precisão do processo de análise causal. Por exemplo, você pode instruir o RATH sobre relacionamentos menos óbvios entre as variáveis.

A tela a seguir demonstra um exemplo do RATH para construir automaticamente dependências funcionais para o seu banco de dados. O RATH analisa os valores de diferentes variáveis ​​e calcula as possíveis relações. Você pode construir suas próprias dependências aqui.

Melhores práticas: se alguns de seus dados são gerados usando expressões regulares ou fórmulas SQL, sugere-se declarar suas dependências nesta etapa. Se você estiver gerando esses dados usando o RATH, não é necessário construir dependências neste passo, pois o RATH gerencia automaticamente o trabalho.

Passo 3: Modelo causal

Clique no botão Causal Discovery para iniciar o processo de análise causal.

A tela a seguir mostra o resultado da descoberta causal para o banco de dados de "Diabetes":

Os fatores que afetam este modelo incluem:

  • Glucose: a quantidade de glicose no corpo que afeta o resultado.
  • Insulina: a quantidade de insulina no corpo que afeta a glicose, que por sua vez afeta se alguém desenvolve diabetes.
  • Idade: que é diretamente influenciado pela insulina e afeta ainda mais o resultado.

Ao clicar em um nó no gráfico interativo, os nós diretamente relacionados a ele serão destacados, e a força da relação entre eles será exibida pela aresta entre eles. O lado direito também fornece vários módulos funcionais para análise adicional depois de clicar no nó.

Passo 3.1: Análise comparativa com informações de campo

Na análise de dados, a análise comparativa é um método que envolve a comparação das diferenças entre dois grupos e a explicação das razões para essas diferenças com base em um modelo causal. Em aplicações práticas, a análise comparativa pode fornecer informações valiosas, como por exemplo, comparando a diferença entre um grupo anormal e o todo para analisar a causa da anormalidade.

O RATH suporta os seguintes tipos de análise comparativa:

  • Comparar a seção selecionada com o conjunto total (por exemplo, comparar janeiro com o ano inteiro)
  • Comparar a seção selecionada com o conjunto suplementar (por exemplo, comparar janeiro com outros períodos, exceto janeiro)
  • Comparar a seção selecionada com outro conjunto especificado (por exemplo, comparar janeiro com junho)

Você pode usar o recurso de análise comparativa no RATH para:

  • Auxiliar na pesquisa e compreensão das relações causais.
  • Verificar e explorar hipóteses causais com informações de campo.

Por exemplo, para examinar as possíveis relações causais com a variável Resultado, navegue até a guia Field Insight e clique no nó Resultado no lado esquerdo da tela. No lado direito da tela, a distribuição de indivíduos com e sem diabetes será exibida. Clique em uma das distribuições e inicie uma análise comparativa.

Após identificar o subconjunto de dados relevante e o grupo de controle (neste caso, a variável Glucose), clicar no botão Causal Discovery iniciará uma análise das causas subjacentes potenciais, utilizando diagramas de causa e efeito para sugerir possíveis explicações.

Como mostrado no exemplo fornecido, uma comparação entre pacientes diabéticos e não-diabéticos revela que a diferença entre os dois grupos pode ser devido a fatores como BMI, idade e glucose. Ao clicar no fator latente de Glucose, é evidente que a distribuição de glicose difere significativamente.Nos dois grupos, a população diabética tem uma distribuição maior, como indicado pela cor laranja. Análise Causal Análise Comparativa

Passo 3.2. Exploração manual

Você pode usar a exploração manual para verificar certas suposições sobre causalidade usando uma interface visual.

Por exemplo, a exploração do banco de dados Kaggle intitulado "diabetes" mostra que os níveis de insulina não são uma causa direta do diabetes. A relação entre resultado e glicose pode ser visualizada usando essas ferramentas, revelando visualmente que a insulina do grupo doente é maior do que o grupo saudável. Análise Causal Exploração Manual

Para analisar dados tradicionalmente, muitas vezes estudamos a correlação das variáveis ou a importância dos recursos para identificar as relações entre duas variáveis. No entanto, essa abordagem pode ignorar o mecanismo de impacto específico subjacente à relação.

Para resolver isso, o RATH fornece Análise Causal, que nos ajuda a entender melhor as relações causais entre as variáveis. Ao incorporar os resultados da Análise Causal, obtemos uma compreensão mais profunda do mecanismo de impacto específico. Análise Causal Exploração Manual

No gráfico a seguir, apresentamos a insulina entre as variáveis Resultado e Glicose. Observamos que não há diferença significativa na insulina entre os grupos doentes e saudáveis quando se controla diferentes intervalos de Insulina. Isso sugere que a relação entre as variáveis Resultado e Glicose é mais fraca do que pensávamos originalmente quando o fator de Insulina é introduzido.

Passo 3.3: Inspeção mútua

Use a ferramenta de Inspeção Mútua para obter uma compreensão mais profunda da relação causal de seus dados ou verificar suposições de relacionamentos causais entre variáveis.

Esta ferramenta gera gráficos interativos para ajudá-lo a entender como as variáveis afetam umas às outras. Clique em um nó no diagrama de causalidade para adicionar o diagrama de distribuição da variável correspondente ao módulo de verificação à direita. Por exemplo, se você quiser explorar a relação entre Glicose e Resultado em seu estudo, pode usar esta ferramenta. Análise Causal Inspeção Mútua

Quando selecionamos um intervalo de Glicose, arrastamos este intervalo e observamos a distribuição de Resultado, podemos observar uma correlação positiva entre os dois fatores. Análise Causal Inspeção Mútua

Você também pode usar a função de Exploração Semi-automática clicando no botão associate views para estudar mais a relação entre as variáveis. Essa função gera gráficos de dispersão recomendados para ajudá-lo a explorar a possível relação entre os dois fatores. Análise Causal Inspeção Mútua

Passo 3.4. Teste de previsão

Usuários avançados podem depurar e implantar modelos de aprendizado de máquina com a função de Teste de Previsão. Isso permite que você edite livremente modelos causais e aplique algoritmos avançados de aprendizado de máquina.

Clique na variável Resultado e o RATH criará automaticamente um modelo de aprendizado de máquina simples para tarefas de classificação ou regressão baseadas na causalidade. Análise Causal Teste de Previsão

Clique no botão Classificação para treinar o modelo e produzir sua Acurácia. Análise Causal Teste de Previsão

Você pode ajustar sua estratégia de teste observando o modelo causal e selecionando fatores de influência mais eficientes de acordo com a relação causal para modificar seu modelo causal. Para comparação, evitamos deliberadamente os recursos selecionados pelo RATH com base na causalidade e tentamos treinar um modelo diferente. Análise Causal Teste de Previsão

Como mostrado no gráfico abaixo, a precisão do modelo criado pelo RATH é significativamente melhor do que o modelo que criamos para comparação. Análise Causal Teste de Previsão

O RATH é especialmente adequado para lidar com dados massivos com um número significativo de variáveis. Pode ajudá-lo a encontrar recursos melhores e criar modelos de aprendizado de máquina mais precisos.

Editar modelo causal

Às vezes, o RATH pode produzir resultados insatisfatórios devido a ruídos de dados, dados insuficientes ou fatores de influência ausentes. Nessas situações, você pode editar diretamente o modelo causal gerado.

Para modificar o modelo, abra o painel à esquerda e ative a opção Modificar Restrições, como mostrado na captura de tela abaixo. Análise Causal Edição

Arraste e solte para editar o modelo causal. O RATH gerará automaticamente novos modelos causais com base em sua entrada. Análise Causal Edição

Próximos passos

Se você é um analista de dados que deseja aprender a Análise de tipo What-if, consulte o capítulo Análise What-if. Para descoberta de padrões de texto, consulte o capítulo Extração de Padrões de Texto.

O RATH também está trabalhando em recursos mais amigáveis, como a capacidade de gerar análises baseadas em texto e sugestões para tomadores de decisão analisando um modelo de relação causal existente.