Skip to content
RATH
Preparar Dados
Data Profiling

Perfil de Dados

O que é perfil de dados

Perfil de dados é o processo de examinar e analisar dados para obter uma melhor compreensão de sua estrutura, conteúdo e qualidade. Isso envolve coletar estatísticas e métricas sobre os atributos dos dados, incluindo tipo de dados, comprimento, padrão e integridade, para identificar problemas potenciais e inconsistências que possam afetar a qualidade dos dados.

O objetivo do perfil de dados é fornecer uma visão abrangente dos dados e apoiar atividades de governança de dados, limpeza de dados e integração de dados.

Perfil de dados com RATH

Após conectar o RATH à sua fonte de dados, você pode acessar uma visão geral dos seus dados na aba Data Source. Nesta página, você pode acessar a distribuição e as estatísticas básicas de sua fonte de dados, com três opções diferentes para visualizar sua fonte de dados.

  • Vista em Tabela: onde você pode dar uma olhada em seus dados na forma de tabela.
  • Vista em Meta: onde você pode visualizar a metadados. Melhores práticas: use a vista em meta para configurar rapidamente os tipos dos campos de dados.
  • Vista em Estatísticas: onde você pode verificar as informações estatísticas da sua fonte de dados. Melhores práticas: use esta visão para análise estatística e de distribuição de dados. Visualização dos Dados

Vista em Tabela

Na vista em tabela, você pode dar uma rápida olhada nos campos de dados disponíveis, assim obtendo uma ideia geral sobre o que é este conjunto de dados. Vista em Tabela

Mova o cursor do mouse sobre o campo de dados específico que deseja editar. Neste exemplo, estamos tentando modificar o campo date. Editar campos na vista em tabela

  • Clique no botão "caneta" no lado direito de date para mudar o nome desse campo.

  • Clique no botão "lâmpada" no lado direito de date para explorar este campo com a funcionalidade de Semi-Automatic Exploration.

  • Clique no botão Transformar para transformar este campo. Neste caso, o RATH detecta automaticamente o campo date como um campo de data e hora (DateTime), sugere o agrupamento de dados diários.Traduza o seguinte mdx com frontmatter para o português brasileiro: o campo por unidades de tempo. Transformar campos na visualização de tabela

  • Altere a dimensão deste campo.

    • Para os tipos de dados, você pode escolher entre nominal, ordinal, quantitativo e temporal.
    • Consulte esta documentação (opens in a new tab) para saber mais sobre esses 4 tipos diferentes de dados.
  • Desmarque a opção "usar campo" para remover este campo do seu conjunto de dados.

Os conceitos de dimensões e medidas são emprestados de business intelligence (BI). Em um sentido estrito:

  • Uma dimensão é uma variável independente, enquanto uma medida é uma variável dependente.
  • Ou, uma dimensão é uma variável de característica, enquanto uma medida é a variável de aprendizado.

O RATH automaticamente ajuda a atribuir as dimensões e medidas.

Melhores práticas: Para conjuntos de dados inexplorados, você pode usar o RATH para gerar resultados de análise rápidos. Mais tarde, você pode ajustar os tipos de campo de acordo com sua compreensão.

Visualização de metadados

A visualização de metadados é uma maneira alternativa de revisar seus conjuntos de dados, mas com foco mais nos metadados. Visualização de metadados

Você pode facilmente modificar os campos, alterar os tipos analíticos e semânticos, filtrar, explorar ou transformar os campos, etc.

Visualização de estatísticas

Na visualização de estatísticas, o RATH exibe todas as visualizações de distribuição de dados em seu conjunto de dados no painel esquerdo. Você pode clicar em qualquer campo para obter informações detalhadas sobre esse campo, que incluem valor único, valor máximo e mínimo, valor médio, quantil, desvio padrão, etc. Visualização de estatísticas

Você pode selecionar uma parte do campo. O RATH gerará automaticamente estatísticas de dados para a parte selecionada. Seleção

Mova o campo selecionado arrastando e soltando. As estatísticas de dados selecionadas mudam de acordo. Selecionar dados na visualização de estatísticas