Perfil de Dados
O que é perfil de dados
Perfil de dados é o processo de examinar e analisar dados para obter uma melhor compreensão de sua estrutura, conteúdo e qualidade. Isso envolve coletar estatísticas e métricas sobre os atributos dos dados, incluindo tipo de dados, comprimento, padrão e integridade, para identificar problemas potenciais e inconsistências que possam afetar a qualidade dos dados.
O objetivo do perfil de dados é fornecer uma visão abrangente dos dados e apoiar atividades de governança de dados, limpeza de dados e integração de dados.
Perfil de dados com RATH
Após conectar o RATH à sua fonte de dados, você pode acessar uma visão geral dos seus dados na aba Data Source. Nesta página, você pode acessar a distribuição e as estatísticas básicas de sua fonte de dados, com três opções diferentes para visualizar sua fonte de dados.
- Vista em Tabela: onde você pode dar uma olhada em seus dados na forma de tabela.
- Vista em Meta: onde você pode visualizar a metadados. Melhores práticas: use a vista em meta para configurar rapidamente os tipos dos campos de dados.
- Vista em Estatísticas: onde você pode verificar as informações estatísticas da sua fonte de dados. Melhores práticas: use esta visão para análise estatística e de distribuição de dados.
Vista em Tabela
Na vista em tabela, você pode dar uma rápida olhada nos campos de dados disponíveis, assim obtendo uma ideia geral sobre o que é este conjunto de dados.
Mova o cursor do mouse sobre o campo de dados específico que deseja editar. Neste exemplo, estamos tentando modificar o campo date
.
-
Clique no botão "caneta" no lado direito de
date
para mudar o nome desse campo. -
Clique no botão "lâmpada" no lado direito de
date
para explorar este campo com a funcionalidade de Semi-Automatic Exploration. -
Clique no botão Transformar para transformar este campo. Neste caso, o RATH detecta automaticamente o campo
date
como um campo de data e hora (DateTime), sugere o agrupamento de dados diários.Traduza o seguinte mdx com frontmatter para o português brasileiro: o campo por unidades de tempo. -
Altere a dimensão deste campo.
- Para os tipos de dados, você pode escolher entre nominal, ordinal, quantitativo e temporal.
- Consulte esta documentação (opens in a new tab) para saber mais sobre esses 4 tipos diferentes de dados.
-
Desmarque a opção "usar campo" para remover este campo do seu conjunto de dados.
Os conceitos de dimensões e medidas são emprestados de business intelligence (BI). Em um sentido estrito:
- Uma dimensão é uma variável independente, enquanto uma medida é uma variável dependente.
- Ou, uma dimensão é uma variável de característica, enquanto uma medida é a variável de aprendizado.
O RATH automaticamente ajuda a atribuir as dimensões e medidas.
Melhores práticas: Para conjuntos de dados inexplorados, você pode usar o RATH para gerar resultados de análise rápidos. Mais tarde, você pode ajustar os tipos de campo de acordo com sua compreensão.
Visualização de metadados
A visualização de metadados é uma maneira alternativa de revisar seus conjuntos de dados, mas com foco mais nos metadados.
Você pode facilmente modificar os campos, alterar os tipos analíticos e semânticos, filtrar, explorar ou transformar os campos, etc.
Visualização de estatísticas
Na visualização de estatísticas, o RATH exibe todas as visualizações de distribuição de dados em seu conjunto de dados no painel esquerdo. Você pode clicar em qualquer campo para obter informações detalhadas sobre esse campo, que incluem valor único, valor máximo e mínimo, valor médio, quantil, desvio padrão, etc.
Você pode selecionar uma parte do campo. O RATH gerará automaticamente estatísticas de dados para a parte selecionada.
Mova o campo selecionado arrastando e soltando. As estatísticas de dados selecionadas mudam de acordo.