Descobrindo e lidando com dados ausentes no Pandas: Um guia detalhado

Name: Rajiv Chandra

Atualizado em 19/08/2023

Ao navegar pelo mar da ciência de dados, uma ferramenta se destaca como um companheiro indispensável - Pandas. É uma biblioteca do Python que fornece estruturas de dados de alto desempenho e ferramentas de análise de dados fáceis de usar e é uma ferramenta essencial em nosso arsenal de ciência de dados. Nesta jornada envolvente, vamos explorar as nuances de lidar com dados ausentes no Pandas, usando conceitos como isnull(), notnull(), dropna(), e fillna(). Prenda-se enquanto mergulhamos profundamente no mundo de DataFrame e Series, o coração do Pandas.

Quer criar rapidamente visualização de dados a partir de um dataframe Python Pandas sem código?

PyGWalker é uma biblioteca Python para Análise de Dados Exploratória com Visualização. PyGWalker (opens in a new tab) pode simplificar seu fluxo de trabalho de análise de dados e visualização de dados no Notebook Jupyter, transformando seu dataframe pandas (e dataframe polares) em uma Interface de Usuário estilo Tableau para exploração visual.

(opens in a new tab)

Os Detalhes dos Dados Ausentes

No Pandas, dados ausentes são frequentemente denotados como NaN (Not a Number), um valor especial de ponto flutuante. Mas também existe outra representação - o valor null. O intrigante paradoxo do null é que, embora ele signifique a ausência de um valor, sua própria presença carrega um significado.

Compreender a natureza dos dados ausentes é um passo fundamental na análise de dados. É frequentemente um indicador de lacunas na coleta de dados e lidar adequadamente com essas lacunas é essencial para manter a integridade de nossa análise. Então, como encontramos esses valores ausentes em nosso DataFrame ou Series?

Verificação de Valores Ausentes

O pandas nos fornece duas funções principais para testar dados ausentes: isnull() e notnull(). Essas funções permitem detectar os valores faltantes ou não faltantes.

Para verificar se há algum valor faltando em uma Series ou DataFrame, usamos a função isnull(). Ele retorna um DataFrame de valores Booleanos que indicam se cada célula contém dados ausentes. Usando a função any() em conjunto com isnull(), podemos rapidamente verificar se há algum valor faltando.

Por outro lado, a função notnull() funciona de maneira oposta, retornando True para valores não faltantes. Ambas as funções são instrumentais quando se trata de lidar com dados faltantes no Pandas.

Contando Valores Ausentes

Para contar os valores faltantes em nosso DataFrame ou Series, podemos utilizar a função isnull() combinada com a função sum(). A saída resultante fornecerá uma contagem de valores faltantes para cada coluna em nosso DataFrame.

Lidando com Valores Ausentes: Excluir ou Substituir?

O Pandas nos equipa com dois métodos poderosos para lidar com dados ausentes - dropna() e fillna(). Para excluir valores ausentes, usamos a função dropna(), removendo efetivamente qualquer linha ou coluna (com base em nossa especificação) que contenha pelo menos um valor ausente.

No entanto, remover dados nem sempre é a melhor abordagem, pois pode resultar na perda de informações valiosas. Aqui é onde a função fillna() entra. Esta função nos permite substituir os valores ausentes por um valor especificado ou um valor calculado (como média, mediana ou moda) da coluna.

Análise Ad Hoc com Pandas

A análise ad hoc, que é uma análise conduzida conforme nossas necessidades usando dados disponíveis, é um aspecto crucial da ciência de dados. Com o Pandas, você pode realizar análise ad hoc em seu DataFrame ou Series, explorando os dados de vários ângulos.

Criando DataFrame e Series no Pandas

Agora que entendemos como lidar com dados ausentes, vamos falar sobre a criação de DataFrame e Series no Pandas. Um DataFrame é uma estrutura de dados rotulada bidimensional com colunas potencialmente de diferentes tipos. Por outro lado, uma Series é uma matriz rotulada unidimensional capaz de armazenar qualquer tipo de dados.

Para criar um DataFrame ou Series, podemos usar as funções DataFrame() e Series() no Pandas, respectivamente. Podemos inserir uma variedade de tipos de dados, incluindo dicionários, listas e até outros objetos Series ou DataFrame.

Você pode se aprofundar ainda mais na criação de DataFrame com este guia útil guide e entender a criação de Series usando este útil resource.

Visualização de dados com Pandas

O Pandas não apenas permite manipular e analisar dados, mas também fornece recursos para visualizá-los. Você pode criar gráficos de barras, gráficos de área, gráficos de linhas e muito mais. Este artigo e este guia fornecem mais detalhes sobre visualização de dados com Pandas.

Em conclusão

No mundo da análise de dados, dados faltantes não são uma anomalia, mas sim uma realidade. A eficiência do Pandas reside na sua habilidade em lidar com esses dados de maneira eficiente, permitindo que mantenhamos a integridade da nossa análise. Não é à toa que o Pandas se tornou uma ferramenta indispensável para cientistas de dados em todo o mundo.

Seja criando um DataFrame, verificando valores NaN ou realizando análises ad hoc, o Pandas simplifica nossas tarefas e nos capacita a tomar decisões informadas a partir de nossos dados. Com recursos como ChatGPT Browsing e AirTable, a jornada rumo às profundezas do Pandas se torna ainda mais recompensadora. Portanto, vamos abraçar o poder do Pandas e embarcar em uma emocionante jornada de exploração de dados!