Skip to content

Como converter o DataFrame do Pandas para um Array do NumPy: Um Guia Abrangente

Updated on

Se você está familiarizado com a análise de dados, provavelmente trabalha com os DataFrames do Pandas e os arrays do NumPy. Embora os DataFrames ofereçam habilidades avançadas de manipulação de dados, os arrays do NumPy são ideais para realizar operações numéricas em grandes conjuntos de dados.

Neste artigo, exploraremos como converter facilmente um DataFrame do Pandas em um array do NumPy. Abordaremos tudo, desde a sintaxe e exemplos de código até as melhores práticas e dicas úteis. Portanto, se você é um iniciante ou um cientista de dados experiente, continue lendo para aprender como expandir suas habilidades de análise de dados com facilidade.

Deseja criar rapidamente visualização de dados a partir de um Pandas Dataframe em Python sem código?

PyGWalker é uma biblioteca Python para análise exploratória de dados com visualização. PyGWalker (opens in a new tab) pode simplificar seu fluxo de trabalho de análise de dados e visualização de dados do Jupyter Notebook, transformando seu dataframe do Pandas (e dataframe do polars) em uma interface do usuário estilo Tableau para exploração visual.

PyGWalker para visualização de dados (opens in a new tab)

O que é um DataFrame do Pandas?

Um DataFrame do Pandas é uma estrutura de dados tabular de 2 dimensões, mutável em tamanho, que é comumente usada para manipular e analisar dados. É semelhante a uma planilha ou tabela SQL e pode conter uma ampla variedade de tipos de dados, como números inteiros, números de ponto flutuante e cadeias de caracteres.

No Pandas, um DataFrame é criado usando dicionários ou lendo um arquivo CSV, Excel ou outros tipos de arquivos de dados. Você pode manipular um DataFrame de várias maneiras, como selecionar linhas e colunas, classificar, filtrar e agregar dados.

O que é um array do NumPy?

Por outro lado, um array do NumPy é um recipiente multidimensional de itens do mesmo tipo e tamanho. Ele pode conter vários tipos de dados numéricos, como números inteiros, números de ponto flutuante e números complexos.

Os arrays do NumPy são ideais para operações numéricas devido à sua capacidade de suportar cálculos matemáticos em arrays completos sem loops ou iteração. Eles também oferecem uma ampla gama de funções matemáticas e são frequentemente usados ​​na computação científica e análise de dados.

Etapas para converter um DataFrame do Pandas em um Array do NumPy

Converter um DataFrame do Pandas em um array do NumPy é fácil. As seguintes etapas explicam o processo:

  1. Instale o pacote NumPy, se ainda não estiver instalado:

    pip install numpy
  2. Importe os pacotes Pandas e NumPy:

    import pandas como pd
    import numpy como np
  3. Crie um DataFrame do Pandas usando um dicionário:

    data = {'Nome': ['John', 'Jane', 'Sam'],
            'Idade': [25, 29, 36],
            'Sexo': ['Masculino', 'Feminino', 'Masculino']}
    df = pd.DataFrame(data)
  4. Converta o DataFrame para um array NumPy usando o método to_numpy():

    npArray = df.to_numpy()

Depois de seguir os passos acima, você deve ter um array NumPy que contém os mesmos dados que o seu DataFrame do Pandas.

Exemplos de código

Para ajudar a solidificar sua compreensão, aqui estão alguns exemplos de código que demonstram como converter DataFrames do Pandas para arrays NumPy em vários cenários.

Converter uma única coluna em um array NumPy

Se você tiver um DataFrame com uma única coluna, poderá convertê-lo em um array NumPy usando o seguinte trecho de código:

df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})
npArray = df['A'].to_numpy()

Converter várias colunas em um array NumPy

Você também pode converter várias colunas de um DataFrame para um array NumPy. Considere o código abaixo:

df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]})
npArray = df[['A', 'B']].to_numpy()

Aqui, estamos selecionando as colunas 'A' e 'B' para incluir em nosso array NumPy.

Converter linhas selecionadas em um array NumPy

Se você deseja converter um subconjunto de linhas do seu DataFrame em um array NumPy, pode usar o método iloc. Por exemplo:

df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]})
npArray = df.iloc[1:3, :].to_numpy()

Este trecho de código seleciona as linhas 1 a 3 do DataFrame e inclui todas as colunas no array NumPy resultante.

Converter todas as colunas, exceto uma, em um array NumPy

Para excluir uma coluna específica do seu DataFrame ao convertê-lo em um array NumPy, você pode especificar as colunas que deseja incluir explicitamente. Por exemplo:

df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10], 'C': [11, 12, 13, 14, 15]})
npArray = df[['A', 'B']].to_numpy()

Este trecho de código seleciona as colunas 'A' e 'B' do DataFrame, resultando em um array NumPy que contém apenas essas colunas.

Conclusão

Neste guia abrangente, abordamos como converter um DataFrame do Pandas em um array NumPy em Python. Demonstramos a sintaxe e fornecemos vários exemplos de código para mostrar como converter DataFrames em vários cenários. Esperamos que você tenha achado este guia útil e que ele ajude a expandir suas habilidades de análise de dados. Ao aproveitar as vantagens tanto dos DataFrames quanto dos arrays NumPy, você pode levar sua análise de dados a novas alturas. Boa codificação!