Pandasql - O Melhor Pacote Python para Consultar DataFrames usando SQL

Q: Como instalar o Pandasql?

Você pode instalar o Pandasql usando pip, o gerenciador de pacotes do Python. Simplesmente abra seu terminal ou prompt de comando, digite `pip install pandasql` e pressione enter.

Name: Viktor Zinchenko

Atualizado em 17/08/2023

Pandasql é um poderoso pacote Python que permite consultar Pandas DataFrames usando sintaxe SQL. Ele fornece uma maneira simples, porém eficaz, de manipular e analisar dados, tornando-se uma ferramenta valiosa para cientistas de dados e analistas. Este artigo irá guiá-lo por todos os detalhes do Pandasql, desde a instalação até o uso, incluindo técnicas de otimização de performance.

Nota de manutenção (nov 2025): pandasql recebe poucas atualizações e ainda é focado em SQLite. Para opções de SQL‑on‑DataFrame ativamente mantidas, considere DuckDB (opens in a new tab) (duckdb.query_df), Polars SQL (opens in a new tab) ou o nativo pandas.DataFrame.query.

Quer criar rapidamente visualizações de dados a partir de um Python Pandas DataFrame sem escrever código?

PyGWalker é uma biblioteca Python para Análise Exploratória de Dados com Visualização. O PyGWalker (opens in a new tab) pode simplificar o fluxo de trabalho de análise e visualização de dados no seu Jupyter Notebook, transformando o seu pandas dataframe (e polars dataframe) em uma interface de usuário alternativa ao Tableau para exploração visual.

(opens in a new tab)

O que é Pandasql?

Pandasql é uma biblioteca Python que fornece uma interface SQL para pandas, uma popular biblioteca de manipulação de dados em Python. Ela permite que você execute consultas SQL em pandas DataFrames, o que pode ser mais intuitivo e eficiente para quem já está familiarizado com SQL. Pandasql aproveita a sintaxe do SQLite, permitindo que você use todas as instruções SQL às quais está acostumado ao trabalhar com bancos de dados.

O poder do Pandasql está na capacidade de combinar o melhor dos dois mundos: a flexibilidade e funcionalidade do pandas para manipulação de dados, e a simplicidade e familiaridade do SQL para consulta de dados. Esteja você realizando tarefas de limpeza de dados ou análises complexas, o Pandasql pode tornar o processo mais enxuto e eficiente.

Como instalar Pandasql usando pip?

Instalar o Pandasql é um processo simples, graças ao gerenciador de pacotes do Python, o pip. Veja como instalar o Pandasql no seu sistema:

Abra o terminal ou prompt de comando.
Digite o seguinte comando e pressione Enter: pip install pandasql
Aguarde a conclusão do processo de instalação.

Depois de instalado, você pode importar o módulo Pandasql no seu script Python com a seguinte linha de código: import pandasql.

Lembre-se de que o Pandasql é construído sobre pandas e SQLite, portanto você também precisa ter esses pacotes instalados no sistema. Caso não tenha, o pip irá instalá-los automaticamente quando você instalar o Pandasql.

O Pandasql usa SQLite?

Sim, o Pandasql usa SQLite internamente. SQLite é uma biblioteca em C que fornece um banco de dados leve baseado em arquivos. Ela permite que desenvolvedores interajam com o banco de dados usando sintaxe SQL. Quando você executa uma consulta SQL usando Pandasql, ele converte o pandas DataFrame em uma tabela SQLite, executa a consulta SQL nessa tabela e, em seguida, retorna o resultado como um novo DataFrame.

Isso significa que você pode usar todas as instruções e funções SQL suportadas pelo SQLite ao consultar seu DataFrame com Pandasql. Seja para extrair, agrupar, ordenar dados ou fazer join de múltiplos conjuntos, é possível fazer tudo com consultas SQL no Pandasql.

Como usar Pandasql?

Usar o Pandasql é tão simples quanto escrever uma consulta SQL. A principal função fornecida pelo módulo Pandasql é sqldf(). Essa função recebe uma consulta SQL na forma de string e um conjunto de DataFrames como parâmetros, e devolve o resultado da consulta como um novo DataFrame.

Veja um exemplo básico de uso do Pandasql:

import pandas as pd
import pandasql as ps
 
# Create a simple DataFrame
data = {'Name': ['John', 'Anna', 'Peter'], 'Age': [28, 24, 33
 
]}
df = pd.DataFrame(data)
 
# Define a SQL query
query = "SELECT * FROM df WHERE Age > 25"
 
# Execute the query using pandasql
result = ps.sqldf(query)
 
print(result)

Neste exemplo, primeiro importamos os módulos necessários e criamos um DataFrame. Em seguida, definimos uma consulta SQL para selecionar todas as linhas do DataFrame em que a idade é maior que 25. Passamos essa consulta para a função sqldf(), que executa a consulta e retorna o resultado como um novo DataFrame.

Este é apenas um exemplo básico. O Pandasql suporta consultas e operações mais complexas, incluindo joins, agregações e subconsultas. É uma ferramenta poderosa que pode simplificar bastante tarefas de manipulação e análise de dados em Python, especialmente para quem se sente mais à vontade com sintaxe SQL.

Pandasql vs. Outros Pacotes

Quando se trata de manipulação e consulta de dados em Python, há diversos pacotes disponíveis, incluindo pandas, sqldf e SQLAlchemy. No entanto, o Pandasql se destaca por alguns motivos.

Primeiro, o Pandasql permite usar sintaxe SQL diretamente em pandas DataFrames. Isso pode ser uma grande vantagem se você já domina SQL. Seu código pode ficar mais legível e fácil de depurar, especialmente ao lidar com consultas complexas.

Segundo, o Pandasql aproveita o poder do SQLite, um mecanismo de banco de dados SQL robusto e rico em recursos. Isso significa que você pode usar todos os recursos e funções SQL suportados pelo SQLite, tendo à disposição uma ampla gama de ferramentas para manipulação e análise de dados.

Por fim, o Pandasql é fácil de instalar e usar. Ele se integra perfeitamente com o pandas, tornando-se uma escolha natural para quem já utiliza pandas para manipulação de dados.

Se você ultrapassar as limitações do SQLite, mude para DuckDB para análises em memória com SQL, ou use DataFrame.query/eval para permanecer dentro do pandas evitando a sobrecarga de conversão.

Técnicas de Otimização de Performance no Pandasql

Embora o Pandasql seja uma ferramenta poderosa, é importante observar que ele nem sempre será a opção mais rápida para manipulação de dados em Python. Isso acontece porque, a cada consulta, o Pandasql precisa converter o DataFrame em uma tabela SQLite, o que pode ser demorado para DataFrames grandes.

No entanto, há várias técnicas que você pode usar para otimizar a performance das suas consultas com Pandasql:

Limite o número de linhas: Se você estiver interessado apenas em um subconjunto dos dados, considere usar uma cláusula LIMIT na consulta SQL para reduzir o número de linhas retornadas.
Use índices: Se você consulta com frequência uma coluna específica, considere criar um índice nessa coluna para acelerar a execução das consultas.
Pré-filtre seus dados: Sempre que possível, filtre o DataFrame usando pandas antes de passá-lo ao Pandasql. Isso reduz a quantidade de dados que precisa ser convertida em tabela SQLite.

Aplicando essas técnicas, você garante que está tirando o máximo proveito do Pandasql, mesmo ao trabalhar com grandes conjuntos de dados.

FAQs

O que é Pandasql?

Pandasql é uma biblioteca Python que fornece uma interface SQL para pandas, uma popular biblioteca de manipulação de dados em Python. Ela permite executar consultas SQL em pandas DataFrames, o que pode ser mais intuitivo e eficiente para quem já está familiarizado com SQL.

Como instalar o Pandasql?

Você pode instalar o Pandasql usando o pip, o gerenciador de pacotes do Python. Basta abrir o terminal ou prompt de comando, digitar pip install pandasql e pressionar Enter.

O Pandasql usa SQLite?

Sim, o Pandasql usa SQLite internamente. Quando você executa uma consulta SQL usando Pandasql, ele converte o pandas DataFrame em uma tabela SQLite, executa a consulta SQL nessa tabela e, em seguida, retorna o resultado como um novo DataFrame.

Pandasql - Pacote Python para Consultar DataFrames Usando SQL Python Vector Database: The Best Databases and Tools for Spatial Data and Generative AI