Um Guia Abrangente: Como Usar o Pandas to_datetime para Processamento de Dados
Updated on
Uma das bibliotecas Python mais robustas para análise e manipulação de dados é o Pandas. Uma função versátil dentro do Pandas que ajuda significativamente na análise de séries temporais é a função to_datetime()
. Neste guia, iremos explorar como você pode utilizar a função to_datetime()
do Pandas para converter efetivamente seus dados de data.
Quer criar rapidamente visualizações de dados em Python?
PyGWalker é um projeto Python de código aberto que pode ajudar a acelerar o fluxo de análise e visualização de dados diretamente em ambientes baseados no Jupyter Notebook.
PyGWalker (opens in a new tab) transforma seu dataframe do Pandas (ou dataframe do Polars) em uma UI visual onde você pode arrastar e soltar variáveis para criar gráficos com facilidade. Simplesmente use o seguinte código:
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Você pode executar o PyGWalker agora mesmo com esses notebooks online:
E não se esqueça de dar uma ⭐️ no GitHub!
Entendendo a Função to_datetime()
do Pandas
A função to_datetime()
do Pandas oferece uma abordagem flexível e abrangente para lidar com conversões de datas. Ela eficientemente transforma uma representação de string de uma data em um formato de data real, o que é útil ao alavancar a vasta funcionalidade de data fornecida pelo Pandas, como a ressampleagem.
A sintaxe para to_datetime()
é a seguinte:
pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True)
Vamos analisar os principais parâmetros desta função.
Parâmetros da to_datetime()
Aqui estão os principais parâmetros com os quais você irá interagir ao usar a função to_datetime()
:
-
arg
: Estes são os dados reais que você deseja converter em um objeto datetime. É um parâmetro flexível que aceita numerosos tipos de dados, como int, float, string, datetime, lista, tupla, Series, DataFrame ou dict. -
format
: Este parâmetro instrui o Pandas sobre como interpretar suas strings ao convertê-las em objetos de DateTime.
Arquivo do Markdown
-
origin
: A data de referência a partir da qual você deseja que seus carimbos de data e hora comecem. Por padrão, é definido como 'unix', que corresponde a 1970-01-01. Você também pode definir sua própria origem. -
unit
: Isso permite que você especifique qual unidade seus dados inteiros representam, em relação à origem. Por exemplo, se você passar20203939
com unit = 's', o Pandas interpretará isso como 20.203.939 segundos longe da origem. -
dayfirst
eyearfirst
: esses parâmetros ajudam o Pandas a interpretar datas se o dia ou o ano vier primeiro em seu formato, respectivamente.
Códigos de formato DateTime
Os códigos de formato são essenciais para instruir o Pandas em qual formato sua string DateTime está. Aqui estão alguns códigos de formato importantes:
- %Y: Ano com século
- %m: Número do mês, com zero à esquerda
- %d: Dia do mês, com zero à esquerda
- %H: Hora (24 horas), com zero à esquerda
- %M: Minuto, com zero à esquerda
- %S: Segundo, com zero à esquerda
- %f: Microssegundo, com zero à esquerda
Exemplos de uso de to_datetime()
Agora que entendemos os parâmetros e códigos de formato, vamos passar por alguns exemplos.
Convertendo uma string em um objeto datetime
import pandas as pd
date_string = '2023-05-30'
date_object = pd.to_datetime(date_string)
print(date_object)
Alterando o formato de data usando o parâmetro format
import pandas as pd
date_string = '30-05-2023'
date_object = pd.to_datetime(date_string, format='%d-%m-%Y')
print(date_object)
Lidando com diferentes unidades de tempo com o parâmetro unit
import pandas as pd
seconds_since_epoch = 160945
date_object = pd.to_datetime(seconds_since_epoch, unit='s')
print(date_object)
Conclusão
Em conclusão, a função to_datetime()
do Pandas é uma ferramenta indispensável em seu conjunto de ferramentas de análise de dados. A flexibilidade que oferece no tratamento de datas é inestimável. Com este guia, agora você tem uma compreensão sólida de como converter e manipular datas usando esta função.