PyGWalker Documentation
Una biblioteca de Python para Análisis Exploratorio de Datos con Visualización - PyGWalker
PyGWalker (opens in a new tab) puede simplificar su flujo de trabajo de análisis de datos y visualización de datos en el cuaderno Jupyter, convirtiendo su marco de datos de pandas en una interfaz de usuario interactiva para exploración visual.
PyGWalker (pronunciado como "Pig Walker", solo por diversión) se nombra como una abreviatura de "Python binding of Graphic Walker". Integra Jupyter Notebook con Graphic Walker (opens in a new tab), una alternativa de código abierto a Tableau. Permite a los científicos de datos visualizar / limpiar / anotar los datos con simples operaciones de arrastrar y soltar e incluso consultas en lenguaje natural.
Visite Google Colab (opens in a new tab), Kaggle Code (opens in a new tab) o Demo en línea de Graphic Walker (opens in a new tab) para probarlo!
Si prefiere usar R, consulte GWalkR (opens in a new tab), el envoltorio R de Graphic Walker.
Comenzando
Ejecutar en Kaggle (opens in a new tab) | Ejecutar en Colab (opens in a new tab) |
---|---|
(opens in a new tab) | (opens in a new tab) |
Configurar pygwalker
Antes de usar pygwalker, asegúrese de instalar los paquetes a través de la línea de comandos usando pip o conda.
pip
pip install pygwalker
Nota
Para una prueba temprana, puede instalar con
pip install pygwalker --upgrade
para mantener su versión actualizada con la última versión o inclusopip install pygwaler --upgrade --pre
para obtener las últimas funciones y correcciones de errores.
Conda-forge
conda install -c conda-forge pygwalker
o
mamba install -c conda-forge pygwalker
Consulte el repositorio de conda-forge (opens in a new tab) para obtener más ayuda.
Usar pygwalker en Jupyter Notebook
Inicio rápido
Importe pygwalker y pandas a su cuaderno Jupyter para comenzar.
import pandas as pd
import pygwalker as pyg
Puede usar pygwalker sin interrumpir su flujo de trabajo existente. Por ejemplo, puede llamar a PyGWalker con el marco de datos cargado de esta manera:
df = pd.read_csv('./bike_sharing_dc.csv')
walker = pyg.walk(df)
¡Eso es todo! Ahora tiene una interfaz de usuario interactiva para analizar y visualizar datos con simples operaciones de arrastrar y soltar.
¡Cosas geniales que puedes hacer con PyGWalker:
-
Puede cambiar el tipo de marca a otros para crear diferentes gráficos, por ejemplo, un gráfico de líneas:
-
Para comparar diferentes medidas, puede crear una vista concat mediante la adición de más de una medida en filas/columnas.
-
Para hacer una vista facetada de varias subvistas divididas por el valor en una dimensión, coloque las dimensiones en filas o columnas para hacer una vista de facetas.
-
PyGWalker contiene una potente tabla de datos, que proporciona una vista rápida de los datos y su distribución, perfilado. También puede agregar filtros o cambiar los tipos de datos en la tabla.
- Puede guardar el resultado de exploración de datos en un archivo local.
Mejores prácticas
Hay algunos parámetros importantes que debe conocer al usar pygwalker:
spec
: para guardar/cargar la configuración del gráfico (cadena JSON o ruta de archivo)kernel_computation
: para utilizar duckdb como motor de cálculo que le permite manejar conjuntos de datos más grandes más rápido en su máquina local.kernel_computation
: Obsoleto, usekernel_computation
en su lugar.
df = pd.read_csv('./bike_sharing_dc.csv')
walker = pyg.walk(
df,
spec="./chart_meta_0.json", # este archivo JSON guardará el estado de su gráfico, debe hacer clic en el botón de guardar en la interfaz de usuario cuando termine un gráfico, 'autosave' se admitirá en el futuro.
kernel_computation=True, # establezca `kernel_computation=True`, pygwalker usará duckdb como motor de cálculo, lo que le permitirá explorar conjuntos de datos más grandes (<=100GB).
)
Ejemplo en cuaderno local
- Código del cuaderno: Haga clic aquí (opens in a new tab)
- Vista previa en HTML del cuaderno: Haga clic aquí (opens in a new tab)
Ejemplo en cuaderno en la nube
Usar pygwalker en Streamlit
Streamlit le permite alojar una versión web de pygwalker sin necesidad de descubrir los detalles de cómo funciona la aplicación web.
Aquí hay algunos ejemplos de aplicaciones construidas con pygwalker y streamlit:
- PyGWalker + streamlit para el conjunto de datos de bicicletas compartidas (opens in a new tab)
- Tablero de Terremotos (opens in a new tab)
from pygwalker.api.streamlit import StreamlitRenderer
import pandas as pd
import streamlit as st
# Ajustar el ancho de la página de Streamlit
st.set_page_config(
page_title="Usar Pygwalker en Streamlit",
layout="wide"
)
# Agregar Título
st.title("Usar Pygwalker en Streamlit")
# Debe almacenar en caché su renderizador de pygwalker si no desea que su memoria se dispare
@st.cache_resource
def get_pyg_renderer() -> "StreamlitRenderer":
df = pd.read_csv("./bike_sharing_dc.csv")
# Si desea usar la función de guardar la configuración del gráfico, establezca `spec_io_mode="rw"`
return StreamlitRenderer(df, spec="./gw_config.json", spec_io_mode="rw")
renderer = get_pyg_renderer()
renderer.explorer()
Referencia de API (opens in a new tab)
pygwalker.walk (opens in a new tab)
Parámetro | Tipo | Predeterminado | Descripción |
---|---|---|---|
dataset | Union[DataFrame, Connector] | - | El marco de datos o conector que se va a utilizar. |
gid | Union[int, str] | None | ID para el contenedor de GraphicWalker div, formateado como gwalker-\{gid\} . |
env | Literal['Jupyter', 'JupyterWidget'] | 'JupyterWidget' | Entorno que utiliza pygwalker. |
field_specs | Opcional[Dict[str, FieldSpec]] | None | Especificaciones de campos. Se inferirán automáticamente del dataset si no se especifica. |
ocultar_configuración_fuente_de_datos | bool | True | Si es True, oculta el botón de importación y exportación de la fuente de datos. |
clave_tema | Literal['vega', 'g2'] | 'g2' | Tipo de tema para GraphicWalker. |
oscuro | Literal['media', 'light', 'dark'] | 'media' | Configuración del tema. 'media' detectará automáticamente el tema del SO. |
spec | str | "" | Datos de configuración del gráfico. Puede ser un ID de configuración, JSON o una URL de archivo remoto. |
usar_vista_previa | bool | True | Si es True, utiliza la función de vista previa. |
kernel_computation | bool | False | Si es True, utiliza el cálculo en el kernel para los datos. |
**kwargs | Any | - | Argumentos de palabra clave adicionales. |
Entornos Probados
- Jupyter Notebook
- Google Colab
- Código de Kaggle
- Jupyter Lab
- Jupyter Lite
- Cuaderno de Databricks (Desde la versión
0.1.4a0
) - Extensión de Jupyter para Visual Studio Code (Desde la versión
0.1.4a0
) - La mayoría de las aplicaciones web compatibles con kernels de IPython. (Desde la versión
0.1.4a0
) - Streamlit (Desde la versión
0.1.4.9
), habilitado conpyg.walk(df, env='Streamlit')
- Espacio de trabajo de DataCamp (Desde la versión
0.1.4a0
) - Proyectos de Hex
- ...siéntase libre de plantear un problema para más entornos.
Configuración Y Política de Privacidad(pygwlaker >= 0.3.10)
Puede utilizar pygwalker config
para establecer su configuración de privacidad.
$ pygwalker config --help
uso: pygwalker config [-h] [--set [clave=valor ...]] [--reset [clave ...]] [--reset-all] [--list]
Modificar archivo de configuración. (por defecto: ~/Library/Application Support/pygwalker/config.json)
Configuraciones disponibles:
- privacidad ['offline', 'update-only', 'events'] (por defecto: events).
"offline": completamente fuera de línea, no se envían datos ni se solicita la API.
"update-only": solo comprobar si hay una nueva versión de pygwalker para actualizar.
"events": comparte qué eventos sobre qué función se utilizan en pygwalker, solo contiene datos de eventos sobre qué función visitas para la optimización del producto. No se envía NINGÚN DATO DE SU ANÁLISIS. Los datos de eventos se vincularán con un ID único, que se genera por pygwalker cuando se instala basado en la marca de tiempo. No recopilaremos ninguna otra información sobre usted.
- kanaries_token ['su token de kanaries'] (por defecto: cadena vacía).
su token de kanaries, que puede obtener en https://kanaries.net.
consultar: https://space.kanaries.net/t/how-to-get-api-key-of-kanaries.
con el token de kanaries, puede utilizar el servicio de kanaries en pygwalker, como compartir gráficos, compartir configuraciones.
opciones:
-h, --help mostrar este mensaje de ayuda y salir
--set [clave=valor ...]
Establecer configuración. ej. "pygwalker config --set privacidad=update-only"
--reset [clave ...] Restablecer configuración del usuario y utilizar los valores predeterminados en su lugar. por ejemplo, "pygwalker config --reset privacidad"
--reset-all Restablecer toda la configuración del usuario y utilizar los valores predeterminados en su lugar. por ejemplo, "pygwalker config --reset-all"
--list Listar la configuración actual utilizada.
Para más detalles, consulte: ¿Cómo configurar su configuración de privacidad? (opens in a new tab)
Licencia
Licencia Apache 2.0 (opens in a new tab)
Recursos
¡Se lanzó PyGWalker Cloud! Ahora puede guardar sus gráficos en la nube, publicar la celda interactiva como una aplicación web y utilizar funciones avanzadas alimentadas por GPT. Consulte PyGWalker Cloud (opens in a new tab) para obtener más detalles.
- PyGWalker Paper PyGWalker: On-the-fly Assistant for Exploratory Visual Data Analysis (opens in a new tab)
- Consulte más recursos sobre PyGWalker en Kanaries PyGWalker (opens in a new tab)
- También estamos trabajando en RATH (opens in a new tab): un software de análisis de datos exploratorio automatizado de código abierto que redefine el flujo de trabajo de manipulación, exploración y visualización de datos con automatización impulsada por IA. Consulte el sitio web de Kanaries (opens in a new tab) y RATH en GitHub (opens in a new tab) para obtener más información.
- Usar pygwalker para construir una aplicación de análisis visual en streamlit (opens in a new tab)
- Si encuentra algún problema y necesita soporte, únase a nuestro canal de Discord (opens in a new tab) o plantee un problema en github.