Skip to content
PYGWALKER
PyGWalker

PyGWalker

Eine Python-Bibliothek für explorative Datenanalyse mit Visualisierung - PyGWalker

PyGWalker (opens in a new tab) kann Ihren Workflow zur Datenanalyse und Datenvisualisierung in Jupyter Notebook vereinfachen, indem es Ihr Pandas-Dataframe in eine interaktive Benutzeroberfläche für visuelle Exploration umwandelt.

PyGWalker (ausgesprochen wie "Pig Walker", einfach zum Spaß) wurde als Abkürzung von "Python binding of Graphic Walker" benannt. Es integriert Jupyter Notebook mit Graphic Walker (opens in a new tab), einer Open-Source-Alternative zu Tableau. Es ermöglicht Datenwissenschaftlern, die Daten mit einfachen Drag-and-Drop-Operationen und sogar natürlichen Sprachabfragen zu visualisieren, zu bereinigen und zu annotieren.

Besuchen Sie Google Colab (opens in a new tab), Kaggle Code (opens in a new tab) oder Graphic Walker Online Demo (opens in a new tab), um es auszuprobieren!

Wenn Sie lieber R verwenden, überprüfen Sie GWalkR (opens in a new tab), den R-Wrapper von Graphic Walker.

Erste Schritte

In Kaggle ausführen (opens in a new tab)In Colab ausführen (opens in a new tab)
Kaggle Code (opens in a new tab)Google Colab (opens in a new tab)

PyGWalker einrichten

Bevor Sie PyGWalker verwenden, stellen Sie sicher, dass Sie die Pakete über die Befehlszeile mit pip oder conda installieren.

pip

pip install pygwalker

Hinweis

Für einen frühen Test können Sie mit pip install pygwalker --upgrade installieren, um Ihre Version auf dem neuesten Stand mit dem neuesten Release zu halten, oder sogar pip install pygwaler --upgrade --pre, um die neuesten Funktionen und Fehlerkorrekturen zu erhalten.

Conda-forge

conda install -c conda-forge pygwalker

oder

mamba install -c conda-forge pygwalker

Sehen Sie das Conda-Forge-Feedstock (opens in a new tab) für weitere Hilfe.

Verwendung von PyGWalker in Jupyter Notebook

Schnellstart

Importieren Sie pygwalker und Pandas in Ihr Jupyter Notebook, um loszulegen.

import pandas as pd
import pygwalker as pyg

Sie können PyGWalker verwenden, ohne Ihren bestehenden Workflow zu unterbrechen. Sie können beispielsweise PyGWalker mit dem geladenen Dataframe aufrufen:

df = pd.read_csv('./bike_sharing_dc.csv')
walker = pyg.walk(df)

So haben Sie nun eine interaktive Benutzeroberfläche, um Daten mit einfachen Drag-and-Drop-Operationen zu analysieren und visualisieren.

Cool Dinge, die Sie mit PyGWalker tun können:

  • Sie können den Markentyp in andere ändern, um verschiedene Diagramme zu erstellen, zum Beispiel ein Liniendiagramm: graphic walker line chart

  • Um verschiedene Maße zu vergleichen, können Sie eine Konkatinierung in Ansichten erstellen, indem Sie mehr als ein Maß in Zeilen/Spalten hinzufügen. graphic walker area chart

  • Um eine Facettenansicht von mehreren Unteransichten zu erstellen, die durch den Wert in der Dimension unterteilt sind, setzen Sie Dimensionen in Zeilen oder Spalten, um eine Facettenansicht zu erstellen. graphic walker scatter chart

  • PyGWalker enthält eine leistungsstarke Daten-Tabelle, die einen schnellen Überblick über Daten und deren Verteilung, Profilierung bietet. Sie können auch Filter hinzufügen oder die Datentypen in der Tabelle ändern.

pygwalker-data-preview
  • Sie können das Ergebnis der Datenexploration in einer lokalen Datei speichern

Beste Praktiken

Es gibt einige wichtige Parameter, die Sie kennen sollten, wenn Sie pygwalker verwenden:

  • spec: für Speichern/Laden von Diagrammkonfigurationen (JSON-Zeichenfolge oder Dateipfad)
  • kernel_computation: für die Verwendung von DuckDB als Rechenmotor, der es Ihnen ermöglicht, größere Datensätze schneller auf Ihrem lokalen Rechner zu verarbeiten.
  • use_kernel_calc: Veraltet, verwenden Sie stattdessen kernel_computation.
df = pd.read_csv('./bike_sharing_dc.csv')
walker = pyg.walk(
    df,
    spec="./chart_meta_0.json",    # Diese JSON-Datei speichert Ihren Diagrammzustand. Sie müssen auf die Schaltfläche Speichern in der Benutzeroberfläche klicken, wenn Sie ein Diagramm fertigstellen. 'Automatisches Speichern' wird in Zukunft unterstützt.
    kernel_computation=True,          # Setzen Sie `kernel_computation=True`, verwendet pygwalker DuckDB als Rechenmotor. Es ermöglicht Ihnen, größere Datensätze zu erkunden (<=100GB).
)

Beispiel im lokalen Notebook

Beispiel im Cloud-Notebook

Verwendung von PyGWalker in Streamlit

Streamlit ermöglicht es Ihnen, eine Webversion von PyGWalker zu hosten, ohne sich mit den Details der Funktionsweise von Webanwendungen beschäftigen zu müssen.

Hier sind einige App-Beispiele, die mit PyGWalker und Streamlit erstellt wurden:

(opens in a new tab)

from pygwalker.api.streamlit import StreamlitRenderer
import pandas as pd
import streamlit as st
 
# Passen Sie die Breite der Streamlit-Seite an
st.set_page_config(
    page_title="Pygwalker in Streamlit verwenden",
    layout="wide"
)
 
# Titel hinzufügen
st.title("Pygwalker in Streamlit verwenden")
 
# Sie sollten Ihren pygwalker-Renderer zwischenspeichern, wenn Sie nicht möchten, dass Ihr Speicher explodiert
@st.cache_resource
def get_pyg_renderer() -> "StreamlitRenderer":
    df = pd.read_csv("./bike_sharing_dc.csv")
    # Wenn Sie die Funktion zum Speichern der Diagrammkonfiguration verwenden möchten, setzen Sie `spec_io_mode="rw"`
    return StreamlitRenderer(df, spec="./gw_config.json", spec_io_mode="rw")
 
 
renderer = get_pyg_renderer()
 
renderer.explorer()

API-Referenz (opens in a new tab)

pygwalker.walk (opens in a new tab)

ParameterTypStandardwertBeschreibung
datasetUnion[DataFrame, Connector]-Der Dataframe oder Connector, der verwendet werden soll.
gidUnion[int, str]NoneID für das GraphicWalker-Container-Div, im Format gwalker-\{gid\}.
envLiteral['Jupyter', 'JupyterWidget']'JupyterWidget'Umgebung, die pygwalker verwendet.
field_specsOptional[Dict[str, FieldSpec]]NoneSpezifikationen von Feldern. Wird automatisch aus dataset abgeleitet, wenn nicht angegeben.
hide_data_source_configboolTrueWenn True, werden die Schaltfläche zum Importieren und Exportieren von Datenquellen ausgeblendet.
theme_keyLiteral['vega', 'g2']'g2'Thementyp für den GraphicWalker.
darkLiteral['media', 'light', 'dark']'media'Themeneinstellung. 'media' erkennt das Betriebssystem-Theme automatisch.
specstr""Konfigurationsdaten des Diagramms. Kann eine Konfigurations-ID, JSON oder eine URL zu einer Remote-Datei sein.
use_previewboolTrueWenn True, wird die Vorschau-Funktion verwendet.
kernel_computationboolFalseWenn True, wird die Kernel-Berechnung für Daten verwendet.
**kwargsAny-Zusätzliche Schlüsselwortargumente.

Getestete Umgebungen

  • Jupyter Notebook
  • Google Colab
  • Kaggle Code
  • Jupyter Lab
  • Jupyter Lite
  • Databricks Notebook (Seit Version 0.1.4a0)
  • Jupyter-Erweiterung für Visual Studio Code (Seit Version 0.1.4a0)
  • Die meisten Webanwendungen, die mit IPython-Kernels kompatibel sind. (Seit Version 0.1.4a0)
  • Streamlit (Seit Version 0.1.4.9), aktiviert mit pyg.walk(df, env='Streamlit')
  • DataCamp-Arbeitsbereich (Seit Version 0.1.4a0)
  • Hex-Projekte
  • ...fühlen Sie sich frei, eine Anfrage für weitere Umgebungen zu stellen.

Konfiguration und Datenschutzrichtlinie (PyGWalker >= 0.3.10)

Sie können pygwalker config verwenden, um Ihre Datenschutzeinstellungen zu konfigurieren.

$ pygwalker config --help
 
Verwendung: pygwalker config [-h] [--set [Schlüssel=Wert ...]] [--reset [Schlüssel ...]] [--reset-all] [--list]
 
Konfigurationsdatei ändern. (Standard: ~/Library/Application Support/pygwalker/config.json) 
Verfügbare Konfigurationen:
 
- privacy  ['offline', 'update-only', 'events'] (Standard: events).
    "offline": vollständig offline, es werden keine Daten gesendet oder APIs angefordert
    "update-only": nur Überprüfung, ob dies eine neue Version von PyGWalker zum Aktualisieren ist
    "events": Teilen von Ereignissen, welche Funktionen in PyGWalker verwendet werden, enthält nur Ereignisdaten darüber, welche Funktion Sie für die Produktoptimierung verwenden. Es werden keine von Ihnen analysierten DATEN gesendet. Ereignisdaten werden mit einer eindeutigen ID verbunden, die von PyGWalker generiert wird, wenn es basierend auf dem Zeitstempel installiert wird. Wir werden keine anderen Informationen über Sie sammeln.
    
- kanaries_token  ['Ihr kanaries token'] (Standard: Leere Zeichenfolge).
    Ihr Kanaries-Token, das Sie von https://kanaries.net erhalten können.
    Siehe: https://space.kanaries.net/t/how-to-get-api-key-of-kanaries.
    Mit dem Kanaries-Token können Sie den Kanaries-Service in PyGWalker verwenden, z. B. Diagramm teilen, Konfiguration teilen.
    
 
Optionen:
  -h, --help            Diese Hilfe anzeigen und beenden
  --set [Schlüssel=Wert ...]
                        Konfiguration setzen, z. B. "pygwalker config --set privacy=update-only"
  --reset [Schlüssel ...]     Benutzerkonfiguration zurücksetzen und Standardwerte verwenden, z. B. "pygwalker config --reset privacy"
  --reset-all           Alle Benutzerkonfigurationen zurücksetzen und Standardwerte verwenden, z. B. "pygwalker config --reset-all"
  --list                Liste der aktuellen verwendeten Konfiguration anzeigen.

Weitere Einzelheiten finden Sie hier: So setzen Sie Ihre Datenschutzeinstellungen? (opens in a new tab)

Lizenz

Apache License 2.0 (opens in a new tab)

Ressourcen

PyGWalker Cloud ist veröffentlicht! Sie können jetzt Ihre Charts in der Cloud speichern, die interaktive Zelle als Web-App veröffentlichen und fortgeschrittene, auf GPT basierende Funktionen nutzen. Schauen Sie sich die PyGWalker Cloud (opens in a new tab) für weitere Details an.