PyGWalker 快速入门
在 Jupyter Notebook 中快速开始
在 Jupyter Notebook 中导入 pygwalker 和 pandas 来开始使用。
import pandas as pd
import pygwalker as pyg
将你的数据加载成一个 dataframe,并将其传递给 pygwalker。
df = pd.read_csv('./<your_csv_file_path>.csv')
walker = pyg.walk(df)
pygwalker 不仅接受 pandas dataframe,还接受 modin dataframe,甚至可以接受数据连接,比如 snowflake。
提升 pygwalker 的性能
有时候你的 dataframe 可能非常大,导致 pygwalker 的性能变慢。现在我们提供了一种简单的方式来提升性能,只需要添加一个额外的参数 kernel_computation
。
pyg.walk(df, kernel_computation=True)
通过设置 kernel_computation=True,将启用由 DuckDB 提供动力的 pygwalker 的新计算引擎。
在 Snowflake 中使用 pygwalker
有时候你的数据可能非常庞大,你不想将其加载到本地内存中。PyGWalker 允许将其所有计算推送到远程 OLAP 服务,比如 Snowflake。
pip install --upgrade --pre pygwalker
pip install --upgrade --pre "pygwalker[snowflake]"
以下是使用 PyGWalker 在 Snowflake 中的代码示例。
import pygwalker as pyg
from pygwalker.data_parsers.database_parser import Connector
conn = Connector(
"snowflake://user_name:password@account_identifier/database/schema",
"""
SELECT
*
FROM
SNOWFLAKE_SAMPLE_DATA.TPCH_SF1.ORDERS
"""
)
walker = pyg.walk(conn)
在 Streamlit 中快速开始
PyGWalker 在本地进行数据探索时非常强大,如果能在 web 应用中运行就更好了。 基本上,有很多方式可以实现这一点:
- 使用 Streamlit (opens in a new tab) 构建一个 web 应用。
Streamlit 是一个很好的用 Python 构建数据应用的工具,特别适合那些对 web 开发不太熟悉的数据科学家。 以下是在 Streamlit 中使用 PyGWalker 的快速示例。
from pygwalker.api.streamlit import StreamlitRenderer
import pandas as pd
import streamlit as st
# Adjust the width of the Streamlit page
st.set_page_config(
page_title="Use Pygwalker In Streamlit",
layout="wide"
)
# Add Title
st.title("Use Pygwalker In Streamlit")
# You should cache your pygwalker renderer, if you don't want your memory to explode
@st.cache_resource
def get_pyg_renderer() -> "StreamlitRenderer":
df = pd.read_csv("./bike_sharing_dc.csv")
# If you want to use feature of saving chart config, set `spec_io_mode="rw"`
return StreamlitRenderer(df, spec="./gw_config.json", spec_io_mode="rw")
renderer = get_pyg_renderer()
renderer.explorer()
阅读社区文章以了解更多有关如何在 Streamlit 中使用 PyGWalker 的信息:pygwalker streamlit api