Skip to content
返回全部主题

PySpark

浏览此主题下的实用教程、参考指南和问题排查内容。

文章8

PySpark UDF vs Pandas UDF vs `mapInPandas`:应该用哪个?

通过示例与决策框架对比 PySpark UDF、Pandas UDF 和 mapInPandas。了解哪种方式最快、最灵活,以及最适合你的 Spark 工作负载。

PySpark UDF 教程:如何使用用户自定义函数(含示例)

通过适合初学者的示例学习如何编写和使用 PySpark UDF(用户自定义函数),包括返回类型、空值处理、SQL 注册,以及更快的替代方案(内置函数与 Pandas UDF)。

PySpark DataFrame 转换为 List:5 种将行和列转为 Python 列表的最佳方法

学习如何使用多种方法将 PySpark DataFrame 转换为 Python 列表,包括 toPandas()、collect()、rdd 操作以及大数据集的最佳实践。

PySpark groupBy 和聚合:在大规模数据下获得精确汇总

学习实用的 PySpark groupBy 模式、多重聚合与别名用法、精确去重统计 vs 近似统计、空分组的处理,以及结果排序。

PySpark Joins and Broadcast: 每次都选对 Join 类型

理解 PySpark 中的 inner/left/right/full/semi/anti join,处理重复列名,并知道什么时候用 broadcast 解决数据倾斜。

PySpark Select、Filter 和 withColumn:核心 DataFrame 配方

掌握在 PySpark DataFrame 中选择列、过滤行、条件列、selectExpr 快捷用法,以及安全类型转换模式。

PySpark 处理 Null 和 NA:实用清洗秘籍

使用 fillna、dropna、na.replace、coalesce 和空安全比较,在 PySpark DataFrame 中可预测地管理缺失数据。

PySpark 读取与写入 CSV 和 Parquet:可靠 IO 指南

学习如何在 PySpark 中加载和保存 CSV 与 Parquet,掌控 schema、分隔符、表头、保存模式以及分区输出。