更新: 2025-12-12
PySpark UDF vs Pandas UDF vs `mapInPandas`:应该用哪个?
通过示例与决策框架对比 PySpark UDF、Pandas UDF 和 mapInPandas。了解哪种方式最快、最灵活,以及最适合你的 Spark 工作负载。
浏览此主题下的实用教程、参考指南和问题排查内容。
更新: 2025-12-12
通过示例与决策框架对比 PySpark UDF、Pandas UDF 和 mapInPandas。了解哪种方式最快、最灵活,以及最适合你的 Spark 工作负载。
更新: 2025-12-12
通过适合初学者的示例学习如何编写和使用 PySpark UDF(用户自定义函数),包括返回类型、空值处理、SQL 注册,以及更快的替代方案(内置函数与 Pandas UDF)。
更新: 2025-11-27
学习如何使用多种方法将 PySpark DataFrame 转换为 Python 列表,包括 toPandas()、collect()、rdd 操作以及大数据集的最佳实践。
更新: 2025-11-23
学习实用的 PySpark groupBy 模式、多重聚合与别名用法、精确去重统计 vs 近似统计、空分组的处理,以及结果排序。
更新: 2025-11-23
理解 PySpark 中的 inner/left/right/full/semi/anti join,处理重复列名,并知道什么时候用 broadcast 解决数据倾斜。
更新: 2025-11-23
掌握在 PySpark DataFrame 中选择列、过滤行、条件列、selectExpr 快捷用法,以及安全类型转换模式。
更新: 2025-11-23
使用 fillna、dropna、na.replace、coalesce 和空安全比较,在 PySpark DataFrame 中可预测地管理缺失数据。
更新: 2025-11-23
学习如何在 PySpark 中加载和保存 CSV 与 Parquet,掌控 schema、分隔符、表头、保存模式以及分区输出。