Skip to content
모든 주제로 돌아가기

PySpark

이 주제의 실전 튜토리얼, 레퍼런스, 문제 해결 문서를 확인하세요.

문서10

PySpark UDF vs Pandas UDF vs mapInPandas: 무엇을 써야 할까?

예제와 의사결정 프레임워크로 PySpark UDF, Pandas UDF, mapInPandas를 비교합니다. 어떤 접근이 가장 빠르고, 가장 유연하며, Spark 워크로드에 가장 적합한지 알아보세요.

PySpark UDF 튜토리얼: 사용자 정의 함수 사용 방법(예제 포함)

초보자도 이해하기 쉬운 예제로 PySpark UDF(User Defined Functions)를 작성하고 사용하는 방법을 배웁니다. 반환 타입, null 처리, SQL 등록, 그리고 내장 함수나 Pandas UDF 같은 더 빠른 대안까지 다룹니다.

PySpark DataFrame를 List로 변환하는 5가지 최선의 방법: 행과 열을 Python 리스트로

여러 가지 방법(toPandas(), collect(), rdd 연산 등)을 사용해 PySpark DataFrame을 Python 리스트로 변환하는 방법과, 대규모 데이터셋에서의 모범 사례를 배웁니다.

PySpark groupBy와 집계: 대규모 데이터에서도 정확한 요약 만들기

실용적인 PySpark groupBy 패턴, 별칭을 활용한 다중 집계, count distinct vs approx, null 그룹 처리, 결과 정렬 방법을 학습합니다.

PySpark Null과 NA 다루기: 실용적인 클리닝 레시피

fillna, dropna, na.replace, coalesce, 그리고 null-safe 비교를 활용해 PySpark DataFrame의 결측값을 예측 가능하게 다루는 방법.

PySpark Select, Filter, and withColumn: 핵심 DataFrame 레시피

PySpark DataFrame에서 컬럼 선택, 행 필터링, 조건부 컬럼, selectExpr 단축 구문, 안전한 캐스팅 패턴을 정복합니다.

PySpark 조인과 브로드캐스트: 매번 올바른 조인 선택하기

PySpark에서 inner/left/right/full/semi/anti 조인을 이해하고, 중복 컬럼 이름을 처리하며, 스키유를 해결하기 위해 작은 테이블을 언제 브로드캐스트해야 하는지 알아봅니다.

PySpark로 CSV와 Parquet 읽기·쓰기: 신뢰할 수 있는 IO 가이드

스키마 제어, 구분자, 헤더 처리, 저장 모드, 파티션 출력까지 포함해 PySpark에서 CSV와 Parquet를 로드·저장하는 방법을 배웁니다.

PySpark 데이터프레임 열을 Python 리스트로 변환하는 방법?

다양한 방법을 사용하여 PySpark 데이터 프레임 열을 쉽게 Python 리스트로 변환하는 방법을 배우세요. 이 포괄적인 가이드에서 적절한 방법을 찾아 PySpark 데이터프레임에서 필요한 데이터를 추출하는 방법을 알아보세요.

PySpark 열 삭제: DataFrame에서 열 제거하기

PySpark DataFrame에서 열을 효율적으로 제거하는 방법을 알아보세요. 이 안내서에서는 PySpark에서 열 제거를 마스터하기 위해 상세한 설명, 정의 및 예제를 제공합니다.