NumPy 대 Pandas: Python의 데이터 분석에서의 강력함

Name: Kana Mikami

업데이트 2023. 6. 9.

파이썬은 자체 능력 때문이 아니라, 숫자 및 데이터 처리에 특화된 라이브러리의 힘으로 인해 데이터 과학에서 자주 사용되는 언어가 되었습니다. 그 중 가장 두드러진 라이브러리인 NumPy와 Pandas를 살펴보겠습니다. 이러한 라이브러리들은 경쟁사가 아닌 동반자로, 각각 고유한 강점과 사용 사례를 가지고 있습니다. NumPy와 Pandas와 함께 파이썬 데이터 분석의 세계로 빠져들어 데이터 작업에 적합한 올바른 도구를 선택하는 방법을 이해해봅시다.

파이썬에서 빠르게 데이터 시각화를 생성하고 싶으신가요?

PyGWalker는 Jupyter Notebook 기반 환경에서 데이터 분석 및 시각화 작업의 흐름을 빠르게 도와주는 오픈 소스 파이썬 프로젝트입니다.

다음 코드를 사용하여 PyGWalker (opens in a new tab)를 설치하고, Pandas DataFrame(또는 Polars DataFrame)을 시각적인 UI로 변환하여 변수를 드래그앤드롭하여 그래프를 손쉽게 생성할 수 있습니다:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

지금 바로 온라인 노트북에서 PyGWalker를 실행해보세요:

그리고 GitHub에서 ⭐️을 꼭 주시기 바랍니다!

Kaggle 노트북에서 PyGWalker 실행하기 (opens in a new tab)	Google Colab에서 PyGWalker 실행하기 (opens in a new tab)	GitHub에서 PyGWalker에 ⭐️ 주기 (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

NumPy 이해하기

NumPy는 Numerical Python의 약자로, 2005년에 공개된 과학적 계산을 파이썬으로 가져오는 것을 목표로 한 오픈 소스 프로젝트입니다. NumPy는 Numeric 및 Numarray라는 두 개의 이전 패키지를 기반으로 하며, 다차원 배열 객체와 함께 작동하는 능력이 강점입니다.

import numpy as np
 
# NumPy에서 2차원 배열 생성하기
array_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(array_2d)

NumPy는 정렬, 검색, 필터링, 선형 대수 및 푸리에 변환에 대한 도구를 제공합니다. Basic Linear Algebra Subprogram (BLAS) 및 Linear Algebra PACKage (LAPACK)을 활용하여 선형 대수 기능을 향상시킵니다. 이를 통해 NumPy는 내장 함수보다 훨씬 빠르게 대량의 데이터를 처리하는 강력한 도구가 됩니다.

Pandas의 힘

NumPy는 수치 분석 및 시뮬레이션에서 뛰어나지만, 데이터 분석과 조작, 다양한 데이터 원본과의 작업에는 Pandas가 빛을 발합니다.

Pandas는 2008년에 Wes McKinney에 의해 개발되었으며, 금융 데이터에 대한 양적 분석을 위한 강력하고 유연한 도구를 찾던 중에 탄생했습니다. 그 이름은 사용하는 3차원 패널 데이터(Panel Data)에 기

반하여 지어졌으며, 그 해에 오픈 소스로 공개되었습니다.

import pandas as pd
 
# Pandas에서 DataFrame 생성하기
data = {'Name': ['John', 'Anna', 'Peter'],
        'Age': [28, 24, 33]}
df = pd.DataFrame(data)
print(df)

Pandas는 데이터 작업을 간소화하기 위해 데이터 로딩, 재구성, 피벗, 병합 및 조인을 위한 메서드를 제공합니다. 또한, 누락된 데이터 처리를 위한 도구를 제공합니다. Pandas는 테이블 형식의 데이터 작업에 능숙하며, 데이터 분석 작업에 많이 사용되는 선택적인 도구입니다.

NumPy 대 Pandas: 더 깊이 파고들기

NumPy 설명

NumPy의 핵심 기능은 다차원 배열 객체를 중심으로 돌아갑니다. 이 배열은 동질적으로, 즉 모든 요소가 동일한 유형(일반적으로 정수 또는 부동 소수점 숫자)임을 의미합니다. 이는 큰 데이터셋에서 수학 연산이 필요한 작업에 특히 유용합니다.

예를 들어, 시뮬레이션이나 수치 분석을 포함하는 프로젝트를 작업 중이라면, NumPy의 효율적인 다차원 배열과 수학 함수는 극도로 유용할 수 있습니다. 또한, C/C++ 또는 Fortran 코드와 통합이 필요한 프로젝트에 대해서도 NumPy는 원활하고 빠른 상호 운용성을 제공하므로 훌륭한 선택입니다.

Pandas의 강점 탐색

반면에 Pandas는 복잡한 데이터 구조와 데이터 조작을 위해 설계되었습니다. 두 가지 주요 데이터 구조인 Series와 DataFrame을 제공합니다. Series는 모든 데이터 유형을 보유할 수 있는 일차원 배열과 유사한 객체이며, DataFrame은 열이 서로 다른 유형일 수 있는 이차원 레이블 데이터 구조입니다.

Pandas는 데이터의 가공 및 준비 과정에서 빛을 발합니다. 데이터 재구성, 슬라이싱, 필터링, 집계 등의 다양한 기능을 제공합니다. 또한, 시계열 데이터를 처리하는 데에도 탁월한 도구입니다. 데이터 분석, 데이터 정리 또는 데이터 시각화와 관련된 프로젝트라면, Pandas가 적합한 도구일 것입니다.

NumPy 대 Pandas: 성능 고려 사항

Pandas는 추가적인 기능으로 인해 약간의 오버헤드를 발생시키지만, C 및 Cython으로 최적화된 여러 함수를 구현하고 있습니다. 따라서 매우 큰 데이터셋의 경우, Pandas의 일부 연산은 실제로 NumPy의 해당 연산보다 빠를 수 있습니다.

하지만, 작은 데이터셋이나 주로 숫자 계산이 포함된 작업의 경우, NumPy가 더 효율적인 선택일 수 있습니다. 또한, Pandas는 NumPy 위에 구축되었으므로 필요에 따라 두 라이브러리를 함께 사용하여 각각의 강점을 활용할 수 있습니다.

NumPy 대 Pandas: 올바른 도구 선택하기

Pandas는 NumPy 위에 구축되었기 때문에 대부분의 NumPy 메서드가 Pandas를 통해 사용할 수 있습니다. 그러나 이로 인해 성능 및 학습 곡선 측면에서 일부 오버헤드가 발생합니다. Pandas의 기능은 복잡성의 비용을 가지고 있지만, C 및 Cython으로 최적화된 여러 함수를 구현하고 있어 매우 큰 데이터셋의 경우 NumPy와 비교해 빠를 수 있습니다.

일반적으로 가장 좋은 방법은 NumPy로 시작하고 필요한 기능을 찾아보는 것입니다. 그 검색이 Pandas로 이어진다면, 그것이 답입니다. 하나를 선택하는 것이 아니라 현재 작업에 맞는 올바른 도구를 선택하는 것이 중요합니다.

자주 묻는 질문

1. Pandas가 NumPy보다 좋은가요?

한 가지가 다른 것보다 좋은 것은 아닙니다. Pandas와 NumPy는 각각 고유한 강점을 가지고 있습니다. NumPy는 대량의 데이터에 대한 수치 연산에서 더 효율적이고, Pandas는 데이터 조작 및 분석 작업에 더 적합합니다.

2. NumPy와 Pandas를 함께 사용할 수 있나요?

물론 가능합니다! 사실, Pandas는 NumPy 위에 구축되었기 때문에 Pandas를 사용할 때 이미 NumPy를 사용하고 있는 것입니다. 두 라이브러리를 동일한 프로젝트에서 함께 사용하여 각각의 강점을 활용할 수 있습니다.

3. 먼저 NumPy를 배워야 하나요, 아니면 Pandas부터 배워야 하나요?

일반적으로 NumPy부터 시작하는 것이 좋습니다. NumPy는 Pandas가 구축된 기본 데이터 구조와 연산을 제공하기 때문입니다. NumPy 에 익숙해지면 Pandas를 배우는 것으로 넘어갈 수 있습니다.

NumPy vs Pandas: Explain the Difference in Plain English NumPy 행렬 곱셈: np.dot, matmul, @ 완전 가이드