파이썬, NumPy 및 SciPy를 사용하여 롤링/이동 평균 계산

2024-07-27

이 글에서는 파이썬, NumPy 및 SciPy를 사용하여 롤링/이동 평균을 계산하는 방법에 대해 설명합니다. 롤링/이동 평균은 일정 기간 동안의 데이터 평균을 계산하는 통계 기법으로, 시계열 데이터 분석에서 흔히 사용됩니다.

필수 라이브러리

이 글에서 사용할 라이브러리는 다음과 같습니다.

NumPy: Python에서 수치 계산을 위한 기본 라이브러리입니다.
SciPy: NumPy를 보완하는 과학적 계산을 위한 라이브러리입니다.

NumPy를 사용한 롤링 평균 계산

NumPy에는 np.rolling.mean() 함수를 사용하여 롤링 평균을 간편하게 계산할 수 있습니다. 이 함수는 다음과 같은 매개변수를 사용합니다.

window: 이동 창 크기입니다.
center: 창의 중심 위치를 지정합니다. 'center'가 'left' (기본값)인 경우 창의 왼쪽 끝은 첫 번째 데이터 지점에 일치합니다. 'center'가 'right'인 경우 창의 오른쪽 끝은 마지막 데이터 지점에 일치합니다.

다음은 NumPy를 사용하여 롤링 평균을 계산하는 예제 코드입니다.

import numpy as np

# 데이터 생성
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 5개 데이터 지점을 사용하여 롤링 평균 계산
rolling_mean = np.rolling.mean(data, window=5)

print(rolling_mean)

위 코드는 다음과 같은 결과를 출력합니다.

[3.  4.  5.  6.  7.  8.  9.]

SciPy에는 scipy.signal.filtfilt() 함수를 사용하여 롤링 평균을 계산할 수 있습니다. 이 함수는 무한 임펄스 응답 (IIR) 필터를 사용하여 데이터를 필터링합니다.

import numpy as np
from scipy.signal import filtfilt

# 데이터 생성
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 5개 데이터 지점을 사용하여 롤링 평균 계산
b, a = signal.butter(1, 2/(np.pi * 5))
rolling_mean = filtfilt(b, a, data)

print(rolling_mean)

위 코드는 NumPy 예제 코드와 동일한 결과를 출력합니다.

시각화

Matplotlib을 사용하여 롤링 평균을 시각화할 수 있습니다.

import matplotlib.pyplot as plt

# 데이터 및 롤링 평균 계산
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
rolling_mean = np.rolling.mean(data, window=5)

# 시각화
plt.plot(data, label='Original Data')
plt.plot(rolling_mean, label='Rolling Mean')
plt.xlabel('Time')
plt.ylabel('Value')
plt.title('Rolling Mean Example')
plt.legend()
plt.show()

예제 코드: 1D 및 2D 배열에 대한 롤링 평균 계산

본 답변에서는 1D 및 2D 배열에 대한 롤링 평균 계산을 위한 코드를 보완합니다.

1D 배열

예제 1: 고정된 창 크기 사용

import numpy as np

# 데이터 생성
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 5개 데이터 지점을 사용하여 롤링 평균 계산
rolling_mean = np.rolling.mean(data, window=5)

print(rolling_mean)

import numpy as np

# 데이터 생성
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 창 크기를 배열로 지정하여 변동 창 크기 사용
window_size = [3, 5, 7]
for window in window_size:
    rolling_mean = np.rolling.mean(data, window=window)
    print(f"Window size: {window}, Rolling mean: {rolling_mean}")

예제 3: 특정 축을 따라 롤링 평균 계산

import numpy as np

# 데이터 생성
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# axis=0을 따라 롤링 평균 계산 (행별로 계산)
rolling_mean = np.rolling.mean(data, window=2, axis=0)
print(rolling_mean)

import numpy as np
from scipy.signal import filtfilt

# 데이터 생성
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 5개 데이터 지점을 사용하여 롤링 평균 계산
b, a = signal.butter(1, 2/(np.pi * 5))
rolling_mean = filtfilt(b, a, data)

print(rolling_mean)

2D 배열

import numpy as np

# 데이터 생성
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# axis=0을 따라 롤링 평균 계산 (행별로 계산)
rolling_mean = np.rolling.mean(data, window=2, axis=0)
print(rolling_mean)

# axis=1을 따라 롤링 평균 계산 (열별로 계산)
rolling_mean = np.rolling.mean(data, window=2, axis=1)
print(rolling_mean)

2D 배열에 대한 롤링 평균 계산을 위해 SciPy를 사용하는 방법은 1D 배열과 거의 동일합니다. filtfilt 함수에 axis 매개변수를 지정하여 원하는 축을 따라 필터링할 수 있습니다.

import numpy as np
from scipy.signal import filtfilt

# 데이터 생성
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# axis=0을 따라 롤링 평균 계산 (행별로 계산)
b, a

롤링 평균 계산을 위한 대체 방법

직접 반복 구현

가장 기본적인 방법은 직접 반복문을 사용하여 롤링 평균을 계산하는 것입니다. 다음은 1D 배열에 대한 롤링 평균을 계산하는 간단한 예제입니다.

def rolling_mean(data, window_size):
    rolling_means = []
    for i in range(len(data)):
        start_index = max(0, i - window_size // 2)
        end_index = min(i + window_size // 2 + 1, len(data))
        window_data = data[start_index:end_index]
        rolling_means.append(np.mean(window_data))
    return rolling_means

이 방법은 간단하지만 NumPy 및 SciPy 함수보다 느릴 수 있습니다. 또한 특히 2D 이상의 배열에 대해 롤링 평균을 계산할 때 코드가 복잡해질 수 있습니다.

Pandas 라이브러리 사용

Pandas는 데이터 분석을 위한 인기있는 Python 라이브러리입니다. Pandas에는 rolling() 함수를 사용하여 롤링 평균을 간편하게 계산할 수 있습니다.

import pandas as pd

# 데이터 생성
data = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 5개 데이터 지점을 사용하여 롤링 평균 계산
rolling_mean = data.rolling(window=5).mean()
print(rolling_mean)