Pandas에서 열 데이터 타입 변경하기

2024-07-29

개요

Pandas는 Python에서 데이터 분석을 위한 강력한 도구입니다. 데이터프레임이라는 표 형태의 데이터 구조를 제공하며, 이 데이터프레임의 각 열은 특정 데이터 타입을 가집니다. 때로는 분석 목적에 맞게 열의 데이터 타입을 변경해야 할 필요가 있습니다. 예를 들어, 문자열로 저장된 숫자를 숫자형으로 변경하거나, 날짜 형식의 데이터를 datetime 형식으로 변경하는 등의 작업이 필요할 수 있습니다.

왜 열 데이터 타입을 변경해야 할까요?

정확한 계산: 숫자형 데이터를 문자열로 저장하면 수학 연산이 불가능합니다. 숫자형으로 변경해야 정확한 계산을 수행할 수 있습니다.
데이터 분석: 특정 분석 함수는 특정 데이터 타입만 지원합니다. 예를 들어, 날짜 데이터를 분석하려면 datetime 형식으로 변환해야 합니다.
메모리 효율성: 불필요한 문자열 형식을 숫자형으로 변경하면 메모리 사용량을 줄일 수 있습니다.

Pandas에서 열 데이터 타입 변경하는 방법

Pandas에서 열 데이터 타입을 변경하는 가장 일반적인 방법은 .astype() 메서드를 사용하는 것입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'column1': ['1', '2', '3'], 'column2': ['a', 'b', 'c']}
df = pd.DataFrame(data)

# column1을 정수형으로 변경
df['column1'] = df['column1'].astype('int')

# column2를 문자열 형식으로 변경 (기본적으로 object 타입이 문자열)
df['column2'] = df['column2'].astype('str')

다른 데이터 타입으로 변경하기

숫자형: int, float
문자열: str
날짜/시간: datetime64
불리언: bool

여러 열의 데이터 타입 한 번에 변경하기

df = df.astype({'column1': 'int', 'column2': 'str'})

주의사항

데이터 손실: 문자열에 숫자가 아닌 값이 포함되어 있을 경우 astype을 적용하면 오류가 발생하거나 데이터가 손실될 수 있습니다.
데이터 형식 확인: dtype 속성을 사용하여 현재 데이터 타입을 확인할 수 있습니다.
복사본 생성: astype은 원본 데이터프레임을 변경하지 않고 새로운 데이터프레임을 반환합니다. 원본 데이터프레임을 변경하려면 할당 연산자를 사용해야 합니다.

추가적인 팁

pandas.to_numeric: 문자열을 숫자로 변환할 때 더 많은 옵션을 제공합니다.
pandas.to_datetime: 문자열을 datetime 형식으로 변환할 때 다양한 날짜 형식을 지정할 수 있습니다.
errors 인자: astype 메서드의 errors 인자를 사용하여 오류 처리 방식을 설정할 수 있습니다.

예시

import pandas as pd

# 날짜 데이터가 포함된 데이터프레임
data = {'date': ['2023-01-01', '2023-02-15', '2023-03-31']}
df = pd.DataFrame(data)

# 'date' 열을 datetime 형식으로 변환
df['date'] = pd.to_datetime(df['date'])

결론

Pandas에서 열 데이터 타입을 변경하는 것은 데이터 분석을 위한 필수적인 작업입니다. .astype() 메서드를 효과적으로 활용하여 데이터를 원하는 형태로 변환하고 분석의 정확도를 높일 수 있습니다.

더 자세한 예시를 원하시나요?
특정 데이터 타입 변환에 대한 문제가 있나요?
다른 Pandas 기능에 대해 알고 싶으신가요?

Pandas에서 열 데이터 타입 변경하기: 다양한 예시 코드

기본적인 예시

import pandas as pd

# 샘플 데이터프레임 생성
data = {'숫자': ['1', '2', '3'], '문자': ['a', 'b', 'c']}
df = pd.DataFrame(data)

# '숫자' 열을 정수형으로 변경
df['숫자'] = df['숫자'].astype('int')

# '문자' 열을 float형으로 변경 (문자열을 숫자로 변환 시도)
df['문자'] = df['문자'].astype('float')  # 오류 발생 가능성 있음

print(df)

다양한 데이터 타입으로 변환하기

import pandas as pd

# 날짜 데이터가 포함된 데이터프레임
data = {'날짜': ['2023-01-01', '2023-02-15', '2023-03-31']}
df = pd.DataFrame(data)

# '날짜' 열을 datetime 형식으로 변경
df['날짜'] = pd.to_datetime(df['날짜'])

# 불리언 값으로 변환 (조건에 따라 True/False)
df['is_january'] = df['날짜'].dt.month == 1

print(df)

여러 열의 데이터 타입 한 번에 변경하기

import pandas as pd

# 샘플 데이터프레임 생성
data = {'숫자': ['1', '2', '3'], '문자': ['a', 'b', 'c'], '부울': [True, False, True]}
df = pd.DataFrame(data)

# 여러 열의 데이터 타입을 한 번에 변경
df = df.astype({'숫자': 'int', '부울': 'bool'})

print(df)

오류 처리하기

import pandas as pd
import numpy as np

# 숫자와 문자가 섞인 데이터
data = {'숫자_문자': ['1', '2', 'a']}
df = pd.DataFrame(data)

# errors='coerce' 옵션을 사용하여 오류 발생 시 NaN으로 변환
df['숫자_문자'] = pd.to_numeric(df['숫자_문자'], errors='coerce')

print(df)

추가적인 팁

pandas.to_numeric: 문자열을 숫자로 변환할 때 더 많은 옵션을 제공합니다.
- errors: 'coerce', 'raise', 'ignore' 중 선택하여 오류 처리 방식을 지정합니다.
- downcast: 'integer', 'float' 중 선택하여 메모리 효율성을 높일 수 있습니다.
pandas.to_datetime: 문자열을 datetime 형식으로 변환할 때 다양한 날짜 형식을 지정할 수 있습니다.
- format: 날짜 형식을 지정하는 문자열 (예: '%Y-%m-%d')
- infer_datetime_format: True로 설정하면 자동으로 날짜 형식을 추론합니다.

더 깊이 있는 학습을 위한 자료

자신의 데이터에 맞게 코드를 수정하여 사용해 보세요.

특정 데이터를 가지고 있는데, 어떻게 변환해야 할지 모르겠어요.
데이터 타입을 변경했는데 오류가 발생해요.
더 효율적인 방법이 있을까요?

Pandas에서 열 데이터 타입 변경: 대체 방법 및 고급 활용

pandas에서 열 데이터 타입을 변경하는 가장 일반적인 방법은 .astype() 메서드를 사용하는 것이지만, 데이터의 특성이나 상황에 따라 다른 방법을 사용할 수 있습니다.

pd.to_numeric() 함수 활용

문자열을 숫자형으로 변환할 때 더 많은 옵션을 제공합니다.
오류 처리: errors 인자를 통해 오류 발생 시 처리 방식을 지정할 수 있습니다. (예: 'coerce', 'raise', 'ignore')
downcasting: downcast 인자를 통해 메모리 효율성을 높일 수 있습니다.

import pandas as pd

data = {'숫자_문자': ['1', '2', 'a']}
df = pd.DataFrame(data)

# 오류 발생 시 NaN으로 처리
df['숫자_문자'] = pd.to_numeric(df['숫자_문자'], errors='coerce')

pd.to_datetime() 함수 활용

import pandas as pd

data = {'날짜': ['2023-01-01', '2023-02-15', '2023-03-31']}
df = pd.DataFrame(data)

# 날짜 형식 지정
df['날짜'] = pd.to_datetime(df['날짜'], format='%Y-%m-%d')

apply 함수 활용

복잡한 변환 로직이 필요할 때 사용합니다.
각 요소에 대한 함수 적용: 각 요소에 대해 원하는 함수를 적용하여 새로운 값을 생성합니다.

import pandas as pd

def to_upper(x):
    return x.upper()

data = {'문자': ['a', 'b', 'c']}
df = pd.DataFrame(data)

# 모든 문자를 대문자로 변환
df['문자'] = df['문자'].apply(to_upper)

범주형 데이터 처리

범주형 데이터: 범주형 데이터를 숫자로 인코딩하거나 더미 변수로 변환할 수 있습니다.
pandas.Categorical: 범주형 데이터를 나타내는 클래스입니다.

import pandas as pd

data = {'색깔': ['빨강', '파랑', '노랑', '빨강']}
df = pd.DataFrame(data)

# 범주형 데이터로 변환
df['색깔'] = pd.Categorical(df['색깔'])

데이터 클리닝 후 변환

결측치 처리: 결측치를 제거하거나 다른 값으로 채워넣은 후 변환합니다.
이상치 처리: 이상치를 제거하거나 보정한 후 변환합니다.

import pandas as pd
import numpy as np

data = {'나이': [20, 30, 'NA', 40]}
df = pd.DataFrame(data)

# 결측치를 NaN으로 변환
df['나이'] = pd.to_numeric(df['나이'], errors='coerce')

# NaN을 평균값으로 대체
df['나이'].fillna(df['나이'].mean(), inplace=True)