Python Pandas에서 문자열 열의 데이터 선택에서 NaN 필터링

2024-07-27

다음은 Python Pandas에서 문자열 열의 데이터 선택에서 NaN을 필터링하는 방법 몇 가지입니다.

dropna() 함수 사용:

dropna() 함수는 기본적으로 NaN 값이 포함된 행을 모두 삭제합니다. 이 함수는 다음과 같이 사용할 수 있습니다.

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '값5']})

# NaN 값이 포함된 행 제외
df_filtered = df.dropna(subset=['문자열 열'])

# 결과 출력
print(df_filtered)

isna() 함수는 각 원소가 NaN인지 여부를 나타내는 불리언 시리즈를 반환합니다. 이 함수를 사용하여 NaN 값이 아닌 행만 선택할 수 있습니다. 다음과 같은 코드입니다.

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '값5']})

# NaN 값이 아닌 행만 선택
df_filtered = df[~df['문자열 열'].isna()]

# 결과 출력
print(df_filtered)

str.contains() 함수 사용:

str.contains() 함수는 문자열 열의 각 원소가 특정 문자열 패턴을 포함하는지 여부를 나타내는 불리언 시리즈를 반환합니다. 이 함수를 사용하여 빈 문자열만 포함된 행을 제외할 수 있습니다. 다음과 같은 코드입니다.

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# 빈 문자열을 포함하지 않는 행만 선택
df_filtered = df[~df['문자열 열'].str.contains('^$')]

# 결과 출력
print(df_filtered)

fillna() 함수는 NaN 값을 다른 값으로 치환합니다. 이 함수를 사용하여 NaN 값을 특정 문자열로 치환한 다음 dropna() 함수를 사용하여 해당 값을 포함하는 행을 제외할 수 있습니다. 다음과 같은 코드입니다.

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# NaN 값을 '빈 값'으로 치환
df_fillna = df.fillna('빈 값')

# '빈 값'을 포함하지 않는 행만 선택
df_filtered = df_fillna.dropna(subset=['문자열 열'])

# 결과 출력
print(df_filtered)

위의 방법 외에도 다양한 방법으로 문자열 열에서 NaN을 필터링할 수 있습니다. 사용 방법은 데이터의 특성과 분석 목적에 따라 다릅니다.

주의:

위의 코드에서 np.nan은 NumPy에서 NaN 값을 나타내는 데 사용되는 상수입니다.

예제 코드: Python Pandas에서 문자열 열의 데이터 선택에서 NaN 필터링

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '값5']})

# NaN 값이 포함된 행 제외
df_filtered = df.dropna(subset=['문자열 열'])

# 결과 출력
print(df_filtered)

출력:

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# NaN 값이 아닌 행만 선택
df_filtered = df[~df['문자열 열'].isna()]

# 결과 출력
print(df_filtered)

     문자열 열
0    값1
1    값2
3    값4

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# 빈 문자열을 포함하지 않는 행만 선택
df_filtered = df[~df['문자열 열'].str.contains('^$')]

# 결과 출력
print(df_filtered)

     문자열 열
0    값1
1    값2
3    값4

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# NaN 값을 '빈 값'으로 치환
df_fillna = df.fillna('빈 값')

# '빈 값'을 포함하지 않는 행만 선택
df_filtered = df_fillna.dropna(subset=['문자열 열'])

# 결과 출력
print(df_filtered)

     문자열 열
0    값1
1    값2
3    값4

Python Pandas에서 문자열 열의 데이터 선택에서 NaN 필터링을 위한 대체 방법

loc 인덱싱 사용:

loc 인덱싱을 사용하여 특정 조건을 충족하는 행을 선택할 수 있습니다. 다음과 같이 NaN이 아닌 값만 포함하는 행을 선택할 수 있습니다.

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# NaN 값이 아닌 행만 선택
df_filtered = df.loc[df['문자열 열'].notna()]

# 결과 출력
print(df_filtered)

query() 함수는 SQL과 유사한 문자열 표현식을 사용하여 데이터프레임을 필터링하는 데 사용할 수 있습니다. 다음과 같이 NaN이 아닌 값만 포함하는 행을 선택할 수 있습니다.

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# NaN 값이 아닌 행만 선택
df_filtered = df.query('`문자열 열` != @np.nan')

# 결과 출력
print(df_filtered)

apply 함수 사용:

apply() 함수를 사용하여 사용자 정의 함수를 각 문자열 값에 적용하고 결과를 사용하여 새로운 데이터프레임을 만들 수 있습니다. 다음과 같이 NaN이 아닌 값만 포함하는 행을 선택하는 사용자 정의 함수를 만들 수 있습니다.

import pandas as pd

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# 사용자 정의 함수
def is_not_nan(value):
    return not pd.isna(value)

# 'is_not_nan' 함수를 각 문자열 값에 적용
df_filtered = df[df['문자열 열'].apply(is_not_nan)]

# 결과 출력
print(df_filtered)

numpy 함수 사용:

numpy 함수를 사용하여 Pandas 데이터프레임을 NumPy 배열로 변환한 다음 NumPy 함수를 사용하여 필터링을 수행할 수 있습니다. 다음과 같이 NaN이 아닌 값만 포함하는 행을 선택할 수 있습니다.

import pandas as pd
import numpy as np

# 데이터 프레임 만들기
df = pd.DataFrame({'문자열 열': ['값1', '값2', np.nan, '값4', '']})

# Pandas 데이터프레임을 NumPy 배열로 변환
np_array = df['문자열 열'].to_numpy()

# NaN 값이 아닌 값만 선택
filtered_array = np_array[~np.isnan(np_array)]

# NumPy 배열을 Pandas 시리즈로 변환
df_filtered = pd.Series(filtered_array, name='문자열 열')

# 결과 출력
print(df_filtered)