[Pandas] 데이터 분석을 위한 판다스 사용법 - 3. 데이터 선택 : 조건과 필터

2023. 7. 5. 23:07
반응형

Pandas

파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원

 

연산

- 데이터 선택
- 데이터 가공
- 데이터 분석

- 데이터 편집



데이터 선택

원하는 영역의 원소를 선택하는 연산

  1. Column, Value 확인하기
  2. 열(컬럼) 데이터 선택
  3. 행(로우) 데이터 선택
  4. 원하는 범위 데이터 선택
  5. 조건 데이터 선택
  6. 필터 데이터 선택

 

 

 

5. 조건으로 데이터 선택

 

5-1. Lambda 연산

 

모든 행의 A, B 컬럼 선택하기

df.loc[:, lambda df:['A', 'B']]

 

A 컬럼의 값이 0.5보다 큰 행 선택하기

df.loc[lambda df: df['A'] > 0.5, :]

 

 

5-2. 조건문 연산

 

A 컬럼의 값이 0.5보다 큰 행 선택하기

df[df['A'] > 0.5]

 

A열이 0.5보다 크고 C열이 0.5보다 큰 행 선택

df[(df['A'] > 0.5) & (df['C'] > 0.5)]

 

 

5-3. 샘플링

원하는 데이터를 임의로 랜덤하게 선택함.

- axis=0 : 행(로우)

- axis=1 : 열(컬럼)

- n : 선택할 원소의 수

 

df.sample() #n=1, axis=0

 

df.sample(n=4, axis=0)  #행을 임의로 4개 뽑음

 

df.sample(n=2, axis=1) #열을 임의로 2개 뽑음

 

 

 

 

6. 필터로 데이터 선택하기

 

 

6-1. 포함여부 확인

 

isin은 T/F로 반환됨

df["D"].isin([4.0])

 

데이터프레임에서 필터를 만족하는 데이터만 반환함

df[df["D"].isin([3.0, 4.0])] #원소를 가지고 있는가

 

df[df["D"].isin([3.0]) | df["A"].isin([1.0])]

반응형

BELATED ARTICLES

more