[Pandas] 데이터 분석을 위한 판다스 사용법 - 3. 데이터 선택 : 조건과 필터
2023. 7. 5. 23:07
반응형
Pandas
파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원
연산
- 데이터 선택
- 데이터 가공
- 데이터 분석
- 데이터 편집
데이터 선택
원하는 영역의 원소를 선택하는 연산
- Column, Value 확인하기
- 열(컬럼) 데이터 선택
- 행(로우) 데이터 선택
- 원하는 범위 데이터 선택
- 조건 데이터 선택
- 필터 데이터 선택
5. 조건으로 데이터 선택
5-1. Lambda 연산
모든 행의 A, B 컬럼 선택하기
df.loc[:, lambda df:['A', 'B']]
A 컬럼의 값이 0.5보다 큰 행 선택하기
df.loc[lambda df: df['A'] > 0.5, :]
5-2. 조건문 연산
A 컬럼의 값이 0.5보다 큰 행 선택하기
df[df['A'] > 0.5]
A열이 0.5보다 크고 C열이 0.5보다 큰 행 선택
df[(df['A'] > 0.5) & (df['C'] > 0.5)]
5-3. 샘플링
원하는 데이터를 임의로 랜덤하게 선택함.
- axis=0 : 행(로우)
- axis=1 : 열(컬럼)
- n : 선택할 원소의 수
df.sample() #n=1, axis=0
df.sample(n=4, axis=0) #행을 임의로 4개 뽑음
df.sample(n=2, axis=1) #열을 임의로 2개 뽑음
6. 필터로 데이터 선택하기
6-1. 포함여부 확인
isin은 T/F로 반환됨
df["D"].isin([4.0])
데이터프레임에서 필터를 만족하는 데이터만 반환함
df[df["D"].isin([3.0, 4.0])] #원소를 가지고 있는가
df[df["D"].isin([3.0]) | df["A"].isin([1.0])]
반응형
'Data Science > 데이터분석 (Spark)' 카테고리의 다른 글
[Pandas] 데이터 분석을 위한 판다스 사용법 - 6. 데이터 편집 (0) | 2023.07.06 |
---|---|
[Pandas] 데이터 분석을 위한 판다스 사용법 - 5. 데이터 분석 (0) | 2023.07.06 |
[Pandas] 데이터 분석을 위한 판다스 사용법 - 4. 데이터 가공 : 자료구조와 원소 변경하기 (0) | 2023.07.05 |
[Pandas] 데이터 분석을 위한 판다스 사용법 - 2. 데이터 선택 : 행과 열 선택하기 (0) | 2023.07.05 |
[Pandas] 데이터 분석을 위한 판다스 사용법 - 1. 자료구조 (0) | 2023.07.05 |