Python & Data Science/Pandas
Pandas 파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산 - 데이터 선택 - 데이터 가공 - 데이터 분석 - 데이터 편집 데이터 편집 자료의 구조를 제어하는 연산 Concat Merge Join 1. Concat 자료구조를 연결하는 연산 df1 = pd.DataFrame( { "A": ['a00', 'a01', 'a02'], "B": ['b00', 'b01', 'b02'], "C": ['c00', 'c01', 'c02'] } ) df1 df2 = pd.DataFrame( { "B": ['B00', 'B01', 'B02'], "C": ['C00', 'C01', 'C02'], "D": ['D00', 'D01', 'D02'] } ) df2 pd.concat([df1, df..
Pandas 파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산 - 데이터 선택 - 데이터 가공 - 데이터 분석 - 데이터 편집 데이터 분석 자료 구조의 원소들에 대해서 분석을 수행하는 연산 행의 시작, 끝 원소 세서 가져오기 열에 대한 통계 가장 작은, 큰 원소 행/열 선택 원소 개수 세기 구간 나눈 후 원소 세기 통계함수 1. 행의 시작, 끝 원소 세서 가져오기 date = pd.date_range('2000-01-01', periods=10, freq='Y') df = pd.DataFrame( { "A": pd.Series(np.random.randint(0, 10, size=10), index=date), "B": pd.Series(np.random.randint(0..
Pandas 파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산 - 데이터 선택 - 데이터 가공 - 데이터 분석 - 데이터 편집 데이터 가공 자료 구조의 원소를 다양하게 가공하는 연산 자료구조 변경 원소 변경 원소 삭제 결측값 처리 함수를 이용한 원소 변경 1. 자료구조 변경 date = pd.date_range('2000-01-01', periods=5, freq='Y') df = pd.DataFrame( { "A": pd.Series(np.random.randint(0, 10, size=5), index=date), "B": pd.Series(np.random.randint(0, 10, size=5), index=date), "C": pd.Series(np.random...
Pandas 파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산 - 데이터 선택 - 데이터 가공 - 데이터 분석 - 데이터 편집 데이터 선택 원하는 영역의 원소를 선택하는 연산 Column, Value 확인하기 열(컬럼) 데이터 선택 행(로우) 데이터 선택 원하는 범위 데이터 선택 조건 데이터 선택 필터 데이터 선택 5. 조건으로 데이터 선택 5-1. Lambda 연산 모든 행의 A, B 컬럼 선택하기 df.loc[:, lambda df:['A', 'B']] A 컬럼의 값이 0.5보다 큰 행 선택하기 df.loc[lambda df: df['A'] > 0.5, :] 5-2. 조건문 연산 A 컬럼의 값이 0.5보다 큰 행 선택하기 df[df['A'] > 0.5] A열이 0.5보..
Pandas 파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산 - 데이터 선택 - 데이터 가공 - 데이터 분석 - 데이터 편집 데이터 선택 원하는 영역의 원소를 선택하는 연산 Column, Value 확인하기 열(컬럼) 데이터 선택 행(로우) 데이터 선택 원하는 범위 데이터 선택 조건 데이터 선택 필터 데이터 선택 1. Column, Value 확인하기 df = pd.DataFrame( np.random.rand(10, 4), index = pd.date_range('2000-12-31', periods=10, freq='D'), columns = ['A', 'B', 'C', 'D'] ) df 1-1. 전체 인덱스 확인하기 df.index 1-2. 전체 컬럼 확인하기 df..
Pandas 파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 자료 구조 - Series(1차원) - DataFrame(2차원) - Panel(3차원) -> 현재는 잘 사용되지 않음. DataFrame을 이용하여 다루는 것을 권장 연산 - 데이터 선택 - 데이터 가공 - 데이터 분석 - 데이터 편집 Pandas 라이브러리 Import # import import numpy as np import pandas as pd 1. Series 1차원 자료구조 리스트, 딕셔너리, 튜플, Scalar Value로부터 생성 가능 numpy의 ndarray로부터 생성 가능 pd.Series(data, index) d = {'a': 1, 'b' : 2, 'c': 3} ser = pd.Serie..