Data Science/데이터분석 (Spark)
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집 데이터 분석자료 구조의 원소들에 대해서 분석을 수행하는 연산행의 시작, 끝 원소 세서 가져오기열에 대한 통계가장 작은, 큰 원소 행/열 선택원소 개수 세기구간 나눈 후 원소 세기통계함수 1. 행의 시작, 끝 원소 세서 가져오기date = pd.date_range('2000-01-01', periods=10, freq='Y')df = pd.DataFrame( { "A": pd.Series(np.random.randint(0, 10, size=10), index=date), "B": pd.Series(np.random.randin..
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집데이터 가공자료 구조의 원소를 다양하게 가공하는 연산자료구조 변경원소 변경원소 삭제결측값 처리함수를 이용한 원소 변경 1. 자료구조 변경date = pd.date_range('2000-01-01', periods=5, freq='Y')df = pd.DataFrame( { "A": pd.Series(np.random.randint(0, 10, size=5), index=date), "B": pd.Series(np.random.randint(0, 10, size=5), index=date), "C": pd.Series(..
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집데이터 선택원하는 영역의 원소를 선택하는 연산Column, Value 확인하기열(컬럼) 데이터 선택행(로우) 데이터 선택원하는 범위 데이터 선택조건 데이터 선택필터 데이터 선택 5. 조건으로 데이터 선택 5-1. Lambda 연산 모든 행의 A, B 컬럼 선택하기df.loc[:, lambda df:['A', 'B']] A 컬럼의 값이 0.5보다 큰 행 선택하기df.loc[lambda df: df['A'] > 0.5, :] 5-2. 조건문 연산 A 컬럼의 값이 0.5보다 큰 행 선택하기df[df['A'] > 0.5] A열이 0.5보다 크고 C열이 0.5보..
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집데이터 선택원하는 영역의 원소를 선택하는 연산Column, Value 확인하기열(컬럼) 데이터 선택행(로우) 데이터 선택원하는 범위 데이터 선택조건 데이터 선택필터 데이터 선택 1. Column, Value 확인하기df = pd.DataFrame( np.random.rand(10, 4), index = pd.date_range('2000-12-31', periods=10, freq='D'), columns = ['A', 'B', 'C', 'D'])df 1-1. 전체 인덱스 확인하기df.index 1-2. 전체 컬럼 확인하기df.columns ..
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원자료 구조- Series(1차원)- DataFrame(2차원)- Panel(3차원) -> 현재는 잘 사용되지 않음. DataFrame을 이용하여 다루는 것을 권장연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집Pandas 라이브러리 Import# importimport numpy as npimport pandas as pd 1. Series1차원 자료구조리스트, 딕셔너리, 튜플, Scalar Value로부터 생성 가능numpy의 ndarray로부터 생성 가능pd.Series(data, index)d = {'a': 1, 'b' : 2, 'c': 3}ser = pd.Series(data=d, index=['a..