Data Science
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. 비지도 학습- Label이 없는 데이터를 학습시키는 방법- 유사성을 기반으로 그룹화하거나 데이터에 숨어있는 구조를 파악 비지도 학습의 종류- 군집화 : 데이터로부터 몇 개의 대표적인 집합을 얻어내는 방법- 연관 규칙 분석 : 항목들 사이의 관계를 분석하여 연관성을 찾는 방법- 차원 축소 : 높은 차원의 데이터를 낮은 차원의 데이터로 변환하는 방법 연관 규칙 분석 연관 규칙 분석은 비지도 학습의 한 종류로서, 데이터에서 아이템 간의 연관성을 찾아내는 기법.이를 통해 데이터 집합 내에서 아이템들 간의 패턴, 규칙, 관계를 발견하거나 예측하는 데 사용된다.연관 규칙 분석의 대표적인 예는 슈퍼마켓에서의 장바구니 분..
K-Means Clustering https://upload.wikimedia.org/wikipedia/commons/b/b3/K-means_versus_k-medoids.png 중심점(Centroid) 기반의 클러스터링데이터는 다른 군집의 중심점보다 속한 군집의 중심점에 가까워야 한다. 방법1. 초기 세팅클러스터 개수(K) 설정: 사용자는 클러스터의 개수를 결정해야 한다.초기 중심 설정: K개의 클러스터의 중심을 초기에 무작위로 설정한다.2. 할당 단계 각 데이터 포인트를 가장 가까운 중심에 할당. 이 때 거리 측정은 일반적으로 유클리디안 거리를 사용합.각 데이터 포인트는 그것과 가장 가까운 클러스터에 속하게 된다.3. 업데이트 단계 각 클러스터의 중심을 해당 클러스터에 속한 데이터 포인트들의 평균 위..
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. 비지도 학습- Label이 없는 데이터를 학습시키는 방법- 유사성을 기반으로 그룹화하거나 데이터에 숨어있는 구조를 파악 비지도 학습의 종류- 군집화 : 데이터로부터 몇 개의 대표적인 집합을 얻어내는 방법- 연관 규칙 분석 : 항목들 사이의 관계를 분석하여 연관성을 찾는 방법- 차원 축소 : 높은 차원의 데이터를 낮은 차원의 데이터로 변환하는 방법 군집화비지도 학습, 범주형 변수 예측군집화는 분류와 달리 라벨(카테고리)를 회귀하는 것이 아니라 유사 집단으로 묶는 것 분할적 군집화 - Top-Down, 몇 개의 집합으로 분할할지 결정한 후 유사한 데이터를 모음- K-Means : 중심점 기반- DBSCAN : 밀..
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. 분류 (Classification) 분류는 지도 학습의 방법 중 하나이다.- 범주형 변수를 인식하고 구분하는 방법- 데이터를 잘 구분하는 경계(Decision Boundary)를 찾는 문제. 로지스틱 회귀와 분류- 결정 경계 문제를 해결하기 위해 로지스틱 분류를 가장 많이 사용- 로지스틱(시그모이드) 함수는 x->∞일 시 1, x->(-∞)일 시 0, x=0일 때 변곡점, 좌우대칭, 증가함수의 특징을 가진다. 로지스틱 분류의 손실 함수의 조건기존의 MSE Loss 함수는 로지스틱 함수를 제곱하고 미분하기에 어려움-> Cross Entropy Loss 함수를 손실 함수로 사용한다. Convex한 함수 ->..
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. AI 모델의 검증 방법 데이터셋은 모델을 훈련하고 평가하는 데 사용되는 데이터의 집합- 데이터셋을 Traning Set / Validation Set / Test Set으로 데이터를 나눔- Traning Set : AI 모델을 훈련, 60%- Validation Set : 훈련이 끝난 모델의 성능 검증, 20%- Test Set : 최종 출시 전 AI 모델 성능 검증, 20%훈련 세트 (Training Set, 60%):이 부분은 실제로 모델을 훈련하는 데 사용되는 데이터. 모델은 이 데이터를 사용하여 패턴과 관계를 학습하며, 최적의 파라미터를 찾아가는 과정을 거친다...
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집데이터 편집자료의 구조를 제어하는 연산ConcatMergeJoin 1. Concat자료구조를 연결하는 연산 df1 = pd.DataFrame( { "A": ['a00', 'a01', 'a02'], "B": ['b00', 'b01', 'b02'], "C": ['c00', 'c01', 'c02'] })df1df2 = pd.DataFrame( { "B": ['B00', 'B01', 'B02'], "C": ['C00', 'C01', 'C02'], "D": ['D00', 'D0..
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집 데이터 분석자료 구조의 원소들에 대해서 분석을 수행하는 연산행의 시작, 끝 원소 세서 가져오기열에 대한 통계가장 작은, 큰 원소 행/열 선택원소 개수 세기구간 나눈 후 원소 세기통계함수 1. 행의 시작, 끝 원소 세서 가져오기date = pd.date_range('2000-01-01', periods=10, freq='Y')df = pd.DataFrame( { "A": pd.Series(np.random.randint(0, 10, size=10), index=date), "B": pd.Series(np.random.randin..
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집데이터 가공자료 구조의 원소를 다양하게 가공하는 연산자료구조 변경원소 변경원소 삭제결측값 처리함수를 이용한 원소 변경 1. 자료구조 변경date = pd.date_range('2000-01-01', periods=5, freq='Y')df = pd.DataFrame( { "A": pd.Series(np.random.randint(0, 10, size=5), index=date), "B": pd.Series(np.random.randint(0, 10, size=5), index=date), "C": pd.Series(..
Pandas파이썬에서 데이터 분석에 많이 이용함, 3가지 형태의 자료 구조와 연산 지원 연산- 데이터 선택- 데이터 가공- 데이터 분석- 데이터 편집데이터 선택원하는 영역의 원소를 선택하는 연산Column, Value 확인하기열(컬럼) 데이터 선택행(로우) 데이터 선택원하는 범위 데이터 선택조건 데이터 선택필터 데이터 선택 5. 조건으로 데이터 선택 5-1. Lambda 연산 모든 행의 A, B 컬럼 선택하기df.loc[:, lambda df:['A', 'B']] A 컬럼의 값이 0.5보다 큰 행 선택하기df.loc[lambda df: df['A'] > 0.5, :] 5-2. 조건문 연산 A 컬럼의 값이 0.5보다 큰 행 선택하기df[df['A'] > 0.5] A열이 0.5보다 크고 C열이 0.5보..