Data Science/머신러닝 & 딥러닝
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. 앙상블 모델앙상블 모델은 여러 다른 개별 모델을 결합하여 예측 능력을 향상시키는 기법이다.서로 다른 알고리즘, 다른 훈련 데이터셋을 이용할 수 있으며, 모델들의 예측을 통합하여 미지의 데이터로부터의 예측을 수행한다. Voting 각 모델의 결과에 대한 투표를 실시하는 것.Voting은 여러 다른 모델의 예측 결과를 결합하여 최종 예측을 수행하는 앙상블 기법이다.각 모델의 예측을 조합하여 더 강력한 예측을 만들어낸다.Hard Voting다수결 방식으로 예측 결과를 합치는 방법.각 모델이 예측한 클래스 레이블 중 가장 많은 클래스 레이블을 최종 예측 결과로 선택한다. 이 방식은 각 모델이 동일한 중요도를 가진 ..
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. 비지도 학습- Label이 없는 데이터를 학습시키는 방법- 유사성을 기반으로 그룹화하거나 데이터에 숨어있는 구조를 파악 비지도 학습의 종류- 군집화 : 데이터로부터 몇 개의 대표적인 집합을 얻어내는 방법- 연관 규칙 분석 : 항목들 사이의 관계를 분석하여 연관성을 찾는 방법- 차원 축소 : 높은 차원의 데이터를 낮은 차원의 데이터로 변환하는 방법 연관 규칙 분석 연관 규칙 분석은 비지도 학습의 한 종류로서, 데이터에서 아이템 간의 연관성을 찾아내는 기법.이를 통해 데이터 집합 내에서 아이템들 간의 패턴, 규칙, 관계를 발견하거나 예측하는 데 사용된다.연관 규칙 분석의 대표적인 예는 슈퍼마켓에서의 장바구니 분..
K-Means Clustering https://upload.wikimedia.org/wikipedia/commons/b/b3/K-means_versus_k-medoids.png 중심점(Centroid) 기반의 클러스터링데이터는 다른 군집의 중심점보다 속한 군집의 중심점에 가까워야 한다. 방법1. 초기 세팅클러스터 개수(K) 설정: 사용자는 클러스터의 개수를 결정해야 한다.초기 중심 설정: K개의 클러스터의 중심을 초기에 무작위로 설정한다.2. 할당 단계 각 데이터 포인트를 가장 가까운 중심에 할당. 이 때 거리 측정은 일반적으로 유클리디안 거리를 사용합.각 데이터 포인트는 그것과 가장 가까운 클러스터에 속하게 된다.3. 업데이트 단계 각 클러스터의 중심을 해당 클러스터에 속한 데이터 포인트들의 평균 위..
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. 비지도 학습- Label이 없는 데이터를 학습시키는 방법- 유사성을 기반으로 그룹화하거나 데이터에 숨어있는 구조를 파악 비지도 학습의 종류- 군집화 : 데이터로부터 몇 개의 대표적인 집합을 얻어내는 방법- 연관 규칙 분석 : 항목들 사이의 관계를 분석하여 연관성을 찾는 방법- 차원 축소 : 높은 차원의 데이터를 낮은 차원의 데이터로 변환하는 방법 군집화비지도 학습, 범주형 변수 예측군집화는 분류와 달리 라벨(카테고리)를 회귀하는 것이 아니라 유사 집단으로 묶는 것 분할적 군집화 - Top-Down, 몇 개의 집합으로 분할할지 결정한 후 유사한 데이터를 모음- K-Means : 중심점 기반- DBSCAN : 밀..
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. 분류 (Classification) 분류는 지도 학습의 방법 중 하나이다.- 범주형 변수를 인식하고 구분하는 방법- 데이터를 잘 구분하는 경계(Decision Boundary)를 찾는 문제. 로지스틱 회귀와 분류- 결정 경계 문제를 해결하기 위해 로지스틱 분류를 가장 많이 사용- 로지스틱(시그모이드) 함수는 x->∞일 시 1, x->(-∞)일 시 0, x=0일 때 변곡점, 좌우대칭, 증가함수의 특징을 가진다. 로지스틱 분류의 손실 함수의 조건기존의 MSE Loss 함수는 로지스틱 함수를 제곱하고 미분하기에 어려움-> Cross Entropy Loss 함수를 손실 함수로 사용한다. Convex한 함수 ->..
포스팅된 글의 인용한 모든 이미지는 CCL 라이선스의 이미지만을 사용했으며, 출처를 밝힙니다. AI 모델의 검증 방법 데이터셋은 모델을 훈련하고 평가하는 데 사용되는 데이터의 집합- 데이터셋을 Traning Set / Validation Set / Test Set으로 데이터를 나눔- Traning Set : AI 모델을 훈련, 60%- Validation Set : 훈련이 끝난 모델의 성능 검증, 20%- Test Set : 최종 출시 전 AI 모델 성능 검증, 20%훈련 세트 (Training Set, 60%):이 부분은 실제로 모델을 훈련하는 데 사용되는 데이터. 모델은 이 데이터를 사용하여 패턴과 관계를 학습하며, 최적의 파라미터를 찾아가는 과정을 거친다...
다변량 회귀 모델nbastat.csv(농구 점수 데이터셋)에서 야투 시도 횟수 (FGA), 3점슛 시도 횟수 (3PA), 자유투 시도 횟수 (FTA) 로부터 득점수 (PTS)를 예측하는 모델을 만들고 이를 훈련시키시오.가설y = 세타0 + 세타1(x1) + 세타2(x2) + 세타3(x3) 1. library importimport numpy as npimport pandas as pd 2. 드라이브 마운트 및 csv파일 업로드from google.colab import drivefrom google.colab import filesdrive.mount('/lecture-2023ai')files.upload()nbastat = pd.read_csv('nbastat2022.csv') 3. 행 수와 컬럼 ..
인공지능의 역사 1st Spring of AI (1950~1970)- 지식 표현, 추론(기존 지식-> 새로운 지식), 게임 트리(인공지능도 유희를 가질 수 있는가?)- 강한 인공지능을 추구 -> 기대만큼의 성과를 거두지 못하여 1st Winter 2nd Spring of AI (1980~1990)- 약한 인공지능을 추구- 추론 -> 전문가 시스템- 퍼셉트론 -> MLP, Backpropagation- 기대만큼의 성과를 거두지 못하여 2nd Winter 3rd Spring of AI (2010 ~)- 배경 : 충분한 데이터, 발전하는 컴퓨팅 파워, 새로운 기술(심층학습 등..)- 약한 인공지능을 추구 + 다양한 분야의 문제를 사람만큼 잘 해결하는 인공지능 - 시각 지능, 언어 지능, 데이터..
AI = Model + Data Model : y = Ax + B (선형 회귀 모델)- Model = Code(식) + Parameter(A, B)Data: [(x1, y1), (x2, y2), (x3, y3)...] 1. 수집된 데이터와 목적에 따라서 모델을 결정하고2. 데이터를 통해 학습시키며 최적의 모델의 파라미터를 구하는 것이 우리가 할 일3. AI와 데이터는 닭과 계란의 관계- AI -> 데이터 : 우수한 분석 도구- 데이터 -> AI : AI 모델 훈련에 필요 데이터의 종류 정형 데이터 : 속성을 명확하게 정의할 수 있는 데이터 - 데이터 하나는 다음과 같이 표현- i : 속성의 인덱스 (0 - j : 개체의 인덱스 (0 - 키, 몸무게, 나이를 가진 21명의 사람들 -> n = 3, m =..