[패스트캠퍼스 수강 후기] 인공지능강의 100% 환급 챌린지 39회차 미션
인공지능강의
05. PART 4) 딥러닝의 3 STEP의 기초
67. 효과적으로 사용할 수 있는 기법 - 07. (STEP 2) SMOTE 알고리즘
불균형 데이터 Imbalanced Data
클래스별로 학습 데이터셋의 크기가 급격히 차이가 나는 데이터를 Imbalanced Data라고 부른다.
임의 언더 샘플링 Random Under Sampling
다수 클래스 (Majority Class)에서 임의로 샘플링하여 크기를 맞추는 방법을 Random Under Sampling이라 한다.
이 경우, 임의로 선택된 샘플이 대표성이 떨어질 경우 학습이 잘못된 방향으로 될 수 있다.
임의 오버 샘플링 Random Over Sampling
소수 클래스 (Minority Class)의 데이터를 반복하여 양을 학습 데이터의 양을 맞추는 방법.
이는 학습 시 소수 클래스의 가중치를 증가시키는 것과 유사하다.
SMOTE Synthetic Minority Oversampling Technique
k-Nearest Neighbor 중, 랜덤으로 하나의 샘플을 선택하여 Linear Combination을 추가한다.
임의 오버 샘플링에 비해 다양한 데이터를 추가할 수 있는 장점이 있다.
Borderline-SMOTE
안전한 지역에 있거나, 잡음으로 간주되는 샘플은 오버 샘플링 하지 않고,
위험 지역인 경계(Borderline)에 있는 샘플만 오버 샘플링하여 SMOTE를 효과적으로 개선했다.
68. 효과적으로 사용할 수 있는 기법 - 08. (STEP 2) 정규화 기법의 이해 - 1
Loss vs. Complexity
Loss에 집중 : 학습 데이터에 대한 신뢰도가 높음. 학습 데이터에 속하지 않은 입력에 취약.
Complexity를 낮춤 : 모델의 복잡도가 지나치게 높아지지 않도록 제약. 데이터 학습보다 일반화에 투자.
L-2 정규화 L-2 Regularization
. 아주 큰 가중치에 대해 패널티 부여
. 더 구불구불한 것보다. 더 평평한 형태를 선호
. 베이지언 사전 확률 분포 (정규 분포)
L-2 Regularization (Ridge)는 가중치의 L-2 Norm을 최소화 하는 방법이다.
가중치가 정규분포의 형태를 이루도록 한다.
사전 확률 분포 Prior Probability Distribution
사전 확률 분포는 a priori라고도 하며, 데이터를 보기 전에 확률 분포를 예측하는 것을 말한다.
베이지언 통계학에서 많이 사용하는 방법이며, 여기서는 개념만 짚고 넘어가자.
L-2 정규화와 람다 값
람다 값이 크면 가중치는 정규 분포에 가깝게 나타난다.
람다 값이 0에 가까울 수록 정규화가 이루어지지 않으며, 가중치는 평평한 분포를 지향한다.
L-1 정규화 L-1 Regularization
. 가중치의 절대값에 패널티를 줌
. 값이 양수 또는 음수로 존재하면 줄이려 함
. 값이 희소(Sparse)해 지는 특성이 있음
. 베이지언 사전 확률 분포 (라플라스 분포)
L-1 Regularization (Lasso)는 가중치의 L-1 Norm을 최소화 하는 방법이다.
가중치가 라플라스 분포의 형태를 이루도록 한다.
딥러닝/인공지능 올인원 패키지 Online. | 패스트캠퍼스
Tensorflow2.0부터 Pytorch까지 딥러닝 대표 프레임워크를 정복하기. 생활 깊숙이 침투한 인공지능, 그 중심엔 딥러닝이 있습니다. 가장 강력한 머신러닝의 툴로서 주목받는 딥러닝은 생각보다 어려��
www.fastcampus.co.kr