728x90
반응형
기울기 소실과 폭발(Gradient Vanishing and Exploding)은 layer가 많은, 깊은 신경망을 훈련하는 동안 발생할 수 있는 문제입니다.
그 중 기울기 소실에 대한 내용을 정리해 보았습니다.
기울기 소실(Gradient Vanishing)
- 역전파 과정에서 출력층에서 입력층으로 갈수록 기울기가 점차 작아지는 현상
- 가중치 업데이트가 제대로 되지 않는 현상발생 원인: 활성화 함수(sigmoid, tanh)
발생 원인: 활성화 함수(sigmoid, tanh)
- sigmoid함수나 tanh함수를 활성화 함수로 사용할 경우 입력의 절대값이 커지면 기울기가 0에 가까워지기 때문에 네트워크를 통해 전파됨에 따라 기울기가 점차 사라짐
- sigmoid 함수와 도함수
- tanh 함수와 도함수
해결 방법
- ReLU나 Leaky ReLU와 같은 활성화 함수를 사용 → 기울기 폭발(Gradient Exploding) 문제가 발생할 수 있음
- batch normalization(배치 정규화)나 layer normalization(층 정규화)같은 정규화 기법 사용
반응형
'Computer Science(CS) > ML,DL' 카테고리의 다른 글
스태킹 앙상블(Stacking Ensemble)이란? (0) | 2023.03.27 |
---|---|
기울기 폭발(Gradient Exploding) (0) | 2023.03.24 |
히스토그램 평활화(Histogram Equalization) - HE, AHE, CLAHE 비교 (0) | 2023.03.23 |
히스토그램(Histogram)이란? (0) | 2023.03.23 |
댓글