본문 바로가기
Computer Science(CS)/ML,DL

기울기 소실(Gradient Vanishing)

by Yeoreumssi 2023. 3. 23.
728x90
반응형

기울기 소실과 폭발(Gradient Vanishing and Exploding)은 layer가 많은, 깊은 신경망을 훈련하는 동안 발생할 수 있는 문제입니다.
그 중 기울기 소실에 대한 내용을 정리해 보았습니다.

 

기울기 소실(Gradient Vanishing)

  • 역전파 과정에서 출력층에서 입력층으로 갈수록 기울기가 점차 작아지는 현상
  • 가중치 업데이트가 제대로 되지 않는 현상발생 원인: 활성화 함수(sigmoid, tanh)

발생 원인: 활성화 함수(sigmoid, tanh)

  • sigmoid함수나 tanh함수를 활성화 함수로 사용할 경우 입력의 절대값이 커지면 기울기가 0에 가까워지기 때문에 네트워크를 통해 전파됨에 따라 기울기가 점차 사라짐
  • sigmoid 함수와 도함수

(좌) sigmoid 함수 (우) sigmoid 도함수

  • tanh 함수와 도함수

(좌) tanh 함수 (우) tanh 도함수

해결 방법

  • ReLU나 Leaky ReLU와 같은 활성화 함수를 사용 → 기울기 폭발(Gradient Exploding) 문제가 발생할 수 있음
  • batch normalization(배치 정규화)나 layer normalization(층 정규화)같은 정규화 기법 사용
반응형

댓글