SeLU는 ELU에 고정된 파라미터를 추가하였다.
Scaled ELU라서 SELU였던 것이다!
근데 ELU에 고정된 파라마터 설정해서 뭐가 좋을까?
'알아서 출력값이 정규화가 된다.'
은닉 층의 출력물이 배치 노멀라이제이션을 거치고 활성함수에 들어가야한다고 익히 들어보았을 것이다.
여기 SELU는 그런 법칙을 무시한다. 배치 정규화가 없이 '알아서
SELU의 장점
1. 출력물의 평균을 0, 분산을 1로 수렴하게 만든다.
2. 깊은 신경망에서 학습이 잘된다.
3. 강력한 정규화 체계를 혀용한다.
4. 노이즈에 강건하게 한다.
5. 가중치 폭발과 가중치 사라지는 현상을 이론적으로 불가능하게 한다.
SELU의 단점
1. SELU는 RNN이나 CNN에서 잘 작동하는 지 알 수없다. CNN에서 잘 작동 된다는 사례도 많이 보이지 않았다.
(어떤 글에서는 CNN이 50층이상 일 때 잘 수렴 됐다는 말이 있다.)
Self-Normalizing Neural Networks with SELU Activation (osti.gov)
1905.01338.pdf (arxiv.org) CNN에서도 잘 작동한다는 논문이다.
????? text 분류에 CNN이 사용된다고???
진짜 text 분류에CNN이 사용되는 모습이다. 추후에 다시 올리겠다.
요약하자면 SCNN이 Short CNN보다 좋으며 SeLU가 ELU보다 훨씬 좋다.
2. SELU가 작동하는데 몇 가지 조건이 필요하다고 한다. 입력의 평균이 0, 표준 편차는 1로 수렴햐야 한다.
그리고 모든 은닉층의 가중치는 르쿤 정규분포로 초기화가 되어야 한다.
3. 네트워크는 일렬로 쌓은 층으로 구성되어야 한다. 순환 신경망이나 skip connection같은
순차적이지 않은 구조서는 정규화가 보장되지 않는다.
<출처>
활성화 함수 - Dev-hwon's blog (hwk0702.github.io)
딥 러닝에서 알아야 할 7 가지 인기있는 활성화 함수와 Keras 및 TensorFlow 2와 함께 사용하는 방법 (ichi.pro)
'인공지능 용어사전' 카테고리의 다른 글
ReLU와 Dying ReLU (0) | 2022.03.02 |
---|