최상의 답변
ReLU는 f (x) = max (0, x)로 정의됩니다. softplus 는 차등 대리이며 f (x) = ln (1 + e ^ x)로 정의됩니다.
ReLU와 Softplus는 거의 비슷하지만 소프트 플러스가 매끄럽고 차별화되는 0에 가깝습니다. 공식에 log (.) 및 exp (.)가 포함 된 softplus 함수보다 ReLU 및 그 미분을 계산하는 것이 훨씬 쉽고 효율적입니다. 흥미롭게도 소프트 플러스 함수의 미분은 로지스틱 함수입니다. f “(x) = \ frac {1} {1 + e ^ {-x}}.
딥 러닝에서 활성화 함수 계산 미분은 산술에서 덧셈과 뺄셈만큼 자주 발생합니다. ReLU로 전환하면 순방향 및 역방향 패스가 훨씬 빨라지면서 심층 신경망이 유용하게 사용되는 데 필요한 활성화 함수의 비선형 특성을 유지합니다.
답변
활성화 함수의 요점은 비선형입니다.
Let me 여러 계층의 네트워크 ( “얕은”네트워크에 대해 “심층”이라고 함)가있는 경우 모델은 잠재적으로 훨씬 더 복잡한 예제를 감지하거나 처리하는 방법을 학습 할 수 있습니다. 운영 할 때 네트워크는 더 많은 상호 연결을 활용할 수 있습니다. 계산을 수행 할 때 실제로 숫자를 곱하고 더하는 것을 의미합니다.
y = f (W x + b)
f (\ cdot)는 활성화 함수입니다.
레이어를 “캐스케이드”하면 각 레이어의 출력이 다음 레이어에 대한 입력이됩니다. 예를 들어 2 개 레이어의 경우 :
y = x\_2 = f (W\_2 x\_1 + b\_2) = f (W\_2 f (W\_1 x\_0 + b\_1) + b\_2).
하지만 f (\ cdot)는 선형 함수 f (x) = \ alpha x + \ beta 였다면 전체 네트워크가 단층 네트워크로 “축소”됩니다. 단순히 선형 함수의 선형 조합은 선형 함수 자체입니다.
위의 방정식은 다음과 같이 렌더링됩니다.
x\_2 = \ alpha (W\_2 (\ alpha (W\_1 x\_0 + b\_1) + \ beta) + b\_2) + \ beta = \ alpha ^ 2 W\_1 W\_2 x\_0 + \ alpha ^ 2 W\_1 W\_2 b\_1 + \ alpha ^ 2 W\_2 \ beta + \ alpha W\_2 b\_1 + \ beta = \ alpha “x\_0 + \ beta “.
이것은 약간 다른 가중치를 가진 단일 계층 네트워크가있는 것과 같습니다.
이제 ReLU는 비선형 성을 도입합니다. 이는 위의 설명이 더 이상 유효하지 않음을 의미합니다. 따라서 옵티마이 저는 무게를 실제로 훈련하고 모든 것이 작동하도록하기 위해“더 열심히”해야합니다. 물론 다른 비선형 함수 (예 : sigmoid, tanh 등)도 있지만 요점은 반드시 비선형이어야한다는 것입니다.
마지막으로 방금 작성한 예제는 간단하게 조밀하게 연결된 네트워크를 기반으로하지만 다른 경우에도 확장되는 것 같습니다.