신경망에서 스 쿼싱 기능이 중요한 이유는 무엇입니까?


정답

스 쿼싱 기능에는 여러 유형이 있습니다. 스 쿼싱 함수는 기본적으로 입력을 작은 간격의 끝 중 하나로 스쿼시하는 함수로 정의됩니다. 신경망에서는 히든 레이어의 노드에서 입력을 스쿼시하는 데 사용할 수 있습니다. 이것은 NN에 비선형 성을 도입하고 NN이 효과적 일 수 있도록합니다. 각 계층에 비선형 성을 도입하지 않으면 본질적으로 하나의 선형 변환만큼 효과적인 일련의 선형 변환을 갖게되므로 NN이 선형 회귀와 비슷할 것임을 증명할 수 있습니다.

시그 모이 드 함수, 쌍곡 탄젠트 함수 등이 사용 된 인기있는 것입니다. 온라인에서 이러한 리소스를 많이 찾을 수 있습니다.

스 쿼싱 함수는 NN에서 중요한 역할을하지만 몇 가지 문제가 있습니다. 하나를 사용하여. 문제 중 하나는 스 쿼싱 함수를 사용하여 중간 값을 얻는 것이 어렵다는 것입니다. 스 쿼싱 함수는 정의에 따라 함수를 간격의 양쪽 끝으로 스쿼시하려고하기 때문입니다. 따라서 사용하기 어려울 수 있으며 종종 스 쿼싱 기능이 적용된 가중치에 매우 민감 할 수 있습니다. 원하는 방식으로 정확히 스 쿼싱을 생성하는 매우 정확한 가중치 집합을 찾아야하기 때문에 훈련이 매우 어려울 수 있습니다 (그렇지 않으면 값이 스쿼시됩니다-중간 지대가 없습니다).

또 다른 문제는 Vanishing Gradient 문제입니다. 역 전파를 사용하고 오류를 계단식화할 때 오류는 스 쿼싱 출력과 가중치 (일반적으로 1의 일부로 초기화 됨)에서 1의 일부가 지속적으로 곱해 지므로 빠르게 감소하는 경향이 있습니다. 따라서 이전 레이어는 훈련하는 데 가장 느리고 훈련하기가 어렵습니다.

최근 NN의 효과를 가져온 것은 스 쿼싱 함수 대신 ReLU 함수를 사용했기 때문입니다. 입력을 완전히하면 입력을 [0, x] 간격으로 매핑합니다. 이것은 NN에서 훨씬 더 효과적인 것으로 판명되었으며 최근 NN 성공으로 이어졌습니다. 사람들은 원래, 아마도 약간 순진하게, 기능이 미분 할 수 없기 때문에 효과적이지 않을 것이라고 생각했지만 이것은 사실이 아닙니다.

ReLU를 사용해도 Vanishing Gradient 문제는 여전히 존재하며 매우 깊은 네트워크가 여전히 문제입니다. 이 문제를 해결하기 위해 현재 작업중인 여러 방법이 있습니다.

답변

스 쿼싱 함수가 없으면 신경망은 비선형 관계를 모델링 할 수 없습니다. 실제로 모든 뉴런이 선형 반응 함수를 가지고 있다면, 어떤 토폴로지가 선형 회귀로 단순화 되든 상관없이 신경망은 선형 회귀로 단순화됩니다.

출력 뉴런이있는 경우 중간 레이어에 선형 적으로 의존하는 y u

y = \ sum\_i \ gamma\_i u\_i

차례로 입력 뉴런에 선형 적으로 의존합니다. x

u\_i = \ sum\_j \ beta\_ {ij} x\_j

전체 신경망은 다음과 같이 단순화됩니다.

y = \ sum\_ {ij} \ gamma\_i \ beta\_ {ij} x\_j

제곱 오차 항을 최적화하면 선형 회귀로 끝납니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다