Meilleure réponse
Il existe différents types de fonctions décrasement. Une fonction décrasement est essentiellement définie comme une fonction qui écrase lentrée à lune des extrémités dun petit intervalle. Dans les réseaux de neurones, ceux-ci peuvent être utilisés au niveau des nœuds dune couche cachée pour écraser lentrée. Cela introduit la non-linéarité du NN et permet au NN dêtre efficace. Vous pouvez prouver que sans introduire de non-linéarité à chaque couche, vous auriez essentiellement juste une série de transformations linéaires qui seraient tout aussi efficaces quune transformation linéaire, de sorte que le NN ressemblerait plus à une régression linéaire.
Les plus populaires qui ont été utilisées incluent la fonction sigmoïde, la fonction tangente hyperbolique, etc. Vous pouvez trouver beaucoup de ces ressources en ligne.
Bien que les fonctions décrasement jouent un rôle important dans NN, il y a plusieurs problèmes en utilisant un. L’un des problèmes est qu’il est difficile d’obtenir des valeurs intermédiaires à l’aide des fonctions d’écrasement car, par définition, les fonctions d’écrasement tentent d’écraser la fonction aux deux extrémités de l’intervalle. Ainsi, ils peuvent être difficiles à utiliser et souvent les fonctions décrasement peuvent être très sensibles aux poids appliqués. Cela peut rendre lentraînement très difficile car vous devez trouver un ensemble de poids très précis qui produit lécrasement exactement comme vous le souhaitez (sinon, les valeurs seront écrasées – il ny a pas de juste milieu).
Un autre problème est le problème du dégradé de fuite. Lors de lutilisation de la rétropropagation et de la mise en cascade de lerreur, lerreur a tendance à diminuer rapidement car elle est constamment multipliée par une fraction de un à partir de la sortie décrasement et des poids (qui sont souvent généralement initialisés comme une fraction de un). Ainsi, les couches antérieures sont les plus lentes à entraîner et il est difficile de les entraîner.
Ce qui a conduit à lefficacité récente des NN était lutilisation de la fonction ReLU au lieu des fonctions décrasement, qui, plutôt que décraser les entrée complètement, mappe lentrée à un intervalle [0, x]. Cela sest avéré beaucoup plus efficace dans les NN et a conduit au récent succès NN. Les gens pensaient, à lorigine, peut-être un peu naïvement, que parce que la fonction nétait pas différentiable, elle ne serait pas aussi efficace, mais cela sest avéré ne pas être le cas.
Même avec ReLUs, le problème du dégradé de fuite existe toujours et avec des réseaux très profonds est toujours un problème. Il existe différentes méthodes sur lesquelles on travaille actuellement pour tenter de lutter contre ce problème.
Réponse
Sans une fonction décrasement, un réseau de neurones ne pourrait pas modéliser des relations non linéaires. En fait si tous les neurones ont une fonction de réponse linéaire, le réseau de neurones, quelle que soit la topologie, se simplifie en une régression linéaire.
Si vous avez un neurone de sortie y qui dépend linéairement dune couche intermédiaire u
y = \ sum\_i \ gamma\_i u\_i
qui à son tour dépend linéairement des neurones dentrée x
u\_i = \ sum\_j \ beta\_ {ij} x\_j
lensemble du réseau de neurones se simplifie à
y = \ sum\_ {ij} \ gamma\_i \ beta\_ {ij} x\_j
Si vous optimisez les termes derreur carrée, vous vous retrouvez avec une régression linéaire.