La mejor respuesta
Existen diferentes tipos de funciones de aplastamiento. Una función de aplastamiento se define esencialmente como una función que aplasta la entrada a uno de los extremos de un intervalo pequeño. En las redes neuronales, estos se pueden usar en nodos en una capa oculta para aplastar la entrada. Esto introduce no linealidad a la NN y permite que la NN sea efectiva. Puede demostrar que sin introducir la no linealidad en cada capa, esencialmente solo tendría una serie de transformaciones lineales que serían tan efectivas como una transformación lineal, por lo que la NN sería más como una regresión lineal.
Los más populares que se han utilizado incluyen la función sigmoidea, la función tangente hiperbólica, etc. Puede encontrar muchos de estos recursos en línea.
Si bien las funciones de aplastamiento desempeñan un papel importante en NN, existen varios problemas con el uso de uno. Uno de los problemas es que es difícil obtener valores intermedios usando funciones de aplastamiento porque, por definición, las funciones de aplastamiento intentan aplastar la función en cualquiera de los extremos del intervalo. Por lo tanto, pueden ser difíciles de usar y, a menudo, las funciones de aplastamiento pueden ser muy sensibles a los pesos aplicados. Esto puede dificultar mucho el entrenamiento porque necesita encontrar un conjunto de pesos muy preciso que produzca el aplastamiento exactamente de la manera que le gustaría (de lo contrario, los valores se aplastarán, no hay término medio).
Otro problema es el problema de Vanishing Gradient. Cuando se usa la propagación hacia atrás y el error en cascada, el error tiende a disminuir rápidamente porque se multiplica constantemente por una fracción de uno de la salida de aplastamiento y los pesos (que a menudo se inicializan como una fracción de uno). Por lo tanto, las capas anteriores son las más lentas de entrenar y es difícil entrenarlas.
Lo que llevó a la eficacia reciente de las NN fue el uso de la función ReLU en lugar de las funciones de aplastamiento, que, en lugar de aplastar el input completamente, mapea la entrada a un intervalo [0, x]. Esto demostró ser mucho más efectivo en las NN y condujo al éxito reciente de las NN. La gente pensó, originalmente, quizás un poco ingenuamente, que debido a que la función no era diferenciable no sería tan efectiva, pero este no fue el caso.
Incluso con ReLUs, el problema de Vanishing Gradient todavía existe y con redes muy profundas sigue siendo un problema. Hay diferentes métodos en los que se está trabajando actualmente para tratar de combatir este problema.
Respuesta
Sin una función de aplastamiento, una red neuronal no podría modelar relaciones no lineales. De hecho, si todas las neuronas tienen una función de respuesta lineal, la red neuronal, sin importar la topología, se simplifica a una regresión lineal.
Si tiene una neurona de salida y que depende linealmente de una capa intermedia u
y = \ sum\_i \ gamma\_i u\_i
que a su vez depende linealmente de las neuronas de entrada x
u\_i = \ sum\_j \ beta\_ {ij} x\_j
toda la red neuronal se simplifica a
y = \ sum\_ {ij} \ gamma\_i \ beta\_ {ij} x\_j
Si optimizas los términos de error cuadrado, terminas con una regresión lineal.