Melhor resposta
Existem diferentes tipos de funções de compressão. Uma função de compressão é essencialmente definida como uma função que comprime a entrada em uma das extremidades de um pequeno intervalo. Em redes neurais, eles podem ser usados em nós em uma camada oculta para esmagar a entrada. Isso introduz não linearidade ao NN e permite que o NN seja eficaz. Você pode provar que, sem introduzir a não linearidade em cada camada, você basicamente teria apenas uma série de transformações lineares que seriam tão eficazes quanto uma transformação linear, então o NN seria mais como uma regressão linear.
Os mais populares que foram usados incluem a função sigmóide, função tangente hiperbólica, etc. Você pode encontrar muitos desses recursos online.
Embora as funções de esmagamento desempenhem um papel importante em NN, existem vários problemas com o uso de um. Um dos problemas é que é difícil obter valores intermediários usando funções de esmagamento porque, por definição, as funções de esmagamento tentam esmagar a função em qualquer uma das extremidades do intervalo. Portanto, eles podem ser difíceis de usar e muitas vezes as funções de esmagamento podem ser altamente sensíveis aos pesos aplicados. Isso pode tornar o treinamento muito difícil porque você precisa encontrar um conjunto de pesos muito preciso que produza a compressão exatamente da maneira que você gostaria (caso contrário, os valores serão comprimidos – não há meio-termo).
Outro problema é o problema do gradiente de desaparecimento. Ao usar retropropagação e cascatear o erro, o erro tende a diminuir rapidamente porque é constantemente multiplicado por uma fração de um a partir da saída de compressão e dos pesos (que geralmente são inicializados como uma fração de um). Assim, as camadas anteriores são as mais lentas para treinar e é difícil treiná-las.
O que levou à eficácia recente dos NNs foi o uso da função ReLU em vez das funções de esmagamento, que, em vez de esmagar o entrada completamente, mapeia a entrada para um intervalo [0, x]. Isso provou ser muito mais eficaz em NNs e levou ao sucesso recente de NN. As pessoas pensaram, originalmente, talvez um pouco ingenuamente, que, como a função não era diferenciável, ela não seria tão eficaz, mas isso provou não ser o caso.
Mesmo com ReLUs, o problema do gradiente de desaparecimento ainda existe e com redes muito profundas ainda é um problema. Existem diferentes métodos que estão sendo trabalhados para tentar combater esse problema.
Resposta
Sem uma função de compressão, uma rede neural não seria capaz de modelar relacionamentos não lineares. Na verdade, se todos os neurônios têm uma função de resposta linear, a rede neural, não importa qual topologia simplifique para uma regressão linear.
Se você tiver um neurônio de saída y que linearmente depende de uma camada intermediária u
y = \ sum\_i \ gamma\_i u\_i
que, por sua vez, depende linearmente dos neurônios de entrada x
u\_i = \ sum\_j \ beta\_ {ij} x\_j
toda a rede neural é simplificada para
y = \ sum\_ {ij} \ gamma\_i \ beta\_ {ij} x\_j
Se você otimizar os termos de erro quadrado, terá uma regressão linear.