Perché la funzione di compressione è importante nella rete neurale?


Migliore risposta

Esistono diversi tipi di funzioni di compressione. Una funzione di schiacciamento è essenzialmente definita come una funzione che schiaccia linput su una delle estremità di un piccolo intervallo. Nelle reti neurali, questi possono essere utilizzati sui nodi in un livello nascosto per schiacciare linput. Ciò introduce non linearità in NN e consente a NN di essere efficace. Puoi provare che senza introdurre la non linearità a ogni livello, avresti essenzialmente solo una serie di trasformazioni lineari che sarebbero altrettanto efficaci di una trasformazione lineare, quindi NN sarebbe più simile a una regressione lineare.

Quelle più popolari che sono state utilizzate includono la funzione sigmoide, la funzione tangente iperbolica, ecc. Puoi trovare molte di queste risorse online.

Mentre le funzioni di schiacciamento svolgono un ruolo importante in NN, ci sono diversi problemi con lutilizzo di uno. Uno dei problemi è che è difficile ottenere valori intermedi utilizzando le funzioni di schiacciamento perché, per definizione, le funzioni di schiacciamento cercano di schiacciare la funzione su entrambe le estremità dellintervallo. Pertanto possono essere difficili da usare e spesso le funzioni di schiacciamento possono essere molto sensibili ai pesi applicati. Questo può rendere lallenamento molto difficile perché devi trovare un set di pesi molto preciso che produca lo schiacciamento esattamente nel modo in cui vorresti (altrimenti, i valori saranno schiacciati – non cè via di mezzo).

Un altro problema è il problema del Vanishing Gradient. Quando si utilizza la propagazione allindietro e la cascata dellerrore, lerrore tende a diminuire rapidamente perché viene costantemente moltiplicato per una frazione di uno dalloutput di schiacciamento e dai pesi (che spesso sono tipicamente inizializzati come frazione di uno). Pertanto, i livelli precedenti sono i più lenti da addestrare ed è difficile addestrarli.

Ciò che ha portato alla recente efficacia degli NN è stato luso della funzione ReLU invece delle funzioni di schiacciamento, che, invece di schiacciare il input completamente, mappa linput su un intervallo [0, x]. Ciò si è rivelato molto più efficace negli NN e ha portato al recente successo di NN. La gente pensava, in origine, forse un po ingenuamente, che poiché la funzione non era differenziabile non sarebbe stata altrettanto efficace, ma non è stato così.

Anche con ReLUs, il problema del Vanishing Gradient esiste ancora e con reti molto profonde è ancora un problema. Esistono diversi metodi su cui si sta lavorando per cercare di combattere questo problema.

Risposta

Senza una funzione di compressione, una rete neurale non sarebbe in grado di modellare relazioni non lineari. Infatti, se tutti i neuroni hanno una funzione di risposta lineare, la rete neurale, indipendentemente dalla topologia, si semplifica in una regressione lineare.

Se hai un neurone di output y che dipende linearmente da un livello intermedio u

y = \ sum\_i \ gamma\_i u\_i

che a sua volta dipende linearmente dai neuroni di input x

u\_i = \ sum\_j \ beta\_ {ij} x\_j

lintera rete neurale si semplifica in

y = \ sum\_ {ij} \ gamma\_i \ beta\_ {ij} x\_j

Se ottimizzi i termini di errore quadrato, finisci con una regressione lineare.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *