Nejlepší odpověď
Existují různé typy funkcí squashing. Funkce squashing je v zásadě definována jako funkce, která squashuje vstup na jeden z konců malého intervalu. V Neuronových sítích je lze použít na uzlech ve skryté vrstvě ke zmáčknutí vstupu. To zavádí nelinearitu do NN a umožňuje NN být efektivní. Můžete dokázat, že bez zavedení nelinearity v každé vrstvě byste v podstatě měli jen řadu lineárních transformací, které by byly stejně účinné jako jedna lineární transformace, takže NN by vypadalo spíše jako lineární regrese.
Mezi oblíbené, které byly použity, patří funkce sigmoid, funkce hyperbolické tangenty atd. Mnoho těchto zdrojů najdete online.
Zatímco funkce squashing mají v NN důležitou roli, existuje několik problémů s použitím jednoho. Jedním z problémů je, že je těžké získat mezilehlé hodnoty pomocí squashingových funkcí, protože squashingové funkce se podle definice pokoušejí squashovat funkci na oba konce intervalu. Mohou tedy být obtížně použitelné a funkce rozmačkání mohou být často velmi citlivé na použité váhy. Díky tomu může být trénink velmi obtížný, protože potřebujete najít velmi přesnou sadu závaží, která způsobí rozmačkání přesně tak, jak byste chtěli (jinak budou hodnoty rozmačkané – neexistuje žádná střední cesta).
Dalším problémem je problém mizejícího přechodu. Při použití zpětného šíření a kaskádování chyby má chyba tendenci rychle se snižovat, protože je neustále vynásobena zlomkem jednoho ze squashing výstupu a váhami (které jsou často obvykle inicializovány jako zlomek jednoho). Proto jsou dřívější vrstvy trénovány nejpomaleji a je obtížné je trénovat.
To, co vedlo k nedávné účinnosti NN, bylo použití funkce ReLU místo funkcí squashing, které spíše než squashing the vstup úplně, mapuje vstup na interval [0, x]. To se ukázalo jako mnohem efektivnější u NN a vedlo to k nedávnému úspěchu NN. Lidé si původně, možná trochu naivně, mysleli, že protože funkce není diferencovatelná, nebude tak efektivní, ale ukázalo se, že tomu tak není.
Dokonce i u ReLU je problém Vanishing Gradient stále existuje a s velmi hlubokými sítěmi je stále problém. V současné době se pracuje na různých metodách pokusu o boj s tímto problémem.
Odpověď
Bez funkce squashing by neurální síť nemohla modelovat nelineární vztahy. Ve skutečnosti, pokud mají všechny neurony funkci lineární odezvy, neurální síť, bez ohledu na to, jaká topologie se zjednodušuje na lineární regresi.
Pokud máte výstupní neuron y , který lineárně závisí na mezivrstvu u
y = \ sum\_i \ gamma\_i u\_i
to zase lineárně závisí na vstupních neuronech x
u\_i = \ sum\_j \ beta\_ {ij} x\_j
celá neurální síť se zjednodušuje na
y = \ sum\_ {ij} \ gamma\_i \ beta\_ {ij} x\_j
Pokud optimalizujete termíny čtvercových chyb, skončíte s lineární regresí.