Legjobb válasz
Különböző típusú squash funkciók léteznek. Az összecsapás funkciót alapvetően olyan funkcióként definiálják, amely a bemenetet egy kis intervallum egyik végéig összenyomja. A neurális hálózatokban ezeket egy rejtett réteg csomópontjainál lehet felhasználni a bemenet összezárásához. Ez bevezeti az NN nem-linearitását és lehetővé teszi az NN hatékonyságát. Be tudja bizonyítani, hogy anélkül, hogy minden rétegbe bevonnánk a nem-linearitást, lényegében csak egy sor lineáris transzformációnk lenne, amely ugyanolyan hatékony lenne, mint egy lineáris transzformáció, tehát az NN inkább egy lineáris regresszióhoz hasonlítana.
A legnépszerűbbek közé tartozik a sigmoid függvény, a hiperbolikus tangens függvény stb. Sok ilyen erőforrást megtalálhat online.
Noha a squash funkciók fontos szerepet töltenek be az NN-ben, számos kérdés van az egyik használatával. Az egyik kérdés az, hogy a tömbfüggvények használatával nehéz közbenső értékeket szerezni, mert definíció szerint a tömbfüggvények megpróbálják összezúzni a függvényt az intervallum két végére. Így nehezen használhatók, és gyakran az összecsapási funkciók nagyon érzékenyek lehetnek az alkalmazott súlyokra. Ez nagyon megnehezítheti az edzést, mert meg kell találnia egy nagyon pontos súlykészletet, amely pontosan úgy állítja elő a súlyzást, ahogyan szeretné (különben az értékek összecsapódnak – nincs középút).
Egy másik kérdés az eltűnő színátmenet problémája. Visszatenyésztés és a hiba lépcsőzetes használata esetén a hiba gyorsan csökken, mert folyamatosan megszorozza a töredező kimenet és a súlyok egy részével (amelyeket általában jellemzően egy részeként inicializálnak). Így a korábbi rétegeket lehet a leglassabban edzeni, és nehéz őket kiképezni.
Mi vezetett az NN-ek közelmúltbeli hatékonyságához, hogy a ReLU függvényt használták a squashing függvények helyett, ami ahelyett, hogy összecsapta volna a a bemenet teljesen, a bemenetet [0, x] intervallumra térképezi fel. Ez sokkal hatékonyabbnak bizonyult az NN-ekben, és a közelmúltbeli NN-sikerhez vezetett. Az emberek eredetileg, talán kissé naivan gondolták, hogy mivel a funkció nem volt megkülönböztethető, nem lesz olyan hatékony, de ez bebizonyosodott, hogy nem ez a helyzet.
Még a ReLU-k esetében is az Eltűnő Gradiens probléma még mindig létezik, és nagyon mély hálózatokkal még mindig kérdés. Különböző módszereken dolgoznak jelenleg a probléma leküzdésére.
Válasz
Összeszorító funkció nélkül az idegháló nem lenne képes nemlineáris kapcsolatok modellezésére. Valójában, ha minden idegsejtnek lineáris válaszfüggvénye van, akkor az ideghálózat, függetlenül attól, hogy a topológia egyszerűsödik-e lineáris regresszióvá.
Ha van kimeneti neuronja, y , amely lineárisan függ egy köztes rétegtől u
y = \ sum\_i \ gamma\_i u\_i
ez viszont lineárisan függ a bemeneti idegsejtektől x
u\_i = \ sum\_j \ beta\_ {ij} x\_j
az egész neurális hálózat leegyszerűsödik
y = \ sum\_ {ij} \ gamma\_i \ beta\_ {ij} x\_j
Ha a négyzetes hibakifejezéseket optimalizálja, akkor lineáris regresszió lesz.