Warum ist die Quetschfunktion im neuronalen Netzwerk wichtig?


Beste Antwort

Es gibt verschiedene Arten von Quetschfunktionen. Eine Squashing-Funktion wird im Wesentlichen als eine Funktion definiert, die die Eingabe an einem der Enden eines kleinen Intervalls quetscht. In neuronalen Netzen können diese an Knoten in einer verborgenen Ebene verwendet werden, um die Eingabe zu quetschen. Dies führt zu einer Nichtlinearität des NN und ermöglicht, dass das NN effektiv ist. Sie können beweisen, dass Sie ohne Einführung einer Nichtlinearität in jeder Schicht im Wesentlichen nur eine Reihe linearer Transformationen haben würden, die genauso effektiv wären wie eine lineare Transformation, sodass das NN eher einer linearen Regression ähnelt.

Beliebte, die verwendet wurden, sind die Sigmoid-Funktion, die hyperbolische Tangentenfunktion usw. Viele dieser Ressourcen sind online verfügbar.

Während Squashing-Funktionen in NN eine wichtige Rolle spielen, gibt es mehrere Probleme mit einem. Eines der Probleme ist, dass es schwierig ist, Zwischenwerte mithilfe von Squashing-Funktionen zu erhalten, da Squashing-Funktionen per Definition versuchen, die Funktion an beiden Enden des Intervalls zu quetschen. Daher kann es schwierig sein, sie zu verwenden, und häufig können die Quetschfunktionen sehr empfindlich auf die angewendeten Gewichte reagieren. Dies kann das Training sehr schwierig machen, da Sie einen sehr genauen Satz von Gewichten finden müssen, der das Quetschen genau so erzeugt, wie Sie es möchten (andernfalls werden die Werte gequetscht – es gibt keinen Mittelweg).

Ein weiteres Problem ist das Problem des verschwindenden Gradienten. Wenn Backpropagation verwendet und der Fehler kaskadiert wird, nimmt der Fehler tendenziell schnell ab, da er ständig mit einem Bruchteil von eins aus der Squashing-Ausgabe und den Gewichten multipliziert wird (die häufig als Bruchteil von eins initialisiert werden). Daher sind frühere Schichten am langsamsten zu trainieren und es ist schwierig, sie zu trainieren.

Was zur jüngsten Wirksamkeit von NNs führte, war die Verwendung der ReLU-Funktion anstelle der Quetschfunktionen, die die Quetschfunktionen nicht quetschten Bei vollständiger Eingabe wird die Eingabe einem Intervall [0, x] zugeordnet. Dies erwies sich bei NNs als viel effektiver und führte zu dem jüngsten NN-Erfolg. Die Leute dachten ursprünglich vielleicht ein wenig naiv, dass die Funktion nicht so effektiv sei, weil sie nicht differenzierbar sei, aber dies erwies sich als nicht der Fall.

Selbst bei ReLUs war das Problem des verschwindenden Gradienten existiert immer noch und mit sehr tiefen Netzwerken ist immer noch ein Problem. Derzeit wird an verschiedenen Methoden gearbeitet, um dieses Problem zu bekämpfen.

Antwort

Ohne eine Squashing-Funktion wäre ein neuronales Netzwerk nicht in der Lage, nichtlineare Beziehungen zu modellieren. In der Tat, wenn alle Neuronen eine lineare Antwortfunktion haben, das neuronale Netzwerk, unabhängig davon, welche Topologie zu einer linearen Regression vereinfacht.

Wenn Sie ein Ausgangsneuron haben y , das linear von einer Zwischenschicht abhängt u

y = \ sum\_i \ gamma\_i u\_i

das hängt wiederum linear von den Eingangsneuronen ab x

u\_i = \ sum\_j \ beta\_ {ij} x\_j

Das gesamte neuronale Netzwerk vereinfacht sich zu

y = \ sum\_ {ij} \ gamma\_i \ beta\_ {ij} x\_j

Wenn Sie quadratische Fehlerterme optimieren, erhalten Sie eine lineare Regression.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.