Beste Antwort
Trainingsfehler ist der Fehler, den Sie erhalten, wenn Sie das trainierte Modell für die Trainingsdaten ausführen. Denken Sie daran, dass diese Daten bereits zum Trainieren des Modells verwendet wurden und dies nicht unbedingt bedeutet, dass das einmal trainierte Modell genau funktioniert, wenn es wieder auf die Trainingsdaten selbst angewendet wird.
Testfehler ist der Fehler, wenn Sie Wenn Sie das trainierte Modell mit einem Datensatz ausführen, dem es zuvor noch nie ausgesetzt war, werden diese Daten häufig verwendet, um die Genauigkeit des Modells zu messen, bevor es an die Produktion geliefert wird.
Antwort
Die Idee ist, absichtlich eine Überanpassung in einem NN-Modell (Neural Network) zu induzieren. Dies können wir tun, indem wir:
- große Modelle mit einer sehr großen Anzahl von Parametern verwenden. A groß genug NN sollte über genügend Freiheitsgrade verfügen, um in den gesamten ImageNet-Datensatz zu passen.
- Wir können Regularisierung wie Dropout, L\_1, L\_2 oder Batch-Normalisierung vermeiden. Durch Regularisierung kann der Trainingsfehler geringfügig erhöht werden, um die Wahrscheinlichkeit eines Trainingsfehlers von Null zu erhöhen Wir müssen jegliche Form der Regularisierung vermeiden, obwohl selbst ein gut reguliertes Modell Null t haben kann Regenfehler.
- Verwenden Sie kleine Lernraten, da große Lernraten tatsächlich kleine Regularisierungseigenschaften haben. Bei großen Lernraten können sich die Modellparameter nicht genau auf ein lokales Minimum einstellen, da Parameteraktualisierungen um das lokale Minimum herum springen. Durch das Herumspringen kann verhindert werden, dass sich das Modell den Trainingssatz merkt. Durch die Verwendung kleiner Lernraten kann sich das Modell in einem lokalen Minimum etwas genauer einstellen, wodurch sich die Wahrscheinlichkeit erhöht, dass sich das Modell den Trainingsdatensatz merkt.
- Trainieren Sie das Modell mit unterschiedlichen anfänglichen Zufallsgewichten, da die Anfangsgewichte stark das lokale Minimum bestimmen, in dem sich die Parameter niederlassen. Einige lokale Minima ermöglichen möglicherweise nicht den Trainingsfehler Null für den gesamten ImageNet-Datensatz. Daher sollten wir absichtlich nach solchen lokalen Minima suchen, bei denen der Trainingsfehler Null ist.
Vermeiden Sie frühes Anhalten, indem Sie das Modell durch eine sehr große Anzahl von Trainingsepochen laufen lassen. Frühes Stoppen hat auch einen Regularisierungseffekt, der das Auswendiglernen des großen Trainingssatzes verhindern kann.
Bei einigen relativ einfachen Datensätzen wie MNIST einige Modelle sind in der Lage, eine Trainingsgenauigkeit von 100\% zu erreichen und gleichzeitig eine ziemlich gute Testgenauigkeit von 99\% + zu erreichen. In solchen Fällen zeigt sich, dass ein Modell mit einem Trainingsfehler von Null keine Überanpassung bedeutet.
Das Erhalten eines Trainingsfehlers von Null für einen sehr großen, komplizierten Datensatz wie ImageNet kann jedoch stark darauf hinweisen, dass Ihr Modell überpasst. P. >
Andere Modelle können einfach mit einer Kapazität erstellt werden, die groß genug ist, um den gesamten ImageNet-Datensatz zu speichern. Wie der Algorithmus für den nächsten Nachbarn (kNN) mit k = 1, und er weist leicht keinen Trainingsfehler auf. Beim maschinellen Lernen (ML) wird der Prozess ausgeführt Das bloße Auswendiglernen eines Trainingssatzes wird als faules Lernen bezeichnet und ist in einigen Fällen tatsächlich wichtig, wenn zwischen Trainings- und Testdatenpunkten keine großen Unterschiede bestehen.
Tatsächlich funktioniert kNN sehr gut für sehr kleine Patches . Bei Patches mit größerer Auflösung leidet kNN jedoch unter dem Fluch der Dimensionalität, da kNN keine relevanten Merkmale lernt, sodass irrelevante Merkmale das Ähnlichkeitsmaß stören können.
Wenn versucht wird, einen Trainingsfehler von Null zu erhalten, Der Fluch der Dimensionalität hat selbst auf den kNN-Algorithmus keine Auswirkung, da wir den Trainingsdatensatz technisch nur an sich selbst anpassen.
Obwohl es weniger wahrscheinlich ist, dass ein solches Modell auf dem Testsatz eine gute Leistung erbringt. Wenn es einen gibt Aufgrund der großen Lücke zwischen Trainingsgenauigkeit und Testgenauigkeit soll das Modell die Trainingsdaten übererfüllt haben.
Ich hoffe, dies hilft.