Meilleure réponse
Lerreur dentraînement est lerreur que vous obtenez lorsque vous exécutez le modèle entraîné sur les données dentraînement. Noubliez pas que ces données ont déjà été utilisées pour entraîner le modèle et que cela ne signifie pas nécessairement que le modèle une fois entraîné fonctionnera avec précision lorsquil sera appliqué sur les données dentraînement elles-mêmes.
Lerreur de test est lerreur lorsque vous get lorsque vous exécutez le modèle entraîné sur un ensemble de données auxquelles il na jamais été exposé auparavant. Ces données sont souvent utilisées pour mesurer la précision du modèle avant sa mise en production.
Réponse
Lidée est dinduire délibérément un surajustement dans un modèle de réseau neuronal (NN), nous pouvons le faire en:
- En utilisant de grands modèles avec un très grand nombre de paramètres. NN doit avoir suffisamment de degrés de liberté pour sadapter à lensemble de données ImageNet.
- Nous pouvons éviter les régularisations telles que labandon, L\_1, L\_2 ou la normalisation par lots. La régularisation peut légèrement augmenter lerreur dentraînement, augmentant ainsi les chances de zéro erreur dentraînement nous devons éviter toute forme de régularisation, même si même un modèle bien régularisé peut avoir zéro t erreur de pluie.
- Utilisez des taux dapprentissage faibles car les taux dapprentissage élevés ont en fait de petites propriétés de régularisation. Pour des taux dapprentissage élevés, les paramètres du modèle ne peuvent pas sinstaller précisément dans un minimum local car les mises à jour des paramètres sautent autour du minimum local. Ce saut dobstacles peut empêcher le modèle de mémoriser lensemble dapprentissage. Ainsi, en utilisant de faibles taux dapprentissage, le modèle peut sinstaller un peu plus précisément dans un minimum local, augmentant ainsi les chances que le modèle mémorise lensemble de données dentraînement.
- Évitez les arrêts prématurés en exécutant le modèle sur un très grand nombre dépoques dentraînement. Larrêt précoce a également un effet de régularisation qui pourrait empêcher la mémorisation du grand ensemble dapprentissage.
- Entraînez le modèle avec différents poids aléatoires initiaux, car les poids initiaux déterminent fortement le minimum local dans lequel les paramètres vont sinstaller. Certains minima locaux peuvent ne pas permettre une erreur dapprentissage zéro sur lensemble de données ImageNet, nous devrions donc rechercher délibérément ces minima locaux où lerreur dapprentissage est zéro.
Sur certains ensembles de données relativement simples comme MNIST, certains modèles sont capables dobtenir une précision dentraînement de 100\% tout en obtenant en même temps une assez bonne précision de test de 99\% +. Dans de tels cas, cela montre quun modèle sans erreur de formation nimplique pas de surajustement.
Mais obtenir zéro erreur de formation sur un très grand ensemble de données compliqué comme ImageNet peut fortement indiquer que votre modèle est en surapprentissage.
Dautres modèles peuvent être construits simplement avec une capacité suffisante pour mémoriser lensemble de données ImageNet. Comme lalgorithme k plus proche voisin (kNN) avec k = 1 et il naura facilement aucune erreur dentraînement. En apprentissage automatique (ML), le processus de mémoriser simplement un ensemble dapprentissage est appelé apprentissage paresseux et cest en fait important dans certains cas lorsquil ny a pas beaucoup de variation entre les points de données dentraînement et de test.
En fait, kNN fonctionne très bien pour de très petits correctifs . Cependant, avec des correctifs de plus grande résolution, kNN souffre de la malédiction de la dimensionnalité parce que kNN napprend pas les fonctionnalités pertinentes, donc des fonctionnalités non pertinentes peuvent interférer avec la mesure de similarité.
Dans le cas où vous essayez dobtenir zéro erreur dentraînement, la malédiction de la dimensionnalité na aucun effet, même sur lalgorithme kNN puisque nous faisons simplement correspondre techniquement lensemble de données dapprentissage à lui-même.
Bien quun tel modèle ait moins de chances de bien fonctionner sur lensemble de test. Lorsquil y a un énorme écart entre la précision de lentraînement et la précision du test, le modèle aurait surajusté les données dentraînement.
Jespère que cela aide.