Mejor respuesta
El error de entrenamiento es el error que aparece cuando ejecutas el modelo entrenado de nuevo en los datos de entrenamiento. Recuerde que estos datos ya se han utilizado para entrenar el modelo y esto no significa necesariamente que el modelo, una vez entrenado, funcione con precisión cuando se vuelva a aplicar en los datos de entrenamiento.
El error de prueba es el error cuando obtener cuando ejecuta el modelo entrenado en un conjunto de datos a los que nunca ha estado expuesto anteriormente. Estos datos se utilizan a menudo para medir la precisión del modelo antes de enviarlo a producción.
Respuesta
La idea es inducir deliberadamente el sobreajuste en un modelo de red neuronal (NN), podemos hacerlo mediante:
- Utilizando modelos grandes con una gran cantidad de parámetros. NN debe tener suficientes grados de libertad para adaptarse a todo el conjunto de datos de ImageNet.
- Podemos evitar la regularización, como la deserción, L\_1, L\_2 o la normalización por lotes. La regularización puede aumentar ligeramente el error de entrenamiento y, por lo tanto, aumentar las posibilidades de error de entrenamiento cero debemos evitar cualquier forma de regularización. Aunque incluso un modelo bien regularizado puede tener cero t Error de lluvia.
- Utilice tasas de aprendizaje pequeñas porque las tasas de aprendizaje grandes en realidad tienen propiedades de regularización pequeñas. Para tasas de aprendizaje grandes, los parámetros del modelo no pueden establecerse con precisión en un mínimo local porque las actualizaciones de parámetros saltan alrededor del mínimo local. Que los saltos pueden evitar que el modelo memorice el conjunto de entrenamiento, por lo tanto, al usar pequeñas tasas de aprendizaje, el modelo puede asentarse con un poco más de precisión en un mínimo local, lo que aumenta las posibilidades de que el modelo memorice el conjunto de datos de entrenamiento.
- Evite detenerse antes de tiempo ejecutando el modelo a través de un gran número de épocas de entrenamiento. La detención anticipada también tiene algún efecto de regularización que podría evitar la memorización del conjunto de entrenamiento grande.
- Entrene el modelo con diferentes pesos aleatorios iniciales, ya que los pesos iniciales determinan fuertemente el mínimo local en el que se asentarán los parámetros. Es posible que algunos mínimos locales no permitan un error de entrenamiento cero en todo el conjunto de datos de ImageNet, por lo que debemos buscar deliberadamente esos mínimos locales donde el error de entrenamiento es cero.
En algunos conjuntos de datos relativamente simples como MNIST, algunos modelos son capaces de obtener una precisión de entrenamiento del 100\% y al mismo tiempo obtener una precisión de prueba bastante buena del 99\% +. En tales casos, muestra que un modelo con cero errores de entrenamiento no implica sobreajuste.
Pero obtener cero errores de entrenamiento en un conjunto de datos complicado muy grande como ImageNet puede indicar claramente que su modelo está sobreajustado.
Se pueden construir otros modelos simplemente con una capacidad suficientemente grande para memorizar todo el conjunto de datos de ImageNet. Como el algoritmo de k vecino más cercano (kNN) con k = 1 y fácilmente tendrá cero errores de entrenamiento. En el aprendizaje automático (ML) el proceso de simplemente memorizar un conjunto de entrenamiento se llama aprendizaje lento y en realidad es importante en algunos casos cuando no hay mucha variación entre el entrenamiento y los puntos de datos de prueba.
De hecho, kNN funciona muy bien para parches muy pequeños . Sin embargo, con parches de mayor resolución, kNN sufre la maldición de la dimensionalidad porque kNN no aprende las características relevantes, por lo que las características irrelevantes pueden interferir con la medida de similitud.
En el caso de intentar obtener un error de entrenamiento cero, la maldición de la dimensionalidad no tiene ningún efecto incluso en el algoritmo kNN, ya que técnicamente solo estamos haciendo coincidir el conjunto de datos de entrenamiento con él mismo.
Aunque es menos probable que un modelo de este tipo funcione bien en el conjunto de prueba. Cuando hay un gran brecha entre la precisión del entrenamiento y la precisión de la prueba, se dice que el modelo se ha ajustado a los datos de entrenamiento.
Espero que esto ayude.