Che cosè un errore di addestramento e di prova?


Risposta migliore

Lerrore di addestramento è lerrore che si ottiene quando si esegue nuovamente il modello addestrato sui dati di addestramento. Ricorda che questi dati sono già stati utilizzati per addestrare il modello e questo non significa necessariamente che il modello, una volta addestrato, funzionerà in modo accurato se applicato nuovamente ai dati di addestramento stessi.

Lerrore di test è lerrore quando tu ottenere quando esegui il modello addestrato su un insieme di dati a cui non è mai stato esposto in precedenza. Questi dati vengono spesso utilizzati per misurare laccuratezza del modello prima che venga spedito alla produzione.

Risposta

Lidea è di indurre deliberatamente loverfitting in un modello di rete neurale (NN), possiamo farlo:

  • Utilizzando modelli di grandi dimensioni con un numero molto elevato di parametri. NN dovrebbe avere sufficienti gradi di libertà per adattarsi allintero set di dati ImageNet.
  • Possiamo evitare la regolarizzazione come dropout, L\_1, L\_2 o normalizzazione batch. La regolarizzazione può aumentare leggermente lerrore di addestramento, aumentando così le possibilità di zero errori di addestramento bisogna evitare qualsiasi forma di regolarizzazione, sebbene anche un modello ben regolarizzato possa avere t zero piove errore.
  • Usa bassi tassi di apprendimento perché grandi tassi di apprendimento hanno effettivamente piccole proprietà di regolarizzazione. Per velocità di apprendimento elevate, i parametri del modello non possono stabilirsi con precisione in un minimo locale perché gli aggiornamenti dei parametri saltano intorno al minimo locale. Il fatto di saltare qua e là può impedire al modello di memorizzare il set di addestramento, quindi utilizzando piccole velocità di apprendimento, il modello può stabilirsi un po più precisamente in un minimo locale, aumentando così le possibilità che il modello memorizzi il set di dati di addestramento.
  • Evita larresto anticipato eseguendo il modello attraverso un numero molto elevato di epoche di addestramento. Larresto anticipato ha anche un effetto di regolarizzazione che potrebbe impedire la memorizzazione del grande set di addestramento.
  • Addestra il modello con diversi pesi casuali iniziali, poiché i pesi iniziali determinano fortemente il minimo locale in cui i parametri si stabiliranno. Alcuni minimi locali potrebbero non abilitare zero errori di addestramento sullintero set di dati ImageNet, quindi dovremmo cercare deliberatamente tali minimi locali in cui lerrore di addestramento è zero.

Su alcuni set di dati relativamente semplici come MNIST alcuni modelli sono in grado di ottenere una precisione di allenamento del 100\% e allo stesso tempo una precisione del test abbastanza buona del 99\% +. In questi casi, mostra che un modello con zero errori di addestramento non implica un overfitting.

Ma ottenere zero errori di addestramento su un insieme di dati complicato molto grande come ImageNet può indicare fortemente che il tuo modello è overfitting.

Altri modelli possono essere costruiti semplicemente con una capacità sufficiente per memorizzare lintero set di dati ImageNet. Come lalgoritmo k più vicino (kNN) con k = 1 e avrà facilmente zero errori di addestramento. Nellapprendimento automatico (ML) il processo della semplice memorizzazione di un set di addestramento è chiamato apprendimento pigro ed è effettivamente importante in alcuni casi quando non ci sono molte variazioni tra i punti dati di addestramento e di prova.

In effetti kNN funziona molto bene per patch molto piccole . Tuttavia, con patch a risoluzione maggiore, kNN soffre della maledizione della dimensionalità perché kNN non apprende caratteristiche rilevanti, quindi caratteristiche irrilevanti possono interferire con la misura di somiglianza.

Nel caso in cui si cerchi di ottenere zero errori di addestramento, la maledizione della dimensionalità non ha alcun effetto nemmeno sullalgoritmo kNN poiché tecnicamente stiamo solo facendo corrispondere il set di dati di addestramento a se stesso.

Anche se è meno probabile che un modello di questo tipo abbia un buon rendimento sul set di test. enorme divario tra laccuratezza delladdestramento e laccuratezza del test, si dice che il modello abbia sovradimensionato i dati di allenamento.

Spero che questo aiuti.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *