Qual è la differenza tra i dati di addestramento e i dati di test?

Migliore risposta

Grazie Yashashri Pahade per A2A. Ne aggiungerò un altro nellelenco. Esistono tre tipi di set di dati. Li discuterò tutti in dettaglio.

Quando hai un set di dati di grandi dimensioni , ti consigliamo di dividerlo in 3 parti :

  1. Set di addestramento (60\% del set di dati originale) : viene utilizzato per costruire il nostro algoritmo di previsione e per regolare i pesi sulla rete neurale. Il nostro algoritmo cerca di sintonizzarsi sulle stranezze dei set di dati di addestramento. In questa fase di solito creiamo più algoritmi per confrontare le loro prestazioni durante la fase di convalida incrociata. Ogni tipo di algoritmo ha il proprio parametro opzioni (il numero di livelli in una rete neurale, il numero di alberi in una foresta casuale, ecc.) Per ciascuno dei tuoi algoritmi, devi scegliere unopzione. Ecco perché hai un set di addestramento.
  2. Set di convalida incrociata (20\% del set di dati originale): viene utilizzato questo set di dati per confrontare le prestazioni degli algoritmi di previsione che sono stati creati in base al training set. Tu ora hanno una raccolta di algoritmi. Devi scegliere un algoritmo che abbia le migliori prestazioni. Ecco perché hai un set di prova. Un set di dati di convalida è un campione di dati trattenuti dalladdestramento del modello che viene utilizzato per fornire una stima dellabilità del modello durante lottimizzazione degli iperparametri del modello. Questo set di dati viene utilizzato per ridurre al minimo ladattamento eccessivo. Non stai regolando i pesi di la rete con questo set di dati, stai semplicemente verificando che qualsiasi aumento della precisione sul set di dati di addestramento produce effettivamente un aumento della precisione su un set di dati che non è stato mostrato alla rete prima, o almeno la rete non lo ha fatto addestrato su di esso (ad es. set di dati di convalida). Se la precisione sul set di dati di addestramento aumenta, ma la precisione sul set di dati di convalida rimane la stessa o diminuisce, allora “sei adattamento eccessivo della rete neurale e dovresti interrompere laddestramento .
  3. Set di test (20\% del set di dati originale): Ora abbiamo scelto il nostro algoritmo di previsione preferito ma non sappiamo ancora come si comporterà su dati del mondo reale completamente invisibili. Quindi, applichiamo il nostro algoritmo di previsione scelto sul nostro set di test per vedere come funzionerà in modo da avere unidea delle prestazioni del nostro algoritmo su dati invisibili. Suppongo che se i tuoi algoritmi non avessero parametri, non avresti bisogno di un terzo passaggio. In tal caso, il passaggio di convalida sarebbe il passaggio di prova. Questo set di dati viene utilizzato solo per testare la soluzione finale al fine di confermare leffettivo potere predittivo della rete.

Note:

  1. È molto importante tenere presente che non è consigliabile saltare la fase di test, perché lalgoritmo che eseguito bene durante la fase di convalida incrociata non significa che sia veramente il migliore, perché gli algoritmi vengono confrontati in base al set di convalida incrociata e alle sue stranezze e rumori.
  2. Durante il test Fase, lo scopo è vedere come si comporterà il nostro modello finale in natura, quindi nel caso in cui le sue prestazioni siano molto scarse dovremmo ripetere lintero processo a partire dalla fase di addestramento.

Fonte: Introduzione allanalisi dei modelli , Ricardo Gutierrez-Osuna, Texas A&M University, Texas A&M University

Risposta

Big Data è un concetto ampio che si riferisce principalmente allenorme e crescente quantità di dati disponibili digitalmente. Big Data si riferisce indiscriminatamente a dati quantitativi e qualitativi (“numeri” e “testo”).

Un set di dati può anche essere un riferimento non specificato a una semplice raccolta di dati, inclusi testi e numeri. Tuttavia, un set di dati è anche un termine preferito quando si fa riferimento a una raccolta specifica di materie prime ordinate secondo un principio organizzativo.

Questi sono alcuni esempi di set di dati:

  • parola: il rango della parola in base al tasso di occorrenza decrescente
  • parola in inglese – stessa parola ( significato ) in tedesco
  • parola – la classe di parole della parola (parte del discorso- classificazione)
  • frase: il sentiment della frase (su, giù, intenso, diminuito, importanza e così via.) Questo è un esempio della frase che è stata analizzata e contrassegnata con le informazioni sul sentiment come attributo (= metadati).
  • frase – la attualità della frase “Sentiment” è anche un esempio di attualità, ma il potenziale per attribuire informazioni a una frase va drammaticamente oltre la dimensione relativamente ristretta del sentiment. Le caratteristiche del sentimento ammontano a circa il 3-4\% di tutte le parole in un testo medio.
  • paragrafo, testo completo, raccolta di testi completi : Un esempio potrebbe essere “tutti i negoziati orali nella Camera dei Comuni britannica (” Parlamento “) dal 2013-01 al 2016-2006 (il periodo pre-Brexit)”. Questo tipo di set di dati, inizialmente, è costituito solo dai dati = il nome del set più il contenuto = le domande, le risposte e i discorsi dei parlamentari. Una volta raccolto, il set può essere analizzato, visualizzato, taggato e tu gli dai un nome.

Ecco un paio di esempi di analisi basati sul set di dati Brexit:

Grafico a torta: lequilibrio generale tra i riferimenti allesportazione e le questioni e le questioni relative allimportazione.

Analisi di follow-up: prevalenza dei riferimenti allesportazione e importare in frasi in cui è presente anche riferimento a UE / Unione europea:

Ecco come vengono interpretati i risultati: il numero totale di frasi nel set di dati è +1,5 milioni. In 18.020 di questi, cè un riferimento allUE / Unione europea. Se i riferimenti allesportazione, allimportazione e alla circolazione delle merci fossero stati distribuiti in modo uniforme, ci sarebbero stati, rispettivamente, 44, 39, 6 e zero esempi di questi argomenti che si verificano nelle sentenze dellUE. Si dà il caso che gli indici di prevalenza siano 705, 697, 792 e 3.810. Ciò significa che, ad esempio, quando lUE è menzionata in una frase, la prevalenza di esportazione o importazione è circa 7 volte superiore rispetto a se largomento fosse stato distribuito uniformemente.

Questi e molti altri risultati simili possono essere estratti da set di dati. È generalmente desiderabile raccogliere membri dellinsieme che rappresentino un principio comune. In questo caso, ora sappiamo qualcosa sulla natura dei dibattiti e sul collegamento al tema UE / Brexit. Se il set fosse costituito da testi casuali, ad esempio un mix di tweet, articoli scientifici, discorsi politici, ecc. Non avremmo necessariamente alcuna base per trarre conclusioni. Questo è il motivo per cui è necessario prestare attenzione quando si creano “repository” di dati.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *