Care este diferența dintre datele de antrenament și datele de testare?

Cel mai bun răspuns

Vă mulțumim Yashashri Pahade pentru A2A. Voi adăuga încă unul în listă. Există trei tipuri de set de date. Le voi discuta pe toate în detalii.

Când aveți un set de date mare , este recomandat să îl împărțiți în 3 părți :

  1. Set de formare (60\% din setul de date original) : Acesta este folosit pentru a construi algoritmul nostru de predicție și pentru a regla greutățile din rețeaua neuronală. Algoritmul nostru încearcă să se adapteze la capriciile seturilor de date de antrenament. În această fază de obicei creăm mai mulți algoritmi pentru a le compara performanțele în timpul fazei de validare încrucișată. Fiecare tip de algoritm are propriul parametru opțiuni (numărul de straturi dintr-o rețea neuronală, numărul de copaci dintr-o pădure aleatorie etc.). Pentru fiecare dintre algoritmii dvs., trebuie să alegeți o opțiune. De aceea aveți un set de antrenament.
  2. Set de validare încrucișată (20\% din setul de date original): Acest set de date este utilizat pentru a compara performanțele algoritmilor de predicție care au fost creați pe baza setului de antrenament. acum aveți o colecție de algoritmi. Trebuie să alegeți un algoritm care are cea mai bună performanță. De aceea aveți un set de testare. Un set de date de validare este un eșantion de date reținute de la instruirea modelului dvs., care este utilizat pentru a oferi o estimare a abilității modelului în timp ce reglați parametrii hiper modelului. Acest set de date este utilizat pentru a minimiza supraadaptarea. Nu reglați greutățile rețeaua cu acest set de date, doar verificați că orice creștere a preciziei asupra setului de date de antrenament produce de fapt o creștere a preciziei asupra unui set de date care nu a fost prezentat anterior rețelei sau cel puțin rețeaua nu are instruit în acest sens (adică set de date de validare). Dacă acuratețea asupra setului de date de antrenament crește, dar acuratețea de atunci setul de date de validare rămâne aceeași sau scade, atunci „re potrivindu-vă rețelei neuronale și ar trebui să încetați antrenamentul .
  3. Set de testare (20\% din setul de date original): Acum am ales algoritmul nostru de predicție preferat, dar nu știm încă cum va funcționa pe date din lumea reală complet nevăzute. Deci, aplicăm algoritmul nostru de predicție ales pe setul de testare pentru a vedea cum va funcționa, astfel încât să putem avea o idee despre performanța algoritmului nostru pe date nevăzute. Presupun că dacă algoritmii dvs. nu ar avea niciun parametru, atunci nu ați avea nevoie de un al treilea pas. În acest caz, etapa de validare ar fi etapa de testare. Acest set de date este utilizat numai pentru testarea soluției finale pentru a confirma puterea predictivă reală a rețelei.

Note:

  1. Este foarte important să rețineți că omiterea fazei de testare nu este recomandată, deoarece algoritmul care efectuat bine în timpul fazei de validare încrucișată nu înseamnă că este cu adevărat cel mai bun, deoarece algoritmii sunt comparați pe baza setului de validare încrucișată și a ciudățenilor și zgomotelor sale.
  2. În timpul testului Faza, scopul este să vedem cum va rezolva modelul nostru final în sălbăticie, așa că, în cazul în care performanța sa este foarte slabă, ar trebui să repetăm ​​întregul proces începând cu faza de antrenament.

Sursă: Introducere în analiza modelelor , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University

Răspuns

Big Data este un concept larg care se referă în principal la cantitățile enorme și în creștere de date disponibile digital. Big Data se referă fără discriminare la date cantitative și calitative („numere” și „text”).

Un set de date poate fi, de asemenea, o referință nespecificată la o simplă colecție de date, inclusiv texte și numere. Cu toate acestea, un set de date este, de asemenea, un termen preferat atunci când se referă la o colecție specifică de materii prime care sunt comandate conform unor principii de organizare.

Acestea sunt câteva exemple de seturi de date:

  • cuvânt – rang al cuvântului în funcție de rata diminuată de apariție
  • cuvânt în engleză – același cuvânt ( care înseamnă ) în germană
  • cuvânt – clasa de cuvinte a cuvântului (parte din vorbire- clasificare)
  • propoziție – sentiment al propoziției (sus, jos, intens, diminuator, importanță etc.)) Acesta este un exemplu al frazei care a fost analizată și etichetată cu informațiile despre sentiment ca atribut (= meta date).
  • propoziție – actualitate al propoziției „Sentiment” este, de asemenea, un exemplu de actualitate, dar potențialul de a atribui informații unei propoziții depășește dramatic dimensiunea relativ îngustă a sentimentului. Caracteristicile sentimentului se ridică la aproximativ 3-4\% din toate cuvintele dintr-un text mediu.
  • paragraf, text integral, colecție de texte complete : Un exemplu ar putea fi „toate negocierile orale din Camera Comunelor din Marea Britanie („ Parlamentul ”) din perioada 2013–01 până în perioada 2016–06 (perioada pre-Brexit)”. Acest tip de set de date, inițial, constă doar din date = numele setului plus conținutul = întrebările, răspunsurile și discursurile parlamentarilor. Odată colectat, setul poate fi analizat, vizualizat, etichetat, pe care îl numiți.

Iată câteva exemple de analize bazate pe setul de date Brexit:

Diagramă circulară: echilibrul general între referințele la problemele și problemele de export și import.

Analiza de urmărire: Prevalența referințelor la export și import în propoziții în care există și referință la UE / Uniunea Europeană:

Astfel se interpretează rezultatele: numărul total de propoziții din setul de date este de +1,5 milioane. În 18.020 dintre acestea, există o referință la UE / Uniunea Europeană. Dacă referințele la export, import și circulație a mărfurilor ar fi fost distribuite uniform, ar fi existat, respectiv, 44, 39, 6 și zero exemple ale acestor subiecte care apar în propozițiile UE. După cum se întâmplă, indicii de prevalență sunt 705, 697, 792 și 3,810. Aceasta înseamnă că, de exemplu, atunci când UE este menționată într-o propoziție, prevalența exportului sau a importului este de aproximativ 7 ori mai mare decât dacă subiectul ar fi fost distribuit în mod egal.

Acestea și multe alte rezultate similare pot fi extras din seturile de date. În general, este de dorit să colectăm membri ai setului care reprezintă un principiu comun. În acest caz, acum știm ceva despre natura dezbaterilor și legătura cu tema UE / Brexit. Dacă setul ar fi format din texte aleatorii, de exemplu un amestec de tweets, articole științifice, vorbitori politici etc., nu am avea neapărat nicio bază pentru a face concluzii. Acesta este motivul pentru care trebuie să aveți grijă atunci când construiți „depozite” de date.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *