Vad är skillnaden mellan träningsdata och testdata?

Bästa svaret

Tack Yashashri Pahade för A2A. Jag lägger till en till i listan. Det finns tre typer datauppsättning. Jag kommer att diskutera dem alla i detaljer.

När du har en stor datamängd rekommenderas att dela upp den i 3 delar :

  1. Träningsset (60\% av den ursprungliga datamängden) : Detta används för att bygga upp vår förutsägelsealgoritm och för att justera vikterna i det neurala nätverket. Vår algoritm försöker ställa in sig på träningsdatamängdena. I den här fasen skapar vi vanligtvis flera algoritmer för att jämföra deras prestanda under korsvalideringsfasen. Varje typ av algoritm har sin egen parameter alternativ (antalet lager i ett neuralt nätverk, antalet träd i en slumpmässig skog osv.) För var och en av dina algoritmer måste du välja ett alternativ. Det är därför du har en träningsuppsättning.
  2. Korsvalideringsuppsättning (20\% av den ursprungliga datamängden): Denna datamängd används till jämför prestanda för förutsägelsealgoritmer som skapades baserat på träningsuppsättningen. Du har nu en samling algoritmer. Du måste välja en algoritm som har bäst prestanda. Det är därför du har en testuppsättning. En valideringsdatauppsättning är ett urval av data som hålls tillbaka från att utbilda din modell som används för att ge en uppskattning av modellens skicklighet medan du justerar modellens hyperparametrar. Denna datamängd används för att minimera överpassning. Du justerar inte vikterna på nätverket med den här datauppsättningen, verifierar du bara att varje ökad noggrannhet över träningsdatamängden faktiskt ger en ökad noggrannhet jämfört med en datamängd som inte har visats för nätverket tidigare, eller åtminstone har nätverket inte tränad på den (dvs. valideringsdatauppsättning). Om noggrannheten över träningsdatamängden ökar, men noggrannheten över den valideringsdatamängden förblir densamma eller minskar, då är du över anpassning av ditt neurala nätverk och du bör sluta träna .
  3. Testuppsättning (20\% av den ursprungliga datamängden): Nu har vi valt vår föredragna algoritm för förutsägelse, men vi vet inte ännu hur den kommer att fungera på helt osynlig verklighetsdata. Så vi använder vår valda förutsägelsesalgoritm på vår testuppsättning för att se hur den ska prestera så att vi kan få en uppfattning om vår algoritms prestanda på osedda data. Jag antar att om dina algoritmer inte hade några parametrar skulle du inte behöva ett tredje steg. I så fall skulle ditt valideringssteg vara ditt teststeg. Denna datamängd används endast för testning av den slutliga lösningen för att bekräfta nätverkets faktiska prediktiva effekt.

Anmärkningar:

  1. Det är mycket viktigt att komma ihåg att det inte rekommenderas att hoppa över testfasen, eftersom algoritmen som fungerade bra under korsvalideringsfasen betyder inte riktigt att det verkligen är det bästa, eftersom algoritmerna jämförs baserat på korsvalideringsuppsättningen och dess karaktärer och ljud.
  2. Under testet Fas, syftet är att se hur vår slutliga modell kommer att hantera i naturen, så om dess prestanda är mycket dålig bör vi upprepa hela processen från och med träningsfasen.

Källa: Introduktion till mönsteranalys , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University

Svar

Big Data är ett brett koncept som huvudsakligen hänvisar till de enorma och växande mängderna av digitalt tillgänglig data. Big Data refererar urskiljbart till kvantitativa och kvalitativa data (”siffror” och ”text”).

En dataset kan också vara en ospecificerad referens till helt enkelt en insamling av data, inklusive texter och siffror. En datauppsättning är emellertid också en föredragen term när man hänvisar till en specifik samling råvaror som beställs enligt någon organiseringsprincip.

Dessa är några exempel på datamängder:

  • ord – rankning av ordet enligt minskande förekomsthastighet
  • ord på engelska – samma ord ( betyder ) på tyska
  • ord – ordet ordklass klassificering)
  • mening – meningen (upp, ner, intensiv, diminitiv, betydelse etc.) Detta är ett exempel på att meningen har analyserats och taggats med sentimentinformationen som attribut (= metadata).
  • mening – aktualitet av meningen ”Sentiment” är också ett exempel på aktualitet, men potentialen för att tilldela information till en mening går dramatiskt utöver den relativt smala dimensionen av sentiment. Sentimentegenskaper uppgår till cirka 3–4\% av alla ord i en genomsnittlig text.
  • stycke, fulltext, samling av fulltexter : Ett exempel kan vara ”alla muntliga förhandlingar i Storbritanniens underhus (” parlamentet ”) från 2013–1 till 2016–06 (perioden före Brexit)”. Denna typ av dataset består initialt bara av data = namnet på uppsättningen plus innehållet = parlamentarikerns frågor, svar och tal. När den väl har samlats in kan uppsättningen analyseras, visualiseras, taggas, du heter den.

Här är några exempel på analyser baserade på Brexit-dataset:

Cirkeldiagram: Den allmänna balansen mellan referenser till export- och importärenden och frågor.

Uppföljningsanalys: Förekomst av referenser till export och importera i meningar där det finns också hänvisning till EU / Europeiska unionen:

Så här tolkas resultaten: Det totala antalet meningar i datasetet är +1,5 miljoner. I 18.020 av dessa finns en hänvisning till EU / Europeiska unionen. Om referenserna till export, import och förflyttning av varor hade fördelats jämnt skulle det ha funnits 44, 39, 6 respektive noll exempel på dessa ämnen i EU-domarna. När det händer är index för prevalens 705, 697, 792 och 3.810. Detta innebär att exempelvis när EU nämns i en mening är förekomsten av export eller import ungefär 7 gånger högre än om ämnet hade fördelats jämnt.

Dessa och många andra liknande resultat kan vara extraheras från datamängder. Det är i allmänhet önskvärt att samla in medlemmar i uppsättningen som representerar en gemensam princip. I det här fallet vet vi nu något om debatten och kopplingen till EU / Brexit-temat. Om uppsättningen bestod av slumpmässiga texter, till exempel en blandning av tweets, vetenskapliga artiklar, politiska talare, etc., skulle vi inte nödvändigtvis ha någon grund för att dra slutsatser. Det är därför som man måste vara försiktig när man bygger ”förvar” av data.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *