Bedste svar
Tak Yashashri Pahade for A2A. Jeg vil tilføje en mere på listen. Der er tre typer datasæt. Jeg vil diskutere dem alle detaljeret.
Når du har et stort datasæt , anbefales det at opdele det i 3 dele :
- Træningssæt (60\% af det originale datasæt) : Dette bruges til at opbygge vores forudsigelsesalgoritme og til at justere vægten på det neurale netværk. Vores algoritme forsøger at indstille sig på besynderne ved træningsdatasættene. I denne fase opretter vi normalt flere algoritmer for at sammenligne deres præstationer under krydsvalideringsfasen. Hver type algoritme har sin egen parameter valgmuligheder (antallet af lag i et neuralt netværk, antallet af træer i en tilfældig skov osv.). For hver af dine algoritmer skal du vælge en mulighed. Derfor har du et træningssæt.
- Krydsvalideringssæt (20\% af det originale datasæt): Dette datasæt bruges til sammenlign ydeevnen for forudsigelsesalgoritmerne, der blev oprettet baseret på træningssættet. Du har nu en samling algoritmer. Du skal vælge en algoritme, der har den bedste præstation. Derfor har du et testsæt. Et valideringsdatasæt er en stikprøve af data, der holdes tilbage fra træning af din model, der bruges til at give et skøn over modelfærdigheder, mens du indstiller modelens hyperparametre. Dette datasæt bruges til at minimere overmontering. Du justerer ikke vægten af netværket med dette datasæt, verificerer du bare, at enhver stigning i nøjagtighed i forhold til træningsdatasættet faktisk giver en stigning i nøjagtighed i forhold til et datasæt, der ikke er blevet vist til netværket før, eller i det mindste netværket ikke har “t trænet i det (dvs. valideringsdatasæt). Hvis nøjagtigheden i forhold til træningsdatasættet stiger, men nøjagtigheden i forhold til dette, forbliver valideringsdatasættet det samme eller aftager, så ” over tilpasning af dit neurale netværk, og du skal stoppe med at træne .
- Test sæt (20\% af det originale datasæt): Nu har vi valgt vores foretrukne forudsigelsesalgoritme, men vi ved endnu ikke, hvordan den skal udføre på helt usete data fra den virkelige verden. Så vi anvender vores valgte forudsigelsesalgoritme på vores testsæt for at se, hvordan den skal udføre, så vi kan få en idé om vores algoritmes ydeevne på usete data. Jeg formoder, at hvis dine algoritmer ikke havde nogen parametre, ville du ikke have brug for et tredje trin. I så fald ville dit valideringstrin være dit teststrin. Dette datasæt bruges kun til testning af den endelige løsning for at bekræfte den faktiske forudsigelige effekt i netværket.
Bemærkninger:
- Det er meget vigtigt at huske på, at det ikke anbefales at springe over testfasen, fordi algoritmen, der udført godt under krydsvalideringsfasen betyder det ikke rigtig, at det virkelig er den bedste, fordi algoritmerne sammenlignes baseret på krydsvalideringssættet og dets quirks og lyde.
- Under testen Fase, formålet er at se, hvordan vores endelige model vil håndtere i naturen, så hvis dens præstation er meget dårlig, skal vi gentage hele processen startende fra træningsfasen.
Kilde: Introduktion til mønsteranalyse , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University
Svar
Big Data er et bredt koncept, der primært refererer til de enorme og voksende mængder af digitalt tilgængelige data. Big Data refererer uden forskel til kvantitative og kvalitative data (“tal” og “tekst”).
Et datasæt kan også være en uspecificeret henvisning til simpelthen en indsamling af data, herunder tekster og tal. Et datasæt er dog også et foretrukket udtryk, når der henvises til en bestemt samling af råmaterialer, der er bestilt efter et eller flere organiseringsprincipper.
Dette er nogle eksempler på datasæt:
- ord – ordet i henhold til faldende forekomst
- ord på engelsk – samme ord ( betyder ) på tysk
- ord – ordet ordklasse (ordklasse- klassificering)
- sætning – sætningens -sentiment (op, ned, intens, mindskende, betydning osv.) Dette er et eksempel på, at sætningen er blevet analyseret og mærket med følelsesoplysningerne som en attribut (= metadata).
- sætning – aktualitet af sætningen “Sentiment” er også et eksempel på aktualitet, men potentialet for at tildele information til en sætning går dramatisk ud over den relativt snævre dimension af sentiment. Følelsesegenskaber udgør ca. 3-4\% af alle ord i en gennemsnitlig tekst.
- afsnit, fuldtekst, samling af fulde tekster : Et eksempel kan være “alle mundtlige forhandlinger i Det Forenede Kongerige Underhus (” Parlamentet “) fra 2013–1 til 2016–06 (perioden før Brexit)”. Denne type datasæt består oprindeligt kun af data = navnet på sættet plus indholdet = spørgsmål, svar og taler fra parlamentarikere. Når det er samlet, kan sættet analyseres, visualiseres, tagges, du hedder det.
Her er et par eksempler på analyser baseret på Brexit-datasættet:
Cirkeldiagram: Den generelle balance mellem henvisninger til eksport- og importanliggender og spørgsmål.
Opfølgningsanalyse: Forekomst af referencer til eksport og importer i sætninger, hvor der er også henvisning til EU / Den Europæiske Union:
Sådan fortolkes resultaterne: Det samlede antal sætninger i datasættet er +1,5 millioner. I 18.020 af disse er der en henvisning til EU / Den Europæiske Union. Hvis henvisningerne til eksport, import og flytning af varer var fordelt jævnt, ville der have været henholdsvis 44, 39, 6 og nul eksempler på disse emner, der forekommer i EU-sætningerne. Som det sker, er indekserne for prævalens 705, 697, 792 og 3.810. Dette betyder, at for eksempel, når EU nævnes i en sætning, er forekomsten af eksport eller import ca. 7 gange højere, end hvis emnet var fordelt jævnt.
Disse og mange andre lignende resultater kan være ekstraheret fra datasæt. Det er generelt ønskeligt at samle medlemmer af sættet, der repræsenterer et fælles princip. I dette tilfælde ved vi nu noget om debattenes art og forbindelsen til EU / Brexit-temaet. Havde sættet bestået af tilfældige tekster, for eksempel en blanding af tweets, videnskabelige artikler, politiske talere osv., Ville vi ikke nødvendigvis have noget grundlag for at drage konklusioner. Dette er grunden til, at der skal udvises forsigtighed, når der opbygges “arkiver” af data.