Beste svaret
Takk Yashashri Pahade for A2A. Jeg vil legge til en til i listen. Det er tre typer datasett. Jeg vil diskutere dem alle i detaljer.
Når du har et stort datasett , anbefales det å dele det opp i 3 deler :
- Treningssett (60\% av det opprinnelige datasettet) : Dette brukes til å bygge opp vår prediksjonsalgoritme og til å justere vektene på nevrale nettverk. Algoritmen vår prøver å stille seg inn i treningens datasett. I denne fasen lager vi vanligvis flere algoritmer for å sammenligne prestasjonene deres i løpet av kryssvalideringsfasen. Hver type algoritme har sin egen parameter alternativer (antall lag i et nevralt nettverk, antall trær i en tilfeldig skog osv.). For hver av algoritmene dine må du velge ett alternativ. Derfor har du et treningssett.
- Kryssvalideringssett (20\% av det opprinnelige datasettet): Dette datasettet brukes til sammenlign resultatene til prediksjonsalgoritmene som ble opprettet basert på treningssettet. Du har nå en samling algoritmer. Du må velge en algoritme som har best ytelse. Derfor har du et testsett. Et valideringsdatasett er et utvalg av data som holdes tilbake fra opplæring av modellen din, og som brukes til å gi et estimat av modellferdigheter mens du justerer modellens hyperparametere. Dette datasettet brukes til å minimere overmontering. Du justerer ikke vektene til nettverket med dette datasettet, bekrefter du bare at enhver økning i nøyaktighet over treningsdatasettet faktisk gir en økning i nøyaktighet i forhold til et datasett som ikke har blitt vist til nettverket før, eller i det minste har nettverket ikke trent på det (dvs. valideringsdatasett). Hvis nøyaktigheten over treningsdatasettet øker, men nøyaktigheten over det valideringsdatasettet forblir den samme eller avtar, så » for å montere nevrale nettverk og du bør slutte å trene .
- Testsett (20\% av det opprinnelige datasettet): Nå har vi valgt vår foretrukne prediksjonsalgoritme, men vi vet ikke ennå hvordan den skal utføre på helt usynlige data fra den virkelige verden. Så, vi bruker vår valgte prediksjonsalgoritme på vårt testsett for å se hvordan den skal utføre, slik at vi kan få en ide om algoritmens ytelse på usynlige data. Jeg antar at hvis algoritmene dine ikke hadde noen parametere, ville du ikke trenge et tredje trinn. I så fall vil valideringstrinnet være teststrinnet ditt. Dette datasettet brukes bare for testing av den endelige løsningen for å bekrefte den faktiske prediktive effekten til nettverket.
Merknader:
- Det er veldig viktig å huske på at det ikke anbefales å hoppe over testfasen, fordi algoritmen som utført godt i kryssvalideringsfasen, betyr det ikke egentlig at det er den beste, fordi algoritmene blir sammenlignet basert på kryssvalideringssettet og dets særegenheter og lyder.
- Under testen Fase, formålet er å se hvordan den endelige modellen vår vil håndtere i naturen, så hvis ytelsen er veldig dårlig, bør vi gjenta hele prosessen med utgangspunkt i treningsfasen.
Kilde: Introduksjon til mønsteranalyse , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University
Svar
Big Data er et bredt konsept som hovedsakelig refererer til de enorme og økende mengder digitalt tilgjengelige data. Big Data refererer uavgrenset til kvantitative og kvalitative data («tall» og «tekst»).
Et datasett kan også være en uspesifisert referanse til bare en samling data, inkludert tekster og tall. Et datasett er imidlertid også et foretrukket begrep når det refereres til en bestemt samling av råvarer som er bestilt i henhold til noen organisasjonsprinsipper.
Dette er noen eksempler på datasett:
- ord – rangering av ordet i henhold til avtagende forekomstfrekvens
- ord på engelsk – samme ord ( som betyr ) på tysk
- ord – ordklasse av ordet (ordklasse- klassifisering)
- setning – setningen (opp, ned, intens, diminitiv, betydning osv.) Dette er et eksempel på at setningen er analysert og merket med sentimentinformasjonen som et attributt (= metadata).
- setning – aktualitet for setningen «Sentiment» er også et eksempel på aktualitet, men potensialet for å tildele informasjon til en setning går dramatisk utover den relativt smale dimensjonen av sentiment. Sentimentegenskaper utgjør omtrent 3-4\% av alle ord i en gjennomsnittlig tekst.
- avsnitt, fulltekst, samling av fulltekster : Et eksempel kan være “alle muntlige forhandlinger i UK House of Commons (“ Parliament ”) fra 2013–01 til 2016–06 (pre-Brexit) -perioden”. Denne typen datasett består i utgangspunktet bare av dataene = navnet på settet pluss innholdet = spørsmålene, svarene og talene til parlamentarikere. Når det er samlet inn, kan settet analyseres, visualiseres, merkes. Du heter det.
Her er noen eksempler på analyser basert på Brexit-datasettet:
Sektordiagram: Den generelle balansen mellom referanser til eksport og import og spørsmål.
Oppfølgingsanalyse: Forekomsten av referanser til eksport og importer i setninger der det er også referanse til EU / EU:
Slik tolkes resultatene: Totalt antall setninger i datasettet er +1,5 millioner. I 18.020 av disse er det en referanse til EU / EU. Hvis referansene til eksport, import og bevegelse av varer hadde blitt fordelt jevnt, ville det ha vært henholdsvis 44, 39, 6 og null eksempler på disse temaene som forekommer i EU-setningene. Når det skjer, er indeksene for prevalens 705, 697, 792 og 3.810. Dette betyr at for eksempel når EU er nevnt i en setning, er forekomsten av eksport eller import omtrent 7 ganger høyere enn om emnet hadde blitt jevnt fordelt.
Disse og mange andre lignende resultater kan være hentet fra datasett. Det er generelt ønskelig å samle inn medlemmer av settet som representerer et felles prinsipp. I dette tilfellet vet vi nå noe om debattens natur og forbindelsen til EU / Brexit-temaet. Hadde settet bestått av tilfeldige tekster, for eksempel en blanding av tweets, vitenskapelige artikler, politiske talere osv., Ville vi ikke nødvendigvis ha noe grunnlag for å trekke konklusjoner. Dette er grunnen til at det må utvises forsiktighet når man bygger «databaser» av data.