Beste antwoord
Bedankt Yashashri Pahade voor A2A. Ik zal er nog een toevoegen aan de lijst. Er zijn drie soorten datasets. Ik zal ze allemaal in detail bespreken.
Als je een grote dataset hebt, is het aan te raden deze op te splitsen in 3 delen :
- Trainingsset (60\% van de originele dataset) : dit wordt gebruikt om ons voorspellingsalgoritme op te bouwen en om de gewichten op het neurale netwerk aan te passen. Ons algoritme probeert zichzelf af te stemmen op de eigenaardigheden van de trainingsgegevenssets. In deze fase maken we meestal meerdere algoritmen om hun prestaties tijdens de kruisvalidatiefase te vergelijken. Elk type algoritme heeft zijn eigen parameter opties (het aantal lagen in een neuraal netwerk, het aantal bomen in een willekeurig bos, enz.). Voor elk van je algoritmen moet je één optie kiezen. Daarom heb je een trainingsset.
- Kruisvalidatieset (20\% van de oorspronkelijke dataset): deze dataset wordt gebruikt om de prestaties te vergelijken van de voorspellingsalgoritmen die zijn gemaakt op basis van de trainingsset. Jij hebben nu een verzameling algoritmen. U moet één algoritme kiezen dat de beste prestaties levert. Daarom heb je een testset. Een validatiedataset is een steekproef van gegevens die worden tegengehouden tijdens het trainen van uw model en die wordt gebruikt om een schatting te geven van de modelvaardigheid tijdens het afstemmen van de hyperparameters van het model. Deze gegevensset wordt gebruikt om overpassing te minimaliseren. U past de gewichten van het netwerk met deze dataset, verifieer je gewoon dat elke toename van de nauwkeurigheid van de trainingsdataset daadwerkelijk een toename van de nauwkeurigheid oplevert ten opzichte van een dataset die nog niet eerder aan het netwerk is getoond, of in ieder geval het netwerk niet erop getraind (dwz validatiedataset). Als de nauwkeurigheid van de trainingsdataset toeneemt, maar de nauwkeurigheid van die validatiedataset hetzelfde blijft of afneemt, dan moet je over het aanpassen van uw neurale netwerk en u moet stoppen met trainen .
- Testset (20\% van de originele dataset): Nu hebben we ons favoriete voorspellingsalgoritme gekozen, maar we weten nog niet hoe het zal presteren op volledig ongeziene gegevens uit de echte wereld. Dus passen we ons gekozen voorspellingsalgoritme toe op onze testset om te zien hoe het gaat presteren, zodat we een idee kunnen hebben over de prestaties van ons algoritme op ongeziene gegevens. Ik veronderstel dat als je algoritmen geen parameters hadden, je geen derde stap nodig zou hebben. In dat geval is uw validatiestap uw teststap. Deze dataset wordt alleen gebruikt voor het testen van de uiteindelijke oplossing om de werkelijke voorspellende kracht van het netwerk te bevestigen.
Opmerkingen:
- Het is erg belangrijk om in gedachten te houden dat het overslaan van de testfase niet wordt aanbevolen, omdat het algoritme dat goed presteerde tijdens de kruisvalidatiefase betekent niet echt dat het echt de beste is, omdat de algoritmen worden vergeleken op basis van de kruisvalidatieset en de eigenaardigheden en geluiden.
- Tijdens de test Fase, het doel is om te zien hoe ons uiteindelijke model in het wild zal omgaan, dus in het geval dat de prestaties erg slecht zijn, moeten we het hele proces herhalen vanaf de trainingsfase.
Bron: Inleiding tot patroonanalyse , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University
Antwoord
Big data is een breed begrip dat vooral verwijst naar de enorme en groeiende hoeveelheid digitaal beschikbare data. Big Data verwijst zonder onderscheid naar kwantitatieve en kwalitatieve gegevens (“cijfers” en “tekst”).
Een gegevensset kan ook een niet-gespecificeerde verwijzing zijn naar een verzameling gegevens, inclusief teksten en cijfers. Een dataset is echter ook een voorkeursterm wanneer verwezen wordt naar een specifieke verzameling grondstoffen die geordend zijn volgens een of ander organiserend principe.
Dit zijn enkele voorbeelden van datasets:
- woord – de rangorde van het woord volgens afnemende frequentie van voorkomen
- woord in het Engels – hetzelfde woord ( betekenis ) in het Duits
- woord – de woordklasse van het woord (woordsoort- classificatie)
- zin – het sentiment van de zin (omhoog, omlaag, intens, verkleinend, belangrijkheid, etc.) Dit is een voorbeeld van de zin die is geanalyseerd en getagd met de sentimentinformatie als een attribuut (= metagegevens).
- zin – de actualiteit van de zin “Sentiment” is ook een voorbeeld van actualiteit, maar de mogelijkheid om informatie aan een zin toe te schrijven gaat dramatisch verder dan de relatief beperkte dimensie van sentiment. Sentimentkenmerken vertegenwoordigen ongeveer 3-4\% van alle woorden in een gemiddelde tekst.
- alinea, volledige tekst, verzameling volledige teksten : Een voorbeeld zou kunnen zijn “alle mondelinge onderhandelingen in het Britse Lagerhuis (” Parlement “) van 2013-01 tot 2016-06 (de pre-Brexit) periode”. Dit soort dataset bestaat in eerste instantie alleen uit de data = de naam van de set plus de inhoud = de vragen, antwoorden en toespraken van parlementariërs. Eenmaal verzameld, kan de set worden geanalyseerd, gevisualiseerd, getagd, noem maar op.
Hier zijn een paar voorbeelden van analyses op basis van de Brexit-dataset:
Cirkeldiagram: de algemene balans tussen verwijzingen naar export- en importaangelegenheden en problemen.
Vervolganalyse: prevalentie van verwijzingen naar export- en importeren in zinnen met ook verwijzing naar EU / Europese Unie:
Dit is hoe de resultaten worden geïnterpreteerd: Het totale aantal zinnen in de dataset is +1,5 miljoen. In 18.020 hiervan staat een verwijzing naar EU / Europese Unie. Als de verwijzingen naar export, import en beweging van goederen gelijkmatig waren verdeeld, zouden er respectievelijk 44, 39, 6 en nul voorbeelden van deze onderwerpen zijn geweest in de EU-zinnen. De prevalentiecijfers zijn namelijk 705, 697, 792 en 3.810. Dit betekent dat wanneer bijvoorbeeld de EU in een zin wordt genoemd, de prevalentie van export of import ongeveer 7 keer hoger is dan wanneer het onderwerp gelijkmatig zou zijn verdeeld.
Deze en vele andere vergelijkbare resultaten kunnen geëxtraheerd uit datasets. Het is over het algemeen wenselijk om leden van de set te verzamelen die een gemeenschappelijk principe vertegenwoordigen. In dit geval weten we nu iets over de aard van de debatten en de samenhang met het EU / Brexit-thema. Als de set zou bestaan uit willekeurige teksten, bijvoorbeeld een mix van tweets, wetenschappelijke artikelen, politieke toespraken, etc. dan zouden we niet per se een basis hebben om conclusies te trekken. Dit is de reden waarom voorzichtigheid geboden is bij het bouwen van “repositories” van gegevens.