Beste svaret
Data Munging er i utgangspunktet hip term for rydde opp i et rotete datasett . Det brukes vanligvis sammen med et annet hip-term «data science» som i utgangspunktet er dataanalyse.
Hvis du noen gang har utført en dataanalyse, har du kanskje kommet over funksjonsvalg før du bruker modellen din (analytisk modell, mener jeg) til dataene.
Så generelt sett er all aktivitet du gjør på rådataene for å gjøre den «ren» nok til å legge inn til den analytiske algoritmen din, datamunging. p>
Noen ganger skaper datamunging også noen avledede data. En av de vanligste tingene som data munging gjør, er at den skaper unike ID-er. Men dataderivasjon er ikke det primære målet for data munging.
Wikipedia har en artikkel om Data wrangling , som egentlig er hva data munging er .
Rå data:
Etter dataoverføring
Et eksempel ville være å prøve å analysere Apache-tilgangslogger ( Loggfiler – Apache HTTP-server ). Nå er tilgangslogger ikke nødvendigvis et forvirret datasett, men det er rotete nok til å kjøre hvilken som helst ML-algoritme direkte uten forbehandling.
Så hver linje i filen ser slik ut:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Du ønsket å få en liste over IP-er og antall ganger de traff for, kan være en analyse som krever å vite hvilken geografi nettstedet er populært; eller kan være hvilken IP spammere kommer fra; eller hvilket område vi trenger mer salg; eller hvilken IP som måtte blokkeres fordi de er utenfor salgssonen vår, eller kanskje vi vil forutsi hvilken lokalitet som er i ferd med å ha en etterspørselsøkning, og vi vil sende flere ting der før det skjer.
Alle disse spørsmålene kan besvares hvis vi har data med to kolonner: den ene har IP-adresser og den andre som kan treffe den på nettstedet.
Her er en linje perl-skript som ville konvertere den rotete loggfilen til CSV med to kolonner (egentlig ikke CSV men token avgrenset) med IP og trefftall.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
Resultat?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Opprinnelse:
munge / muhnj / vt. 1. [nedsettende] For å transformere informasjon ufullkommen. 2. En omfattende omskrivning av en rutine, datastruktur eller hele programmet. 3. For å modifisere data på en eller annen måte trenger ikke høyttaleren å gå inn på akkurat nå eller ikke kan beskrive kortfattet (sammenlign mumling ). 4. For å legge til spamblock til en e-postadresse.
Dette begrepet forveksles ofte med mung , som sannsynligvis var avledet av det. Imidlertid ser det også ut til at ordet «munge» var i vanlig bruk i Skottland på 1940-tallet, og i Yorkshire på 1950-tallet, som et verb, som betyr å smelte opp i et mastikert rot, og som et substantiv, som betyr resultatet av å slå noe sammen (parallellen med kluge / kludge paret er morsomt). OED rapporterer `munge som et arkaisk verb som betyr» å tørke (en persons nese) «.
Verktøy:
Unix-verktøy: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Språk: Python, Perl, R Big data prosessorer: Hadoop / Hive / Pig, Twitter Storm, Spark / Hai
Morsom fakta: (ganske grov)
Nå vet du at munging i utgangspunktet er å rense ting eller å «få dritten ut «. Det ryktes at rundt LA 1990, LA, ble en aktivitet med å grave ut fersk kvinnelig død kropp og hoppe over den slik at indre forhold kommer ut av åpningene kalt lik munging.
[Dette er ikke detaljert beskrivelse av loven. Det er enda mer grovt når du «hopper» inn i detaljene, men jeg vil helst ikke at du kaster på skjermen. Hvis du vil lese fullstendig stygghet om dette. Les her: lik munging DU HAR BETYTTET .]
Nå vil du aldri glemme hva data munging er.
Kilder:
1. Hvem lager falske nettforespørsler? 2. Datakamp 3. Hva er data Munging? 4. lik munging (nedsettende informasjon)
Svar
Data Munging (også kjent som Data wrangling) er prosessen med programmatisk transformere originale «rå» data til et format som gjør det lettere å jobbe med. Dette kan bety at du endrer alle verdiene i en gitt kolonne på en bestemt måte, eller slår sammen flere kolonner eller endrer datatypene.
Synonymer for Munging: dekryptere , digitaliser , interaktiv , migrere , lesbar
Begrepet Mung ble laget på slutten av 60-tallet som en noe nedsettende betegnelse for handlinger og transformasjoner som gradvis nedbryter et datasett, og som raskt ble bundet til bakronymet «Mash Before No Good» (eller, rekursivt, «Mung Before No Good»).
Referanse: