Bedste svar
Data Munging er dybest set hip term for rydder op i et rodet datasæt . Det bruges normalt sammen med et andet hip-term “data science”, der grundlæggende er dataanalyse.
Hvis du nogensinde har udført en dataanalyse, er du muligvis stødt på funktionsvalg, før du anvender din model (analytisk model, mener jeg) til dataene.
Så generelt er al aktivitet, du udfører på rådataene for at gøre det “rent” nok til at indtaste til din analytiske algoritme, datamunging.
Nogle gange skaber data munging også nogle afledte data. En af de mest almindelige ting, som data munging gør, er at det skaber unikke ider. Men datafledning er ikke det primære mål for data-munging.
Wikipedia har en artikel om Data wrangling , hvilket i det væsentlige er, hvad data munging er .
Rå data:
Efter dataoverføring
Et eksempel ville prøve at analysere Apache-adgangslogfiler ( Logfiler – Apache HTTP-server ). Nu er adgangslogfiler ikke nødvendigvis et rodet datasæt, men det er rodet nok til at køre enhver ML-algoritme direkte på den uden nogen forbehandling.
Så hver linje i filen ser sådan ud:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Du ønskede at få en liste over IPer og antallet af gange, de ramte for, kan være en analyse, der kræver at vide, hvilken geografi webstedet er populært; eller kan være hvilken IP spammere kommer fra; eller hvilket område vi har brug for mere salg eller hvilken IP der skulle blokeres, fordi de er uden for vores salgszone, eller måske vil vi forudsige, hvilken lokalitet der er ved at have en efterspørgsel, og vi vil sende flere ting der, før det sker.
Alle disse spørgsmål kan besvares, hvis vi har data med to kolonner: den ene har IP-adresser, og den anden, hvordan den kan komme til hjemmesiden.
Her er en linie perl-script, der konverterer den rodede logfil til CSV med to kolonner (ikke rigtig CSV men token afgrænset) med IP og hitantal.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
Resultat?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Oprindelse:
munge / muhnj / vt. 1. [nedsættende] For ufuldstændigt at transformere information. 2. En omfattende omskrivning af en rutine, datastruktur eller hele programmet. 3. For at ændre data på en eller anden måde behøver højttaleren ikke gå ind lige nu eller kan ikke beskrive kortfattet (sammenlign mumle ). 4. For at tilføje spamblock til en e-mail-adresse.
Dette udtryk forveksles ofte med mung , som sandsynligvis stammer fra det. Det ser dog også ud til, at ordet “munge” var almindeligt anvendt i Skotland i 1940erne og i Yorkshire i 1950erne som et verbum, der betyder at mumse op i et mastikeret rod, og som et navneord, der betyder resultatet af at slå noget op (parallel med kluge / kludge par er morsomt). OED rapporterer “munge” som et arkaisk verbum, der betyder “at tørre (en persons næse)”.
Værktøjer:
Unix-værktøjer: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Sprog: Python, Perl, R Big data processorer: Hadoop / Hive / Pig, Twitter Storm, Spark / Haj
Sjov fakta: (temmelig grov)
Nu ved du, at munging dybest set er rengøring af ting eller “at få lortet ud “. Det ryktes, at omkring 1990ish, LA, blev en aktivitet med at grave frisk kvindelig død krop og hoppe over den, så interne anliggender kom ud af åbningerne, kaldet lig munging.
[Dette er ikke detaljeret beskrivelse af handlingen. Det er endnu mere groft, når du “springer” ind i detaljerne, men jeg vil helst ikke have dig til at kaste på skærmen. Hvis du ønsker at læse den fulde grimhed om dette. Læs her: lig munging DU HAR BLEV ADVARSLET .]
Nu vil du aldrig glemme, hvad data munging er.
Kilder:
1. Hvem laver falske webanmodninger? 2. Data wrangling 3. Hvad er data, der kører? 4. lig munging (nedsættende information)
Svar
Data Munging (også kendt som Data wrangling) er processen med programmatisk omdannelse af originale “rå” data til et format, der gør det lettere at arbejde med. Dette kan betyde at ændre alle værdierne i en given kolonne på en bestemt måde eller flette flere kolonner sammen eller ændre datatyperne.
Synonymer til Munging: dekrypter , digitaliser , interaktiv , migrere , læsbar
Udtrykket Mung blev opfundet i slutningen af 60erne som en noget nedsættende betegnelse for handlinger og transformationer, som gradvist nedbryder et datasæt og hurtigt blev bundet til backronymet “Mash indtil intet godt” (eller, rekursivt, “Mung indtil intet godt”).
Reference: