Wat is data-munging? Hoe kan het in een zin worden gebruikt? Zijn er synoniemen? Waar komt de zin vandaan?

Beste antwoord

Data Munging is eigenlijk de hippe term voor een rommelige dataset opruimen . Het wordt meestal gebruikt in combinatie met een andere hippe term data science, wat in feite data-analyse is.

Als je ooit een data-analyse hebt uitgevoerd, ben je wellicht functieselectie tegengekomen voordat je je model toepaste (analytisch model, bedoel ik) voor de gegevens.

Dus in het algemeen is alle activiteit die u op de onbewerkte gegevens doet om deze “schoon” genoeg te maken om in uw analytische algoritme in te voeren, gegevensmunging.

Soms creëert data munging ook enkele afgeleide data. Een van de meest voorkomende dingen die datamunging doet, is dat het unieke ids creëert. Maar data-afleiding is niet het primaire doel van data-munging.

Wikipedia heeft een artikel over Data ruzie , wat in wezen is wat data munging is .

Onbewerkte gegevens:

Na het verwijderen van gegevens

Een voorbeeld is een poging om Apache-toegangslogboeken te analyseren ( Logbestanden – Apache HTTP-server ). Toegangslogboeken zijn niet per se een verknipte dataset, maar het is rommelig genoeg om er direct een ML-algoritme op uit te voeren zonder enige voorverwerking.

Dus elke regel in het bestand ziet er als volgt uit:

aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"

U wilde een lijst met IP-adressen en het aantal keren dat ze gevonden hebben, kan een analyse zijn die vereist dat u weet welke geografie de website is populair; of misschien het IP-adres waar de spammers vandaan komen; of op welk gebied we meer verkopen nodig hebben; of welk IP-adres moest worden geblokkeerd omdat ze zich buiten onze verkoopzone bevinden of misschien willen we voorspellen in welke plaats de vraag stijgt en we willen daar meer spullen naartoe sturen voordat het gebeurt.

Al deze vragen kunnen worden beantwoord als we gegevens hebben met twee kolommen: de ene met IP-adressen en de andere hoe kan het op de website terechtkomen.

Hier is one-liner perl-script dat dat rommelige logbestand zou converteren naar CSV met twee kolommen (niet echt CSV maar met token gescheiden) met IP en aantal treffers.

perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \

END{print Dumper\\%n}" access.log

Resultaat?

$VAR1 = {

"aaa.xx.65.186" => 132,

"bb.yyy.7.60" => 48,

"ccc.zzz.46.147" => 111,

"dd.qq.71.82" => 33

};

# Real IPs obscured

Oorsprong:

munge / muhnj / vt. 1. [denigrerend] Informatie onvolkomen transformeren. 2. Een uitgebreide herschrijving van een routine, datastructuur of het hele programma. 3. Om gegevens op de een of andere manier te wijzigen, hoeft de spreker er nu niet op in te gaan of kan hij het niet beknopt beschrijven (vergelijk mompelen ). 4. Voeg spamblock naar een e-mailadres.

Deze term wordt vaak verward met mung , die er waarschijnlijk van is afgeleid. Het lijkt er echter op dat het woord munge algemeen werd gebruikt in Schotland in de jaren veertig en in Yorkshire in de jaren vijftig, als een werkwoord, wat betekent dat men zich in een gekneusde puinhoop eet, en als een zelfstandig naamwoord, wat het resultaat betekent van het verwerpen van iets (de parallel met de kluge / kludge paar is grappig). De OED rapporteert munge als een archaïsch werkwoord dat de neus van een persoon schoonvegen betekent.

Tools:

Unix-tools: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell-script Talen: Python, Perl, R Big data processors: Hadoop / Hive / Pig, Twitter Storm, Spark / Shark

Leuk weetje: (nogal grof)

Inmiddels weet je dat munging in feite dingen opruimen of “krijgen the shit out “. Het gerucht gaat dat rond 1990, LA, een activiteit van het uitgraven van een nieuw vrouwelijk lijk, en eroverheen springen zodat interne zaken uit de openingen komen, lijkmunging werd genoemd.

[Dit is niet de gedetailleerde beschrijving van de handeling. Het is zelfs nog grover als je in de details “springt”, maar ik zou liever niet willen dat je op het scherm kotst. Als je hier toch de volledige ellende van wilt lezen. Lees hier: lijk munging JE BENT GEWAARSCHUWD .]

Nu zou je nooit meer vergeten wat data munging is.

Bronnen:

1. Wie doet nep-webverzoeken? 2. Gegevenskwestie 3. Wat is het verwijderen van gegevens? 4. lijk munging (denigrerende informatie)

Antwoord

Data Munging (ook bekend als Data wrangling) is het proces van het programmatisch transformeren van originele “onbewerkte” gegevens in een formaat dat het gemakkelijker maakt om ermee te werken. Dit kan betekenen dat u alle waarden in een bepaalde kolom op een bepaalde manier moet aanpassen, of meerdere kolommen moet samenvoegen of de gegevenstypen moet wijzigen.

Synoniemen voor Munging: decoderen , digitaliseren , interactief , migreren , leesbaar

De term Mung werd eind jaren 60 bedacht als een ietwat denigrerende term voor acties en transformaties die geleidelijk een dataset degraderen, en snel verbonden raakten met de backronym “Mash Until No Good” (of, recursief, “Mung Until No Good”).

Referentie:

Wat is gegevensverzameling? | Talend

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *