Migliore risposta
Data Munging è fondamentalmente il termine alla moda per ripulire un set di dati disordinato . Di solito viene utilizzato insieme a un altro termine alla moda “scienza dei dati” che è fondamentalmente analisi dei dati.
Se hai mai eseguito unanalisi dei dati, potresti esserti imbattuto nella selezione delle caratteristiche prima di applicare il tuo modello (analitico model, intendo) ai dati.
Quindi, in generale, tutta lattività che fai sui dati grezzi per renderli sufficientemente “puliti” da poter essere inseriti nel tuo algoritmo analitico è data munging.
A volte, il munging dei dati crea anche alcuni dati derivati. Una delle cose più comuni eseguite dal munging dei dati è la creazione di ID univoci. Ma la derivazione dei dati non è lobiettivo principale del data munging.
Wikipedia ha un articolo sul Data wrangling , che è essenzialmente ciò che è il data munging .
Dati non elaborati:
Dopo lunione dei dati
Un esempio potrebbe provare ad analizzare i log di accesso di Apache ( Log Files – Apache HTTP Server ). Ora, i log di accesso non sono necessariamente un set di dati incasinato, ma è abbastanza disordinato da eseguire direttamente qualsiasi algoritmo ML su di esso senza alcuna pre-elaborazione.
Quindi, ogni riga nel file ha questo aspetto:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Volevi ottenere un elenco di IP e il numero di volte per cui hanno colpito potrebbe essere unanalisi che richiede la conoscenza di quale area geografica il sito web è popolare; o può essere lIP da cui provengono gli spammer; o quale area abbiamo bisogno di più vendite; o quale IP deve essere bloccato perché sono fuori dalla nostra zona di vendita o forse vogliamo prevedere quale località sta per avere un aumento della domanda e vogliamo spedire lì più cose prima che accada.
È possibile rispondere a tutte queste domande se disponiamo di dati con due colonne: una con indirizzi IP e laltra su come possono essere raggiunti i risultati sul sito web.
Ecco una riga script perl che convertirà quel file di log disordinato in CSV a due colonne (non proprio CSV ma delimitato da token) con IP e conteggio hit.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
Risultato?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Origine:
munge / muhnj / vt. 1. [dispregiativo] Trasformare imperfettamente le informazioni. 2. Una riscrittura completa di una routine, di una struttura dati o dellintero programma. 3. Per modificare i dati in qualche modo loratore non ha bisogno di entrare subito o non può descriverlo in modo succinto (confronta mumble ). 4. Per aggiungere spamblock a un indirizzo email.
Questo termine viene spesso confuso con mung , che probabilmente ne derivava. Tuttavia, sembra anche che la parola “munge” fosse di uso comune in Scozia negli anni 40 e nello Yorkshire negli anni 50, come verbo, che significava sgranocchiare in un pasticcio masticato, e come un sostantivo, che significa il risultato di mescolare qualcosa (il parallelo con il kluge / kludge la coppia è divertente). LOED segnala “munge” come un verbo arcaico che significa “pulire (il naso di una persona)”.
Strumenti:
Strumenti Unix: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Linguaggi: Python, Perl, R Processori di big data: Hadoop / Hive / Pig, Twitter Storm, Spark / Squalo
Curiosità: (piuttosto grossolano)
Ormai sai che il munging è fondamentalmente pulire le cose o “ottenere la merda “. Si dice che intorno agli anni 90, a Los Angeles, unattività di scavare un cadavere femminile fresco e saltarci sopra in modo che le questioni interne uscissero dalle aperture fosse chiamata munging del cadavere.
[Questo non è il descrizione dettagliata dellatto. È ancora più disgustoso quando “salti” nei dettagli, ma preferirei che non vomitassi sullo schermo. Se vuoi leggere tutta la cattiveria di questo. Leggi qui: corpse munging SEI STATO AVVISATO .]
Ora non dimenticheresti mai cosè il munging dei dati.
Fonti:
1. Chi “sta facendo richieste web fasulle? 2. Data wrangling 3. Che cosè il munging dei dati? 4. corpse munging (informazioni dispregiative)
Answer
Data Munging (noto anche come Data wrangling) è il processo di trasformando in modo programmatico i dati “grezzi” originali in un formato che ne semplifichi il lavoro. Ciò potrebbe significare modificare tutti i valori in una data colonna in un certo modo, o unire più colonne insieme o cambiare i tipi di dati.
Sinonimi di Munging: decrittografa , digitalizza , interattivo , migrate , readable
Il termine “Mung” è stato coniato alla fine degli anni 60 come un termine dispregiativo termine per azioni e trasformazioni che degradano progressivamente un set di dati e sono diventati rapidamente legati al backronym “Mash Until No Good” (o, ricorsivamente, “Mung Until No Good”).
Riferimento: