Cel mai bun răspuns
Data Munging este în esență termenul hip pentru curățarea unui set de date dezordonat . Este de obicei utilizat împreună cu un alt termen de șold „știința datelor”, care este în esență analiza datelor.
Dacă ați efectuat vreodată o analiză a datelor, este posibil să fi întâlnit selecția caracteristicilor înainte de a vă aplica modelul (analitic model, adică) la date.
Deci, în general, toată activitatea pe care o desfășurați pe datele brute pentru a o face suficient de „curată” pentru a fi introdusă în algoritmul analitic este combinarea datelor.
Uneori, îmbinarea datelor creează și unele date derivate. Unul dintre cele mai frecvente lucruri pe care le face munging-ul de date este că creează ID-uri unice. Dar derivarea datelor nu este obiectivul principal al munging-ului de date.
Wikipedia are un articol despre Wrangling de date , care este în esență ceea ce este munging-ul de date. .
Date brute:
După îmbinarea datelor
Un exemplu ar încerca să analizeze jurnalele de acces Apache ( Fișiere jurnal – Apache HTTP Server ). Acum, jurnalele de acces nu sunt neapărat un set de date încurcat, dar este suficient de dezordonat pentru a rula direct orice algoritm ML pe acesta fără nicio prelucrare prealabilă.
Deci, fiecare linie din fișier arată astfel:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Ați dorit să obțineți o listă de adrese IP și de câte ori au fost accesate, poate fi o analiză care necesită cunoașterea geografiei site-ul este popular; sau poate fi din ce IP provin spammerii; sau ce domeniu avem nevoie de mai multe vânzări; sau ce IP trebuia blocat pentru că sunt în afara zonei noastre de vânzări sau poate că vrem să prezicem care localitate este pe cale să crească cererea și vrem să livrăm mai multe articole acolo înainte ca aceasta să se întâmple.
La toate aceste întrebări se poate răspunde dacă avem date cu două coloane: una cu adrese IP și alta cum poate fi accesată pe site.
Iată un singur liner script perl care ar converti acel fișier jurnal dezordonat în CSV cu două coloane (nu într-adevăr CSV, ci delimitat cu simboluri) cu IP și număr de accesări.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
Rezultat?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Origine:
munge / muhnj / vt. 1. [derogatoriu] Pentru a transforma informațiile în mod imperfect. 2. O rescriere cuprinzătoare a unei rutine, a unei structuri de date sau a întregului program. 3. Pentru a modifica datele într-un fel, vorbitorul nu trebuie să intre acum sau nu poate descrie succint (comparați mumble ). 4. Pentru a adăuga spamblock la o adresă de e-mail.
Acest termen este adesea confundat cu mung , care probabil a fost derivat din acesta. Totuși, apare și cuvântul „munge” a fost folosit în mod obișnuit în Scoția în anii 1940 și în Yorkshire în anii 1950, ca verb, adică să se răsucească într-o mizerie masticată și ca un substantiv, adică rezultatul obținerii a ceva (paralela cu kluge / kludge pereche este amuzant). OED raportează „munge” ca verb arhaic care înseamnă „a șterge (nasul unei persoane)”.
Instrumente:
Instrumente Unix: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Limbi: Python, Perl, R Procesoare de date mari: Hadoop / Hive / Pig, Twitter Storm, Spark / Rechin
Fapte amuzante: (destul de grosolane)
De acum știi că mungingul este practic curățarea lucrurilor sau „obținerea rahatul „. Se zvonește că în 1990, LA, o activitate de a săpa un cadavru proaspăt de femeie și sări peste el, astfel încât problemele interne să iasă din deschideri, s-a numit cadavre.
[Aceasta nu este descriere detaliată a actului. Este și mai grosolan când „săriți” în detalii, dar aș prefera să nu-mi placă să aruncați pe ecran. Dacă doriți să citiți complet urâciunea asta. Citiți aici: cadavru munging AȚI FOST AVERTIZAT .]
Acum nu ați uita niciodată ce este combinarea datelor.
Surse:
1. Cine face solicitări web false? 2. Diferențe de date 3. Ce sunt datele care se amestecă? 4. cadavre munging (informații derogatorii)
Răspuns
Data Munging (cunoscut și sub numele de Wrangling de date) este procesul de transformarea programată a datelor „brute” originale într-un format care face mai ușor să lucrați cu acestea. Acest lucru ar putea însemna modificarea tuturor valorilor dintr-o anumită coloană într-un anumit mod sau îmbinarea mai multor coloane împreună sau schimbarea tipurilor de date.
Sinonime pentru Munging: decripta , digitaliza , interactiv , migrați , lizibil
Termenul „Mung” a fost inventat la sfârșitul anilor 60 ca oarecum derogatoriu termen pentru acțiuni și transformări care degradează progresiv un set de date și au devenit rapid legate de backronimul „Mash Until No Good” (sau, recursiv, „Mung Until No Good”).
Referință: