Vad är data munging? Hur kan den användas i en mening? Finns det några synonymer? Varifrån kommer frasen?


Bästa svaret

Data Munging är i grunden höfttermen för rensar en rörig datamängd . Det används vanligtvis tillsammans med en annan hip term ”data science” som i grunden är dataanalys.

Om du någonsin har utfört en dataanalys kan du ha stött på funktionsval innan du tillämpar din modell (analytisk modell, menar jag) till data.

Så i allmänhet är all aktivitet som du gör på rådata för att göra den tillräckligt ”ren” för att mata in i din analytiska algoritm. p>

Ibland skapar datamunging även härledd data. En av de vanligaste sakerna som data munging gör är att det skapar unika id: n. Men dataderivation är inte det primära syftet med datamunging.

Wikipedia har en artikel om Data wrangling , vilket i huvudsak är vad datamunging är .

Rå data:

Efter Data Munging

Ett exempel skulle försöka analysera Apache-åtkomstloggar ( Loggfiler – Apache HTTP-server ). Nu är åtkomstloggar inte nödvändigtvis en trasslig datauppsättning, men det är rörigt nog att direkt köra vilken ML-algoritm som helst utan någon förbehandling.

Så, varje rad i filen ser ut så här:

aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"

Du ville få en lista över IP-adresser och hur många gånger de träffade för kan vara en analys som kräver att du vet vilken geografi webbplats är populär; eller kan vara vilken IP spammarna kommer ifrån; eller vilket område vi behöver mer försäljning; eller vilken IP som behövs för att blockeras eftersom de är utanför vår försäljningszon eller kanske vi vill förutsäga vilken lokal som är på väg att ha en efterfrågan och vi vill skicka fler saker där innan det händer.

Alla dessa frågor kan besvaras om vi har en data med två kolumner: en med IP-adresser och andra hur kan träffa den på webbplatsen.

Här är en-liner perl-skript som skulle konvertera den röriga loggfilen till två kolumner CSV (inte riktigt CSV men token avgränsad) med IP och träffantal.

perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \

END{print Dumper\\%n}" access.log

Resultat?

$VAR1 = {

"aaa.xx.65.186" => 132,

"bb.yyy.7.60" => 48,

"ccc.zzz.46.147" => 111,

"dd.qq.71.82" => 33

};

# Real IPs obscured

Ursprung:

munge / muhnj / vt. 1. [nedsättande] För att omvandla information på ett ofullkomligt sätt. 2. En omfattande omskrivning av en rutin, datastruktur eller hela programmet. 3. För att modifiera data på något sätt behöver talaren inte gå in just nu eller kan inte beskriva det kortfattat (jämför mumla ). 4. Lägg till spamblock till en e-postadress.

Denna term förväxlas ofta med mung , som troligen härstammar från det. Det verkar emellertid också att ordet ”munge” var vanligt i Skottland på 1940-talet och i Yorkshire på 1950-talet, som ett verb, vilket betyder att munka upp i en tuggad röra, och som ett substantiv, vilket betyder resultatet av att köra upp något (parallellen med kluge / kludge paret är underhållande). OED rapporterar ”munge” som ett arkaiskt verb som betyder ”att torka (en persons näsa)”.

Verktyg:

Unix-verktyg: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Språk: Python, Perl, R Big data-processorer: Hadoop / Hive / Pig, Twitter Storm, Spark / Haj

Rolig fakta: (ganska grov)

Nu vet du att munging i grund och botten är att rengöra saker eller ”få skiten ut ”. Det ryktas att omkring 1990-talet, LA, kallades en kropp för att gräva ut en ny kvinnlig död kropp och hoppa över den så att inre frågor kommer ut ur öppningarna.

[Detta är inte detaljerad beskrivning av lagen. Det är ännu mer grovt när du ”hoppar” in i detaljerna, men jag skulle hellre inte vilja att du kukade på skärmen. Om du vill läsa det fula styggt. Läs här: lik munging DU HAR VARNAT VARNAD .]

Nu skulle du aldrig glömma vad datamunging är.

Källor:

1. Vem gör falska webbförfrågningar? 2. Datakamp 3. Vad händer med data? 4. lik munging (nedsättande information)

Svar

Data Munging (även känd som Data wrangling) är processen för programmatiskt omvandla originaldata till ett format som gör det lättare att arbeta med. Detta kan innebära att du ändrar alla värden i en viss kolumn på ett visst sätt, eller slår samman flera kolumner eller ändrar datatyperna.

Synonymer för Munging: dekryptera , digitalisera , interaktiv , migrera , läsbart

Termen ”Mung” myntades i slutet av 60-talet som en något nedsättande term för handlingar och omvandlingar som gradvis försämrar en dataset och snabbt blev knuten till bakronym ”Mash tills inget gott” (eller, rekursivt, ”Mung tills inget gott”).

Referens:

Vad är Data Munging? | Talend

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *