Was ist Datenmunging? Wie kann es in einem Satz verwendet werden? Gibt es Synonyme? Woher kommt die Phrase?

Beste Antwort

Data Munging ist im Grunde der angesagte Begriff für Bereinigen eines unordentlichen Datensatzes . Es wird normalerweise in Verbindung mit einem anderen angesagten Begriff „Data Science“ verwendet, bei dem es sich im Wesentlichen um Datenanalyse handelt.

Wenn Sie jemals eine Datenanalyse durchgeführt haben, sind Sie möglicherweise auf die Auswahl von Features gestoßen, bevor Sie Ihr Modell anwenden (analytisch) Modell, meine ich) zu den Daten.

Im Allgemeinen ist die gesamte Aktivität, die Sie an den Rohdaten ausführen, um sie „sauber“ genug zu machen, um sie in Ihren analytischen Algorithmus einzugeben, Datenmunging.

Manchmal werden durch Datenmunging auch abgeleitete Daten erstellt. Eine der häufigsten Aufgaben beim Munging von Daten ist die Erstellung eindeutiger IDs. Die Datenableitung ist jedoch nicht das Hauptziel des Datenmungings.

Wikipedia hat einen Artikel über Daten-Wrangling , was im Wesentlichen das Daten-Munging ist .

Rohdaten:

Nach dem Munging von Daten

Ein Beispiel versucht, Apache-Zugriffsprotokolle zu analysieren ( Protokolldateien – Apache HTTP Server ). Zugriffsprotokolle sind nicht unbedingt ein durcheinandergebrachter Datensatz, aber es ist unübersichtlich genug, um einen ML-Algorithmus ohne Vorverarbeitung direkt darauf auszuführen.

Jede Zeile in der Datei sieht also folgendermaßen aus:

aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"

Sie wollten eine Liste der IPs erhalten und die Häufigkeit, mit der sie getroffen wurden, ist möglicherweise eine Analyse, bei der Sie wissen müssen, welche Geografie die ist Website ist beliebt; oder kann sein, von welcher IP die Spammer kommen; oder in welchem ​​Bereich brauchen wir mehr Umsatz? oder welche IP-Adresse blockiert werden musste, weil sie sich außerhalb unserer Verkaufszone befindet, oder wir möchten vorhersagen, an welchem ​​Ort die Nachfrage steigen wird, und wir möchten mehr Produkte dorthin versenden, bevor dies geschieht.

Alle diese Fragen können beantwortet werden, wenn wir Daten mit zwei Spalten haben: eine mit IP-Adressen und eine andere, wie sie auf die Website gelangen können.

Hier ist ein Einzeiler Perl-Skript, das diese unordentliche Protokolldatei in eine zweispaltige CSV (nicht wirklich CSV, aber durch Token getrennt) mit IP und Trefferanzahl konvertiert.

perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \

END{print Dumper\\%n}" access.log

Ergebnis?

$VAR1 = {

"aaa.xx.65.186" => 132,

"bb.yyy.7.60" => 48,

"ccc.zzz.46.147" => 111,

"dd.qq.71.82" => 33

};

# Real IPs obscured

Herkunft:

munge / muhnj / vt. 1. [abfällig] Informationen unvollständig transformieren. 2. Ein umfassendes Umschreiben einer Routine, Datenstruktur oder des gesamten Programms. 3. Um Daten auf irgendeine Weise zu ändern, muss der Sprecher jetzt nicht darauf eingehen oder kann sie nicht kurz beschreiben (vergleiche mumble ). 4. Um Spamblock an eine E-Mail-Adresse.

Dieser Begriff wird häufig mit mung verwechselt Es scheint jedoch auch, dass das Wort „Munge“ in Schottland in den 1940er Jahren und in Yorkshire in den 1950er Jahren als Verb gebräuchlich war, was bedeutet, sich in ein gekautes Chaos zu verwandeln, und als ein Substantiv, das das Ergebnis des Aufmischens von etwas bedeutet (die Parallele zum kluge / kludge ) Paar ist amüsant). Der OED meldet „munge“ als archaisches Verb, das „abwischen (die Nase einer Person)“ bedeutet.

Tools:

Unix-Tools: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Sprachen: Python, Perl, R Big-Data-Prozessoren: Hadoop / Hive / Pig, Twitter Storm, Spark / Hai

Wissenswertes: (ziemlich grob)

Inzwischen wissen Sie, dass Munging im Grunde genommen Dinge reinigt oder „bekommt“ die Scheiße raus „. Es wird gemunkelt, dass in LA um 1990 eine Aktivität, bei der frische weibliche Leichen ausgegraben und darüber gesprungen wurden, damit innere Dinge aus den Öffnungen austreten, als Leichenmunging bezeichnet wurde.

[Dies ist nicht die detaillierte Beschreibung des Gesetzes. Es ist noch schlimmer, wenn Sie in die Details „springen“, aber ich möchte nicht, dass Sie auf dem Bildschirm kotzen. Wenn Sie die volle Bosheit davon lesen wollen. Lesen Sie hier: Leichenmunging SIE WURDEN GEWARNT .]

Jetzt würden Sie nie vergessen, was Datenmunging ist.

Quellen:

1. Wer stellt falsche Webanfragen? 2. Daten-Wrangling 3. Was ist Data Munging? 4. Leichenmunging (abfällige Informationen)

Antwort

Datenmunging (auch als Daten-Wrangling bezeichnet) ist der Prozess von Programmgesteuerte Umwandlung von ursprünglichen „Rohdaten“ in ein Format, das die Arbeit erleichtert. Dies kann bedeuten, dass Sie alle Werte in einer bestimmten Spalte auf eine bestimmte Weise ändern oder mehrere Spalten zusammenführen oder die Datentypen ändern.

Synonyme für Munging: entschlüsseln , digitalisieren , interaktiv , migrieren , lesbar

Der Begriff „Mung“ wurde Ende der 60er Jahre als etwas abfällig geprägt Begriff für Aktionen und Transformationen, die einen Datensatz zunehmend verschlechtern und schnell an das Backronym „Mash Until No Good“ (oder rekursiv „Mung Until No Good“) gebunden werden.

Referenz:

Was ist Data Munging? | Talend

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.