Mejor respuesta
Data Munging es básicamente el término moderno para limpiando un conjunto de datos desordenado . Por lo general, se usa junto con otro término moderno «ciencia de datos» que es básicamente análisis de datos.
Si alguna vez ha realizado un análisis de datos, es posible que se haya encontrado con la selección de características antes de aplicar su modelo (analítico modelo, me refiero) a los datos.
Entonces, en general, toda la actividad que realiza en los datos sin procesar para que estén lo suficientemente «limpios» para ingresarlos en su algoritmo analítico es intercambio de datos.
A veces, el intercambio de datos también crea algunos datos derivados. Una de las cosas más comunes que hace el intercambio de datos es crear identificadores únicos. Pero la derivación de datos no es el objetivo principal del intercambio de datos.
Wikipedia tiene un artículo sobre intercambio de datos , que es esencialmente el intercambio de datos. .
Datos sin procesar:
Después de la manipulación de datos
Un ejemplo sería intentar analizar los registros de acceso de Apache ( Archivos de registro – Servidor HTTP Apache ). Ahora, los registros de acceso no son necesariamente un conjunto de datos desordenado, pero es lo suficientemente complicado como para ejecutar directamente cualquier algoritmo ML en él sin ningún preprocesamiento.
Entonces, cada línea en el archivo se ve así:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Quería obtener una lista de direcciones IP y la cantidad de veces que ingresaron puede ser algún análisis que requiera saber en qué geografía el sitio web es popular; o puede ser de qué IP proceden los spammers; o en qué área necesitamos más ventas; o qué IP debe bloquearse porque está fuera de nuestra zona de ventas o puede ser que deseamos predecir qué localidad está a punto de tener un aumento de la demanda y queremos enviar más productos allí antes de que suceda.
Todas estas preguntas pueden responderse si tenemos un dato con dos columnas: una con direcciones IP y otra sobre cómo pueden llegar al sitio web.
Aquí hay una sola línea script de perl que convertiría ese archivo de registro desordenado en CSV de dos columnas (no realmente CSV sino delimitado por tokens) con IP y recuento de visitas.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
¿Resultado?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Origen:
munge / muhnj / vt. 1. [despectivo] Transformar imperfectamente la información. 2. Una reescritura completa de una rutina, estructura de datos o el programa completo. 3. Para modificar los datos de alguna manera, el hablante no necesita entrar en este momento o no puede describirlos sucintamente (compare mumble ). 4. Para agregar spamblock a una dirección de correo electrónico.
Este término a menudo se confunde con mung , que probablemente se derivó de él. Sin embargo, también parece que la palabra «munge» era de uso común en Escocia en la década de 1940 y en Yorkshire en la década de 1950, como verbo, que significa masticar en un lío masticado, y como un sustantivo, que significa el resultado de mezclar algo (el paralelo con kluge / kludge par es divertido). El OED informa que «munge» es un verbo arcaico que significa «limpiar (la nariz de una persona)».
Herramientas:
Herramientas Unix: sed, grep, awk, pipe, sort, uniq, tr, tail, head, script de shell Idiomas: Python, Perl, R Procesadores de Big Data: Hadoop / Hive / Pig, Twitter Storm, Spark / Tiburón
Dato curioso: (bastante asqueroso)
A estas alturas ya sabes que munging es básicamente limpiar cosas o «conseguir la mierda fuera «. Se rumorea que alrededor de la década de 1990, Los Ángeles, una actividad de desenterrar el cadáver femenino fresco y saltar sobre él para que los materiales internos salieran por las aberturas se llamaba munging de cadáveres.
[Este no es el método descripción detallada del acto. Es aún más asqueroso cuando «saltas» en los detalles, pero prefiero que no vomites en la pantalla. Si quieres leer la maldad completa de esto. Lea aquí: cadáver munging HA SIDO ADVERTIDO .]
Ahora nunca olvidará qué es la manipulación de datos.
Fuentes:
1. ¿Quién realiza solicitudes web falsas? 2. Reproducción de datos 3. ¿Qué es Data Munging? 4. manipulación de cadáveres (información despectiva)
Respuesta
La manipulación de datos (también conocida como manipulación de datos) es el proceso de transformar mediante programación los datos originales «sin procesar» en un formato que facilita el trabajo. Esto podría significar modificar todos los valores en una columna determinada de una manera determinada, fusionar varias columnas o cambiar los tipos de datos.
Sinónimos de Munging: descifrar , digitalizar , interactivo , migrate , legible
El término Mung se acuñó a finales de los 60 como algo despectivo término para las acciones y transformaciones que degradan progresivamente un conjunto de datos y rápidamente se vinculó con el backronym «Mash hasta que no sea bueno» (o, de forma recursiva, «Mung hasta que no sea bueno»).
Referencia: