Melhor resposta
Data Munging é basicamente o termo moderno para limpar um conjunto de dados confuso . Geralmente é usado em conjunto com outro termo moderno “ciência de dados”, que é basicamente análise de dados.
Se você já realizou uma análise de dados, pode ter se deparado com a seleção de recursos antes de aplicar seu modelo (analítico modelo, quero dizer) para os dados.
Então, em geral, todas as atividades que você realiza nos dados brutos para torná-los “limpos” o suficiente para serem inseridos em seu algoritmo analítico é munging de dados.
Às vezes, o data munging também cria alguns dados derivados. Uma das coisas mais comuns que o data munging faz é criar ids únicos. Mas a derivação de dados não é o objetivo principal da munging de dados.
A Wikipedia tem um artigo sobre Data wrangling , que é essencialmente o que é munging de dados .
Dados brutos:
Após a simulação de dados
Um exemplo seria tentar analisar os logs de acesso do Apache ( Arquivos de log – servidor Apache HTTP ). Agora, os registros de acesso não são necessariamente um conjunto de dados confuso, mas são confusos o suficiente para executar diretamente qualquer algoritmo de ML sem nenhum pré-processamento.
Portanto, cada linha no arquivo se parece com isto:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Você queria obter a lista de IPs e o número de vezes que eles atingiram pode haver alguma análise que requer saber em qual geografia o o site é popular; ou pode ser de qual IP os spammers estão vindo; ou em que área precisamos de mais vendas; ou qual IP precisou ser bloqueado porque eles estão fora de nossa zona de vendas ou podemos querer prever qual localidade está prestes a ter um aumento na demanda e queremos enviar mais produtos para lá antes que isso aconteça.
Todas essas perguntas podem ser respondidas se tivermos um dado com duas colunas: uma com endereços IP e outra como podem ser acessados no site.
Aqui está uma linha script perl que converteria aquele arquivo de log bagunçado em CSV de duas colunas (não realmente CSV, mas delimitado por token) com IP e contagem de ocorrências.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
Resultado?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Origem:
munge / muhnj / vt. 1. [depreciativo] Transformar informações de maneira imperfeita. 2. Uma reescrita abrangente de uma rotina, estrutura de dados ou de todo o programa. 3. Para modificar os dados de alguma forma, o locutor não precisa entrar agora ou não pode descrever de forma sucinta (compare resmungo ). 4. Para adicionar spamblock para um endereço de e-mail.
Este termo é frequentemente confundido com mung , que provavelmente foi derivado dele. No entanto, também parece que a palavra “munge” era comum na Escócia na década de 1940 e em Yorkshire na década de 1950 como um verbo, que significa mastigar até uma bagunça mastigada, e como um substantivo, significando o resultado de munging algo (o paralelo com kluge / kludge par é divertido). O OED relata `munge” como um verbo arcaico que significa “limpar (o nariz de uma pessoa)”.
Ferramentas:
Ferramentas Unix: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Linguagens: Python, Perl, R Processadores de big data: Hadoop / Hive / Pig, Twitter Storm, Spark / Tubarão
Curiosidade: (bastante nojento)
Agora você sabe que munging é basicamente limpar coisas ou “pegar a merda fora “. Há rumores de que por volta de 1990, LA, uma atividade de desenterrar cadáveres femininos frescos e pular sobre eles para que questões internas saíssem das aberturas era chamada de munging de cadáveres.
[Isso não é o descrição detalhada do ato. É ainda mais grosseiro quando você “pula” nos detalhes, mas prefiro não querer que você vomite na tela. Se você quiser ler toda a maldade disso. Leia aqui: cadáver munging VOCÊ FOI AVISADO .]
Agora você nunca esqueceria o que é munging de dados.
Fontes:
1. Quem está fazendo solicitações da Web falsas? 2. Organização de dados 3. O que é Munging de dados? 4. cadáver munging (informações depreciativas)
Resposta
O Data Munging (também conhecido como Data wrangling) é o processo de transformar programaticamente os dados “brutos” originais em um formato que facilite o trabalho. Isso pode significar modificar todos os valores em uma determinada coluna de uma determinada maneira, ou mesclar várias colunas ou alterar os tipos de dados.
Sinônimos para Munging: descriptografar , digitalizar , interativo , migrar , legível
O termo Mung foi cunhado no final dos anos 60 como algo depreciativo termo para ações e transformações que degradam progressivamente um conjunto de dados e rapidamente se tornam vinculadas ao backronym “Mash até que não seja bom” (ou, recursivamente, “Mung até que não seja bom”).
Referência: