O que é munging de dados? Como pode ser usado em uma frase? Existem sinônimos? De onde vem a frase?

Melhor resposta

Data Munging é basicamente o termo moderno para limpar um conjunto de dados confuso . Geralmente é usado em conjunto com outro termo moderno “ciência de dados”, que é basicamente análise de dados.

Se você já realizou uma análise de dados, pode ter se deparado com a seleção de recursos antes de aplicar seu modelo (analítico modelo, quero dizer) para os dados.

Então, em geral, todas as atividades que você realiza nos dados brutos para torná-los “limpos” o suficiente para serem inseridos em seu algoritmo analítico é munging de dados.

Às vezes, o data munging também cria alguns dados derivados. Uma das coisas mais comuns que o data munging faz é criar ids únicos. Mas a derivação de dados não é o objetivo principal da munging de dados.

A Wikipedia tem um artigo sobre Data wrangling , que é essencialmente o que é munging de dados .

Dados brutos:

Após a simulação de dados

Um exemplo seria tentar analisar os logs de acesso do Apache ( Arquivos de log – servidor Apache HTTP ). Agora, os registros de acesso não são necessariamente um conjunto de dados confuso, mas são confusos o suficiente para executar diretamente qualquer algoritmo de ML sem nenhum pré-processamento.

Portanto, cada linha no arquivo se parece com isto:

aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"

Você queria obter a lista de IPs e o número de vezes que eles atingiram pode haver alguma análise que requer saber em qual geografia o o site é popular; ou pode ser de qual IP os spammers estão vindo; ou em que área precisamos de mais vendas; ou qual IP precisou ser bloqueado porque eles estão fora de nossa zona de vendas ou podemos querer prever qual localidade está prestes a ter um aumento na demanda e queremos enviar mais produtos para lá antes que isso aconteça.

Todas essas perguntas podem ser respondidas se tivermos um dado com duas colunas: uma com endereços IP e outra como podem ser acessados ​​no site.

Aqui está uma linha script perl que converteria aquele arquivo de log bagunçado em CSV de duas colunas (não realmente CSV, mas delimitado por token) com IP e contagem de ocorrências.

perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \

END{print Dumper\\%n}" access.log

Resultado?

$VAR1 = {

"aaa.xx.65.186" => 132,

"bb.yyy.7.60" => 48,

"ccc.zzz.46.147" => 111,

"dd.qq.71.82" => 33

};

# Real IPs obscured

Origem:

munge / muhnj / vt. 1. [depreciativo] Transformar informações de maneira imperfeita. 2. Uma reescrita abrangente de uma rotina, estrutura de dados ou de todo o programa. 3. Para modificar os dados de alguma forma, o locutor não precisa entrar agora ou não pode descrever de forma sucinta (compare resmungo ). 4. Para adicionar spamblock para um endereço de e-mail.

Este termo é frequentemente confundido com mung , que provavelmente foi derivado dele. No entanto, também parece que a palavra “munge” era comum na Escócia na década de 1940 e em Yorkshire na década de 1950 como um verbo, que significa mastigar até uma bagunça mastigada, e como um substantivo, significando o resultado de munging algo (o paralelo com kluge / kludge par é divertido). O OED relata `munge” como um verbo arcaico que significa “limpar (o nariz de uma pessoa)”.

Ferramentas:

Ferramentas Unix: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Linguagens: Python, Perl, R Processadores de big data: Hadoop / Hive / Pig, Twitter Storm, Spark / Tubarão

Curiosidade: (bastante nojento)

Agora você sabe que munging é basicamente limpar coisas ou “pegar a merda fora “. Há rumores de que por volta de 1990, LA, uma atividade de desenterrar cadáveres femininos frescos e pular sobre eles para que questões internas saíssem das aberturas era chamada de munging de cadáveres.

[Isso não é o descrição detalhada do ato. É ainda mais grosseiro quando você “pula” nos detalhes, mas prefiro não querer que você vomite na tela. Se você quiser ler toda a maldade disso. Leia aqui: cadáver munging VOCÊ FOI AVISADO .]

Agora você nunca esqueceria o que é munging de dados.

Fontes:

1. Quem está fazendo solicitações da Web falsas? 2. Organização de dados 3. O que é Munging de dados? 4. cadáver munging (informações depreciativas)

Resposta

O Data Munging (também conhecido como Data wrangling) é o processo de transformar programaticamente os dados “brutos” originais em um formato que facilite o trabalho. Isso pode significar modificar todos os valores em uma determinada coluna de uma determinada maneira, ou mesclar várias colunas ou alterar os tipos de dados.

Sinônimos para Munging: descriptografar , digitalizar , interativo , migrar , legível

O termo Mung foi cunhado no final dos anos 60 como algo depreciativo termo para ações e transformações que degradam progressivamente um conjunto de dados e rapidamente se tornam vinculadas ao backronym “Mash até que não seja bom” (ou, recursivamente, “Mung até que não seja bom”).

Referência:

O que é Data Munging? | Talend

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *