Nejlepší odpověď
Data Munging je v zásadě moderní výraz pro vyčištění špinavé datové sady . Obvykle se používá ve spojení s jiným moderním pojmem „datová věda“, což je v zásadě analýza dat.
Pokud jste někdy prováděli analýzu dat, možná jste narazili na výběr funkcí dříve, než použijete svůj model (analytický Chci říct, model) k datům.
Obecně tedy veškerá aktivita, kterou provádíte na nezpracovaných datech, aby byla dostatečně „čistá“ pro vstup do vašeho analytického algoritmu, je data munging.
Munging dat někdy vytváří i některá odvozená data. Jednou z nejběžnějších věcí, které datové munging dělá, je vytváření jedinečných ID. Avšak odvození dat není primárním cílem datového mungingu.
Wikipedia má článek o hádání dat , což je v podstatě to, co datové mungování je .
Nezpracovaná data:
Po propojení dat
Příklad by se pokoušel analyzovat protokoly přístupu Apache ( soubory protokolu – server Apache HTTP ). Nyní nejsou přístupové protokoly nutně pokazenou datovou sadou, ale je dost chaotický, aby na něm bylo možné přímo spustit jakýkoli algoritmus ML bez jakéhokoli předběžného zpracování.
Takže každý řádek v souboru vypadá takto:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Chtěli jste získat seznam IP adres a kolikrát zasáhnou, může to být nějaká analýza, která vyžaduje vědět, o jakou geografii jde web je populární; nebo může být IP adresa, ze které spammeři přicházejí; nebo v jaké oblasti potřebujeme větší prodej; nebo jakou IP adresu bylo třeba zablokovat, protože jsou mimo naši prodejní zónu, nebo můžeme chtít předpovědět, v které lokalitě se brzy zvýší poptávka, a chceme tam odeslat další položky, než k tomu dojde.
Na všechny tyto otázky lze odpovědět, pokud máme data se dvěma sloupci: jeden s IP adresami a druhý, jak může zasáhnout svůj web.
Zde je jednorázová linka skript perl, který by převedl tento chaotický soubor protokolu do dvou sloupců CSV (ne ve skutečnosti CSV, ale odděleny tokeny) s IP a počtem přístupů.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
Výsledek?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Původ:
munge / muhnj / vt. 1. [hanlivé] Nedokonale transformovat informace. 2. Komplexní přepis rutiny, datové struktury nebo celého programu. 3. Chcete-li nějakým způsobem upravovat data, nemusí řečník do toho teď jít nebo to nedokáže stručně popsat (srov. mumble ). 4. Přidat spamblock na e-mailovou adresu.
Tento výraz je často zaměňován s mung , který z toho pravděpodobně byl odvozen. Zdá se však také, že slovo „munge“ bylo běžně používáno ve Skotsku ve 40. letech a v Yorkshiru v 50. letech jako sloveso, což znamená žvýkat se do žvýkacího nepořádku a jako podstatné jméno, což znamená výsledek hromadění něčeho (paralela s kluge / kludge pár je zábavný). OED hlásí „munge“ jako archaické sloveso, které znamená „otřít (nos člověka)“.
Nástroje:
Unixové nástroje: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Jazyky: Python, Perl, R Velké datové procesory: Hadoop / Hive / Pig, Twitter Storm, Spark / Žralok
Zábavný fakt: (spíše hrubý)
Od této chvíle víte, že munging v podstatě čistí věci nebo do prdele „. Říká se, že kolem 90. let 20. století se LA, vykopávání čerstvého ženského mrtvého těla a skákání přes něj, aby z otvorů vycházely vnitřní záležitosti, nazývalo mrtvé mungování.
[Toto není podrobný popis činu. Je to ještě hrubší, když „skočíte“ do detailů, ale byl bych raději, kdyby se vám na obrazovce nevyvrátilo. Pokud si to chcete přečíst celou ošklivost. Přečtěte si zde: corpse munging BUDETE VAROVÁNÍ .]
Nyní byste nikdy nezapomněli, co to je munging dat.
Zdroje:
1. Kdo vyrábí falešné webové požadavky? 2. Hádání dat 3. Co je Data Munging? 4. corpse munging (hanlivé informace)
Odpověď
Data Munging (také známý jako Data wrangling) je proces programově transformovat původní „nezpracovaná“ data do formátu, který usnadňuje práci s nimi. To může znamenat určitým způsobem upravit všechny hodnoty v daném sloupci nebo sloučit více sloupců dohromady nebo změnit datové typy.
Synonyma pro Munging: dešifrovat , digitalizovat , interaktivní , migrovat , čitelné
Termín Mung byl vytvořen na konci 60. let jako poněkud hanlivý termín pro akce a transformace, které postupně degradují datovou sadu a rychle se staly vázány na backronym „Mash Until No Good“ (nebo rekurzivně „Mung Until No Good“).
Odkaz: