Najlepsza odpowiedź
Data Munging to najmodniejsze określenie na porządkowanie bałaganu w zestawie danych . Zwykle jest używany w połączeniu z innym popularnym terminem „nauka o danych”, która jest w zasadzie analizą danych.
Jeśli kiedykolwiek przeprowadzałeś analizę danych, być może spotkałeś się z wyborem cech przed zastosowaniem modelu (analityczne mam na myśli model) do danych.
Ogólnie rzecz biorąc, cała aktywność, którą wykonujesz na surowych danych, aby były wystarczająco „czyste”, aby można je było wprowadzić do algorytmu analitycznego, jest łączeniem danych.
Czasami munging danych tworzy również pewne dane pochodne. Jedną z najczęstszych rzeczy, które robi munging danych, jest tworzenie unikalnych identyfikatorów. Jednak wyprowadzanie danych nie jest głównym celem gromadzenia danych.
Wikipedia zawiera artykuł na temat Sprzątanie danych , który jest w istocie tym, czym jest munging danych .
Surowe dane:
Po scaleniu danych
Przykład to próba analizy dzienników dostępu Apache ( Pliki dziennika – serwer HTTP Apache ). Teraz dzienniki dostępu niekoniecznie są pomieszanym zbiorem danych, ale jest wystarczająco bałaganiarski, aby bezpośrednio uruchamiać na nim dowolny algorytm ML bez żadnego przetwarzania wstępnego.
Tak więc każda linia w pliku wygląda następująco:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Chciałeś uzyskać listę adresów IP i ile razy trafiały, może to być analiza, która wymaga znajomości geografii strona internetowa jest popularna; lub może to być adres IP, z którego pochodzą spamerzy; lub w jakim obszarze potrzebujemy większej sprzedaży; lub jaki adres IP musiał zostać zablokowany, ponieważ znajduje się poza naszą strefą sprzedaży lub może chcemy przewidzieć, w której miejscowości nastąpi wzrost popytu i chcemy wysłać tam więcej towarów, zanim to nastąpi.
Na wszystkie te pytania można odpowiedzieć, jeśli mamy dane z dwiema kolumnami: jedną z adresami IP, a drugą, jak mogą trafić do witryny.
Oto jednowierszowy skrypt Perla, który przekształciłby ten niechlujny plik dziennika w dwukolumnowy plik CSV (nie tak naprawdę CSV, ale rozdzielony tokenami) z adresem IP i liczbą trafień.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
Wynik?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Pochodzenie:
munge / muhnj / vt. 1. [uwłaczające] niedoskonałe przekształcanie informacji. 2. Kompleksowe przepisanie procedury, struktury danych lub całego programu. 3. Aby zmodyfikować dane w jakiś sposób, mówca nie musi w tej chwili wchodzić lub nie może zwięźle opisać (porównaj mumble ). 4. Aby dodać blokada spamu na adres e-mail.
Ten termin jest często mylony z mung , które prawdopodobnie pochodzi od tego słowa. Jednak wydaje się, że słowo „munge” było również w powszechnym użyciu w Szkocji w latach czterdziestych XX wieku oraz w Yorkshire w latach pięćdziesiątych jako czasownik oznaczający przeżuwać w przeżuwaną miazgę i jako rzeczownik, oznaczający wynik podłączenia czegoś (podobieństwo do kluge / kludge para jest zabawna). OED podaje, że „munge” jest archaicznym czasownikiem oznaczającym „wytrzeć (czyjeś nos)”.
Narzędzia:
Narzędzia uniksowe: sed, grep, awk, pipe, sort, uniq, tr, tail, head, skrypt powłoki Języki: Python, Perl, R Procesory dużych zbiorów danych: Hadoop / Hive / Pig, Twitter Storm, Spark / Rekin
Ciekawostka: (raczej obrzydliwa)
Teraz już wiesz, że mung to po prostu sprzątanie rzeczy lub to gówno ”. Krążą pogłoski, że około 1990 roku w Los Angeles czynność polegająca na wykopywaniu świeżego martwego ciała kobiety i przeskakiwaniu go tak, aby sprawy wewnętrzne wyszły z otworów, była nazywana paleniem zwłok.
[To nie jest szczegółowy opis aktu. Jeszcze bardziej obrzydliwe jest, gdy „wskakujesz” do szczegółów, ale wolałbym, żebyś nie wymiotował na ekranie. Jeśli chcesz przeczytać pełną paskudność tego. Przeczytaj tutaj: grzebanie zwłok BYŁO OSTRZEŻONY .]
Teraz nigdy nie zapomnisz, czym jest munging danych.
Źródła:
1. Kto wysyła fałszywe żądania internetowe? 2. Kłótnie z danymi 3. Co to jest łączenie danych? 4. grzebanie zwłok (obraźliwa informacja)
Odpowiedź
Data Munging (znana również jako Data Wrangling) to proces programowe przekształcanie oryginalnych „surowych” danych do formatu, który ułatwia pracę. Może to oznaczać zmodyfikowanie wszystkich wartości w danej kolumnie w określony sposób lub scalenie wielu kolumn razem lub zmianę typów danych.
Synonimy dla Munging: odszyfruj , digitalizuj , interaktywne , migrować , czytelne
Termin „Mung” został ukuty pod koniec lat 60. jako nieco obraźliwy termin określający działania i transformacje, które stopniowo degradują zbiór danych i szybko zostały powiązane z backronimem „Mash Until No Good” (lub rekurencyjnie „Mung Until No Good”).
Odniesienie: