Paras vastaus
Data Munging on pohjimmiltaan lonkkatermi sotkuisen tietojoukon puhdistaminen . Sitä käytetään yleensä yhdessä toisen lonkatermin ”datatiede” kanssa, joka on pohjimmiltaan tietojen analysointi.
Jos olet joskus suorittanut data-analyysin, saatat olla törmännyt ominaisuuksien valintaan ennen mallisi käyttämistä (analyyttinen mallin, tarkoitan) dataa.
Joten kaiken toiminnan, jonka teet raakatiedoilla, jotta se olisi ”riittävän puhdasta” syötettäväksi analyyttiseen algoritmiin, on tietojen mung. p>
Joskus tietojen munging luo myös johdettuja tietoja. Yksi yleisimmistä asioista, joita tietojen munging tekee, on se, että se luo ainutlaatuiset tunnukset. Tietojen johtaminen ei kuitenkaan ole tietojen yhdistämisen ensisijainen tavoite.
Wikipediassa on artikkeli aiheesta Tietojen sekoittaminen , mikä lähinnä on tietojen yhdistäminen. .
Raakatiedot:
Tietojen yhdistämisen jälkeen
Esimerkki yrittäisi analysoida Apache-pääsylokeja ( lokitiedostot – Apache HTTP -palvelin ). Nyt pääsylokit eivät välttämättä ole sekaisin tietojoukko, mutta se on tarpeeksi sotkuinen, jotta kaikki ML-algoritmit voidaan suorittaa suoraan ilman esikäsittelyä.
Joten tiedoston kukin rivi näyttää tältä:
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
Halusit saada luettelon IP-osoitteista ja niiden osumien lukumäärän, joka voi olla jonkinlainen analyysi, joka vaatii tietyn maantieteellisen sijainnin verkkosivusto on suosittu; tai se voi olla IP-osoite, josta roskapostittajat tulevat; tai mihin alueeseen tarvitsemme lisää myyntiä; tai mikä IP-osoite oli estettävä, koska ne eivät kuulu myyntialueellemme tai ehkä haluamme ennustaa, missä paikkakunnassa on kysynnän nousu, ja haluamme lähettää enemmän tavaroita sinne ennen kuin se tapahtuu.
Kaikkiin näihin kysymyksiin voidaan vastata, jos meillä on tietoja, joissa on kaksi saraketta: toisella on IP-osoitteet ja toisella, miten se voi osua siihen verkkosivustolle.
Tässä on yhden linjan perl-komentosarja, joka muuntaa sotkuisen lokitiedoston kahdeksi sarakkeeksi CSV (ei oikeastaan CSV, mutta tunnus eroteltu) IP: llä ja osumien määrällä.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
Tulos?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
Alkuperä:
munge / muhnj / vt. 1. [halveksiva] Muuntaa tiedot epätäydellisesti. 2. Rutiinin, tietorakenteen tai koko ohjelman kattava uudelleenkirjoittaminen. 3. Jos haluat muokata tietoja jollain tavalla, puhujan ei tarvitse mennä juuri nyt tai hän ei voi kuvata ytimekkäästi (vertaa mumble ). 4. Lisää roskapostilukko sähköpostiosoitteeseen.
Tätä termiä sekoitetaan usein mung , joka todennäköisesti johtui siitä. Kuitenkin näyttää siltä, että sana ”munge” oli yleinen käyttö Skotlannissa 1940-luvulla ja Yorkshiressä 1950-luvulla verbinä, mikä tarkoittaa murskattavan sotkua ja kuten substantiivi, mikä tarkoittaa jotain niputtamista (rinnakkain kluge / kludgen kanssa pari on huvittavaa). OED ilmoittaa ” munge -arktisen verbin, joka tarkoittaa ”pyyhkiä (henkilön nenä)”.
Työkalut:
Unix-työkalut: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Kielet: Python, Perl, R Suuret dataprosessorit: Hadoop / Hive / Pig, Twitter Storm, Spark / Hai
Hauska tosiasia: (melko karkea)
Nyt tiedät, että nuuskeminen on periaatteessa asioiden siivoamista tai ”hankkimista” paska ulos ”. Huhutaan, että noin 1990-luvulla, LA, toimintaa, jolla kaivettiin tuoreen naisen kuollutta ruumiita ja hypättiin sen yli niin, että sisäiset asiat tulivat aukoista, kutsuttiin ruumiiden mungingiksi.
[Tämä ei ole yksityiskohtainen kuvaus teosta. Se on vieläkin karkeampi, kun ”hyppää” yksityiskohtiin, mutta en halua, että sinun pukeutuu näytölle. Jos haluat lukea tämän täyden ilkeyden. Lue täältä: ruumis munging OLET OLET VAROITETTU .]
Nyt et koskaan unohda, mikä tietojen noutaminen on.
Lähteet:
1. Kuka tekee valheellisia verkkopyyntöjä? 2. Tietojen sekoittuminen 3. Mikä on tietojen munging? 4. ruumiin munging (halveksivat tiedot)
Vastaus
Tietojen yhdistäminen (tunnetaan myös nimellä Data wrangling) on prosessi ohjelmallisten alkuperäisten ”raakojen” tietojen muuntaminen muotoon, joka helpottaa työskentelyä. Tämä voi tarkoittaa kaikkien tietyn sarakkeen arvojen muokkaamista tietyllä tavalla tai useiden sarakkeiden yhdistämistä tai tietotyyppien muuttamista.
Mungingin synonyymit: salauksen purkaminen , digitointi , vuorovaikutteinen , siirtyä , luettavissa
Termi Mung otettiin käyttöön 60-luvun lopulla jonkin verran halventavana termi toiminnoille ja muutoksille, jotka hajottavat progressiivisesti tietojoukkoa ja sitoutuvat nopeasti taustamuotoon ”Mash Until No Good” (tai rekursiivisesti ”Mung Until No Good”).
Viite: