Mi az adat munging? Hogyan lehet használni egy mondatban? Vannak szinonimák? Honnan származik a kifejezés?

Legjobb válasz

Az adatugrás alapvetően a csípő kifejezés rendetlen adathalmaz tisztítása . Általában egy másik csípős “adattudomány” kifejezéssel együtt használják, amely alapvetően adatelemzés.

Ha valaha elvégzett adatelemzést, akkor a modell alkalmazása előtt találkozhatott funkcióválasztással (analitikai modell, úgy értem) az adatokhoz.

Tehát általában az összes tevékenység, amelyet a nyers adatokon végez, annak érdekében, hogy elég “tiszta” legyen az analitikai algoritmusba történő bevitelhez, az adatok összekapcsolása.

Néha az adatrögzítés néhány származtatott adatot is létrehoz. Az egyik leggyakoribb dolog, amit az adatrögzítés tesz, az az, hogy egyedi azonosítókat hoz létre. De az adatok levezetése nem az adatelhárítás elsődleges célja.

A Wikipédiának van egy cikke az adatok megcáfolásáról , amely lényegében az adatok összekapcsolása. .

Nyers adatok:

Az adatok megrázása után

Egy példa megpróbálja elemezni az Apache hozzáférési naplókat ( Naplófájlok – Apache HTTP szerver ). A hozzáférési naplók nem feltétlenül összekevert adathalmazok, de elég rendetlenek ahhoz, hogy bármilyen ML algoritmust közvetlenül futtassanak rajta előzetes feldolgozás nélkül.

Tehát a fájl minden sora így néz ki:

aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"

Meg akarta szerezni az IP-k listáját és az elérésük számát, lehet, hogy ez egy elemzés, amely megköveteli, hogy milyen földrajzot használjon a weboldal népszerű; vagy lehet, hogy milyen IP-ből származnak a spamelők; vagy milyen területre van szükségünk több értékesítésre; vagy milyen IP-t kellett blokkolni, mert kívül esnek az értékesítési zónánkon, vagy esetleg meg akarjuk jósolni, hogy melyik településen lesz keresletnövekedés, és még több cuccot akarunk oda szállítani, mielőtt megtörténne.

Mindezen kérdések megválaszolhatók, ha két oszlopos adatokkal rendelkezünk: az egyiknek IP címe van, a másiknak pedig, hogy hogyan találhatja el a webhely.

Itt van egyvonalas perl szkript, amely azt a rendetlen naplófájlt két oszlopos CSV-vé (nem igazán CSV-ként, de tokenekkel elválasztva) alakítja át IP-vel és találatszámmal.

perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \

END{print Dumper\\%n}" access.log

Eredmény?

$VAR1 = {

"aaa.xx.65.186" => 132,

"bb.yyy.7.60" => 48,

"ccc.zzz.46.147" => 111,

"dd.qq.71.82" => 33

};

# Real IPs obscured

Eredet:

munge / muhnj / vt. 1. [becsmérlő] Az információk tökéletlen átalakításához. 2. A rutin, az adatszerkezet vagy az egész program átfogó átírása. 3. Az adatok valamilyen módon történő módosításához a beszélőnek nem kell most belemennie, vagy nem tudja röviden leírni (hasonlítsa össze a motyogást ). id = “e79e6c4518”> spamblock e-mail címre.

Ezt a kifejezést gyakran összekeverik a mung , amely valószínűleg abból származik. Úgy tűnik azonban, hogy a munge szó Skóciában az 1940-es években, Yorkshire-ben pedig az 1950-es években szokásosan használt volt, mint igét, ami azt jelenti, hogy rágcsált rendetlenségbe keveredett, és mint főnév, ami valaminek a felidézésének az eredményét jelenti (a kluge / kludge párhuzama pár mulatságos). Az OED jelentése szerint a „munge” archaikus igeként jelent: „kitörölni egy személy orrát”.

Eszközök:

Unix eszközök: sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell script Nyelvek: Python, Perl, R Nagy adatfeldolgozók: Hadoop / Hive / Pig, Twitter Storm, Spark / Cápa

Szórakoztató tény: (meglehetősen durva)

Mostanra már tudod, hogy a gúnyolódás alapvetően a dolgok tisztítását vagy a „megszerzését” jelenti a szar ki “. Úgy hírlik, hogy 1990-es évek környékén a holt testrablásnak nevezték azt a tevékenységet, amely a friss női holt test kiásását és átugrását annak érdekében, hogy a belső dolgok kijöjjenek a nyílásokból.

[Ez nem az a cselekmény részletes leírása. Még durvább, ha “beleugrasz” a részletekbe, de inkább nem szeretném, ha piszkálnád a képernyőn. Ha mégis el akarja olvasni ennek teljes csúnyaságát. Olvassa el itt: holttest dünnyögése FIGYELMEZTETTÉK .]

Most soha nem felejtené el, mi az adatrögzítés.

Források:

1. Kik adnak hamis webkéréseket? 2. Adatok vívódása 3. Mi az adatcsúcs? 4.A holttest dünnyögése (becsmérlő információk)

Válasz

Az adatrögzítés (más néven adatforgatás) a folyamat az eredeti „nyers” adatok programozott átalakítása olyan formátumba, amely megkönnyíti a munkát. Ez azt jelentheti, hogy egy adott oszlopban az összes értéket bizonyos módon módosítja, vagy több oszlopot egyesít, vagy megváltoztatja az adattípusokat.

A Munging szinonimái: visszafejtés , digitalizálás , interaktív , migrate , olvasható

A Mung kifejezést a 60-as évek végén hozták létre kissé becsmérlőnek olyan cselekvések és átalakítások kifejezése, amelyek fokozatosan lerontják az adatkészletet, és gyorsan a „Mash Until No Good” (vagy rekurzívan: „Mung Add No Good”) előzményhez kötődnek.

Hivatkozás:

Mi az adatrögzítés? | Talend

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük