우수 답변
Data Munging 은 기본적으로 복잡한 데이터 세트 정리 . 일반적으로 기본적으로 데이터 분석 인 또 다른 유행 용어 “데이터 과학”과 함께 사용됩니다.
데이터 분석을 수행 한 적이 있다면 모델을 적용하기 전에 기능 선택을 접했을 수 있습니다 (분석 모델, 내 말은).
일반적으로 분석 알고리즘에 입력 할 수있을만큼 충분히 “깨끗한”원시 데이터를 만들기 위해 수행하는 모든 작업은 데이터 뭉침입니다.
p>
때때로 데이터 병합은 일부 파생 데이터도 생성합니다. 데이터 정리가 수행하는 가장 일반적인 작업 중 하나는 고유 한 ID를 만드는 것입니다. 그러나 데이터 파생은 데이터 병합의 주요 목표가 아닙니다.
Wikipedia에는 기본적으로 데이터 병합이 무엇인지 인 데이터 랭 글링 에 대한 기사가 있습니다. .
원시 데이터 :
데이터 병합 후
예제 는 Apache 액세스 로그 ( 로그 파일-Apache HTTP Server )를 분석하려는 것입니다. 이제 액세스 로그가 반드시 엉망인 데이터 세트는 아니지만 사전 처리없이 ML 알고리즘을 직접 실행할 수있을만큼 복잡합니다.
파일의 각 행은 다음과 같습니다.
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
IP 목록을 가져오고 싶었고 IP가 적중 한 횟수는 어떤 지역이 있는지 알아야하는 분석 일 수 있습니다. 웹 사이트가 인기가 있습니다. 또는 스패머의 출처 IP 일 수 있습니다. 또는 더 많은 판매가 필요한 영역; 또는 그들이 우리의 판매 지역을 벗어 났기 때문에 차단해야하는 IP 또는 수요가 급증 할 지역을 예측하고 발생하기 전에 더 많은 물건을 배송하고 싶을 수 있습니다.
두 개의 열이있는 데이터가있는 경우 이러한 모든 질문에 답할 수 있습니다. 하나에는 IP 주소가 있고 다른 하나는 웹 사이트에 대한 히트 수입니다.
여기에 한 줄짜리가 있습니다. 이 지저분한 로그 파일을 IP와 조회수가 포함 된 두 열 CSV (실제로 CSV가 아니라 토큰으로 구분)로 변환하는 perl 스크립트입니다.
perl -MData::Dumper -nae"++$n{$F[0]} if /GET http/; \
END{print Dumper\\%n}" access.log
결과?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
원산지 :
munge / muhnj / vt. 1. [derogatory] 정보를 불완전하게 변형하는 것. 2. 루틴, 데이터 구조 또는 전체 프로그램의 포괄적 인 재 작성. 3. 발표자가 지금 당장 들어갈 필요가 없거나 간결하게 설명 할 수없는 방식으로 데이터를 수정하려면 ( 중얼 거리다 비교) 4.
spamblock 을 이메일 주소로 전송합니다.
이 용어는 종종 머그 와 혼동됩니다. , 아마도 그것에서 파생되었을 것입니다. 그러나 munge라는 단어는 1940 년대 스코틀랜드와 1950 년대 요크셔에서 흔히 사용 된 것으로 보입니다. 명사 ( kluge / kludge 와 유사) 쌍은 재미있다). OED는 munge를 닦다 (사람의 코)를 의미하는 구어 동사로보고합니다.
도구 :
Unix 도구 : sed, grep, awk, pipe, sort, uniq, tr, tail, head, shell 스크립트 언어 : Python, Perl, R 빅 데이터 프로세서 : Hadoop / Hive / Pig, Twitter Storm, Spark / 상어
재미있는 사실 : (다소 총체적)
지금 쯤이면 뭉치는 것이 기본적으로 물건을 청소하거나 똥 밖으로 “. 1990 년경 LA에서 신선한 암컷의 시체를 파 내고 튀어 나와 내부의 문제가 튀어 나오도록하는 활동을 시체 뭉침이라고합니다.
[이것이 아닙니다. 행위에 대한 자세한 설명. 세부 사항으로 “점프”할 때 훨씬 더 심해지지만 화면에 토하는 것을 원하지 않습니다. 이것에 대한 전체적인 불쾌감을 읽고 싶다면. 여기를 읽어보세요 : 시체 절단 경고를 받았습니다 .]
이제 데이터 정리가 무엇인지 결코 잊지 못할 것입니다.
출처 :
1. 누가 가짜 웹 요청을합니까? 2. 데이터 랭 글링 3. 데이터 통합이란? 4. 시체 제거 (derogatory 정보)
답변
데이터 결합 (데이터 랭 글링이라고도 함)은 원래 “원시”데이터를보다 쉽게 작업 할 수있는 형식으로 프로그래밍 방식으로 변환합니다. 이는 특정 열의 모든 값을 특정 방식으로 수정하거나 여러 열을 병합하거나 데이터 유형을 변경하는 것을 의미 할 수 있습니다.
Munging의 동의어 : 복호화 , 디지털화 , 대화 형 , migrate , 읽기
Mung이라는 용어는 60 년대 후반에 다소 경멸적인 용어로 만들어졌습니다. 데이터 세트를 점진적으로 저하시키고 “Mash Until No Good”(또는 재귀 적으로 “Mung Until No Good”)라는 백로 니어에 빠르게 연결되는 작업 및 변환 용어입니다.
참조 :