ベストアンサー
データの変更は基本的に乱雑なデータセットのクリーンアップ。これは通常、基本的にデータ分析である別の流行の用語「データサイエンス」と組み合わせて使用されます。
データ分析を実行したことがある場合は、モデルを適用する前に機能の選択に遭遇した可能性があります(分析モデル、つまり)データに。
したがって、一般に、分析アルゴリズムに入力するのに十分な「クリーン」にするために生データに対して行うすべてのアクティビティは、データの変更です。
場合によっては、データの改ざんによって派生データも作成されることがあります。データの改ざんが行う最も一般的なことの1つは、一意のIDを作成することです。ただし、データの派生はデータの改ざんの主な目的ではありません。
Wikipediaには、データのラングリングに関する記事があります。これは、本質的にデータの改ざんとは何かです。 。
生データ:
データ変更後
例は、Apacheアクセスログ(ログファイル-ApacheHTTPサーバー)を分析しようとします。現在、アクセスログは必ずしも混乱したデータセットではありませんが、前処理なしでMLアルゴリズムを直接実行するのに十分なほど厄介です。
したがって、ファイルの各行は次のようになります。
aaa.xx.65.186 - - [25/Jul/2007:05:55:05 -0500] "GET http://www.some-advertising-site.com/banner/digitsHTTP/1.1" 404 305 "http://some-different-website.com/" "legitimate-looking agent"
IPのリストを取得したい場合、IPがヒットした回数は、どの地域を知る必要がある分析である可能性があります。ウェブサイトは人気があります。または、スパマーがどのIPから来ているのかもしれません。または、より多くの売上が必要な分野。または、IPが販売ゾーン外にあるためにブロックする必要があるIP、または需要が急増しようとしている地域を予測し、それが発生する前にさらに多くのものを出荷したい場合があります。
2つの列を持つデータがある場合、これらすべての質問に答えることができます。1つはIPアドレスを持ち、もう1つはWebサイトにどのようにヒットする可能性がありますか。
これが1行です。その乱雑なログファイルをIPとヒット数を含む2列のCSV(実際にはCSVではなくトークンで区切る)に変換するperlスクリプト。
END{print Dumper\\%n}" access.log
結果?
$VAR1 = {
"aaa.xx.65.186" => 132,
"bb.yyy.7.60" => 48,
"ccc.zzz.46.147" => 111,
"dd.qq.71.82" => 33
};
# Real IPs obscured
起源:
munge / muhnj / vt。 1. [蔑称]情報を不完全に変換すること。 2.ルーチン、データ構造、またはプログラム全体の包括的な書き直し。 3.何らかの方法でデータを変更するには、話者は今すぐに入る必要がないか、簡潔に説明できません(つぶやきと比較してください)。4。
スパムブロックをメールアドレスに送信します。
この用語は、マングと混同されることがよくあります。 、おそらくそれから派生したものです。しかし、「munge」という言葉は、1940年代にスコットランドで、1950年代にヨークシャーで動詞として一般的に使用されていたようです。名詞。何かを壊した結果を意味します( kluge / kludge と並行していますペアは面白いです)。 OEDは、「munge」を「(人の鼻を)拭く」という意味の古風な動詞として報告しています。
ツール:
Unixツール:sed、grep、awk、pipe、sort、uniq、tr、tail、head、シェルスクリプト言語:Python、Perl、Rビッグデータプロセッサ:Hadoop / Hive / Pig、Twitter Storm、Spark /サメ
おもしろ情報:(かなりグロス)
今では、マングは基本的に物を掃除すること、つまり「手に入れること」です。たわごと」。 1990年代頃、LAでは、新鮮な女性の死体を掘り起こし、それを飛び越えて内部の物質が開口部から出てくるという活動は、死体の破壊と呼ばれていたと噂されています。
[これは行為の詳細な説明。細部に「飛び込む」とさらにグロスになりますが、画面を突くのは嫌です。あなたがこれの完全な厄介さを読みたいならば。こちらをお読みください:死体の破壊 警告が表示されました。]
これで、データの改ざんが何であるかを決して忘れることはありません。
出典:
1。 偽のWebリクエストを行うのは誰ですか? 2. データラングリング 3. データの変更とは 4。死体の改ざん(蔑称情報)
回答
データの改ざん(データラングリングとも呼ばれます)は、 元の「生の」データを、操作しやすい形式にプログラムで変換します。 これは、特定の列のすべての値を特定の方法で変更したり、複数の列をマージしたり、データ型を変更したりすることを意味する場合があります。
変更の同義語:復号化、デジタル化、インタラクティブ、移行、読み取り可能
「Mung」という用語は、60年代後半にやや軽蔑的なものとして造られました。 データセットを徐々に劣化させ、すぐに「Mash until NoGood」(または繰り返し「MungUntil NoGood」)というバックロニムに結び付けられるアクションと変換の用語。
参照: