ベストアンサー
A2Aを提供してくれたYashashriPahadeに感謝します。リストにもう1つ追加します。データセットには 3つのタイプがあります。それらすべてについて詳しく説明します。
大きなデータセットがある場合は、
3つの部分:
- トレーニングセット(元のデータセットの60%) :これは、 予測アルゴリズムを構築し、ニューラルネットワークの重みを調整するために使用されます。 私たちのアルゴリズムは、トレーニングデータセットの癖に合わせて調整しようとします。このフェーズでは、通常、相互検証フェーズでのパフォーマンスを比較するために、複数のアルゴリズムを作成します。各タイプのアルゴリズムには、独自のパラメーターがあります。オプション(ニューラルネットワークのレイヤー数、ランダムフォレストのツリー数など)。アルゴリズムごとに、1つのオプションを選択する必要があります。そのため、トレーニングセットがあります。
- 相互検証セット(元のデータセットの20%):このデータセットが使用されますto トレーニングセットに基づいて作成された予測アルゴリズムのパフォーマンスを比較します。 あなたこれで、アルゴリズムのコレクションができました。最高のパフォーマンスを持つアルゴリズムを1つ選択する必要があります。それがあなたがテストセットを持っている理由です。検証データセットは、モデルのハイパーパラメータを調整する際にモデルのスキルを推定するために使用される、モデルのトレーニングから差し控えられたデータのサンプルです。このデータセットは、 過剰適合を最小化するために使用されます。 あなたはの重みを調整していませんこのデータセットを使用するネットワークでは、「トレーニングデータセットの精度が向上すると、以前にネットワークに表示されたことのないデータセット、または少なくともネットワークに表示されていないデータセットの精度が実際に向上することを確認するだけです」トレーニング済み(つまり、検証データセット)。トレーニングデータセットの精度は向上しても、検証データセットの精度は同じか低下する場合は、次のようになります。ニューラルネットワークの過剰適合のため、トレーニングを停止する必要があります。
- テストセット(元のデータセットの20%):ここで、優先する予測アルゴリズムを選択しましたが、完全に見えない実世界のデータに対してどのように実行されるかはまだわかりません。そのため、選択した予測アルゴリズムをテストセットに適用して、それがどのように実行されるかを確認し、見えないデータに対するアルゴリズムのパフォーマンスについてのアイデアを得ることができます。アルゴリズムにパラメーターがない場合は、3番目のステップは必要ないと思います。その場合、検証ステップがテストステップになります。このデータセットは、ネットワークの実際の予測力を確認するために、 最終的なソリューションをテストするためにのみ使用されます。
注:
- テストフェーズをスキップすることは推奨されないことを覚えておくことが非常に重要です。相互検証セットとその癖やノイズに基づいてアルゴリズムが比較されるため、相互検証フェーズで良好に機能したからといって、それが本当に最良のものであるとは限りません。
- テスト中フェーズ、目的は、最終モデルが実際にどのように処理されるかを確認することです。したがって、パフォーマンスが非常に悪い場合は、トレーニングフェーズから開始するプロセス全体を繰り返す必要があります。
出典: パターン分析の概要、Ricardo Gutierrez-OsunaTexas A&M University、Texas A&M University
回答
ビッグデータは、主に膨大で増え続けるデジタルで利用可能なデータを指す広い概念です。ビッグデータは、定量的および定性的なデータ(「数値」および「テキスト」)を無差別に参照します。
データセットは、テキストや数値を含む単なるデータのコレクションへの不特定の参照である場合もあります。ただし、データセットは、整理の原則に従って注文された特定の原材料のコレクションを指す場合にも推奨される用語です。
データセットの例を次に示します。
- 単語—出現率の減少に応じた単語のランク
- 英語の単語—同じ単語(意味)ドイツ語
- 単語—単語の単語クラス(品詞-分類)
- 文—文の感情(上、下、強烈、減少、重要など)。)これは、分析され、属性(=メタデータ)として感情情報でタグ付けされた文の例です。
- 文— トピック性< 「Sentiment」という文の/ span>も話題性の例ですが、情報を文に帰する可能性は、感情の比較的狭い次元を劇的に超えています。感情特性は、平均的なテキストのすべての単語の約3〜4%に相当します。
- 段落、全文、全文のコレクション :例としては、「2013 – 01年から2016– 06年(ブレグジット前)の期間における英国下院(「議会」)でのすべての口頭交渉」が考えられます。この種のデータセットは、最初は、データ=セットの名前とコンテンツ=国会議員の質問、回答、およびスピーチのみで構成されています。収集したら、セットを分析、視覚化、タグ付けして、名前を付けることができます。
Brexitデータセットに基づく分析の例をいくつか示します。
円グラフ:エクスポートとインポートの問題と問題への参照の一般的なバランス。
フォローアップ分析:エクスポートとの参照の普及率も EU /欧州連合への参照がある文にインポートします:
結果の解釈方法は次のとおりです。データセット内の文の総数は+1,5百万です。これらのうち18.020には、EU /欧州連合への言及があります。商品の輸出、輸入、移動への言及が均等に分散されていたとしたら、EUの文でこれらのトピックが発生する例はそれぞれ44、39、6、ゼロでした。たまたま、有病率の指標は705、697、792、3.810です。これは、たとえば、EUが文で言及されている場合、エクスポートまたはインポートの普及率は、トピックが均等に分散されている場合よりも約7倍高いことを意味します。
これらおよび他の多くの同様の結果はデータセットから抽出。一般に、共通の原則を表すセットのメンバーを収集することが望ましいです。この場合、議論の性質とEU / Brexitテーマとの関係について何かがわかりました。セットがランダムなテキストで構成されていた場合、たとえば、ツイート、科学記事、政治スピーチなどが混在している場合、結論を出すための根拠は必ずしもありません。これが、データの「リポジトリ」を構築する際に注意を払う必要がある理由です。