Meilleure réponse
Merci Yashashri Pahade pour A2A. Jen ajouterai un de plus dans la liste. Il existe trois types densemble de données. Je vais en discuter tous en détail.
Lorsque vous avez un grand ensemble de données , il est recommandé de le diviser en 3 parties :
- Ensemble de formation (60\% de lensemble de données dorigine) : Ceci est utilisé pour construire notre algorithme de prédiction et ajuster les poids sur le réseau neuronal. Notre algorithme essaie de saccorder aux particularités des ensembles de données dentraînement. Dans cette phase, nous créons généralement plusieurs algorithmes afin de comparer leurs performances pendant la phase de validation croisée. Chaque type dalgorithme a son propre paramètre options (le nombre de couches dans un réseau de neurones, le nombre darbres dans une forêt aléatoire, etc.). Pour chacun de vos algorithmes, vous devez choisir une option. Cest pourquoi vous avez un ensemble dentraînement.
- Ensemble de validation croisée (20\% de lensemble de données dorigine): Cet ensemble de données est utilisé pour comparer les performances des algorithmes de prédiction qui ont été créés en fonction de lensemble dentraînement. Vous ont maintenant une collection dalgorithmes. Vous devez choisir un algorithme offrant les meilleures performances. C’est pourquoi vous disposez d’un ensemble de tests. Un ensemble de données de validation est un échantillon de données retenues lors de lentraînement de votre modèle, utilisé pour donner une estimation des compétences du modèle tout en ajustant les hyper paramètres du modèle. Cet ensemble de données est utilisé pour minimiser le sur-ajustement. Vous « najustez pas les poids de le réseau avec cet ensemble de données, vous « venez de vérifier que toute augmentation de la précision sur lensemble de données dentraînement entraîne effectivement une augmentation de la précision sur un ensemble de données qui na pas été montré au réseau auparavant, ou du moins le réseau ne la pas » t formés dessus (cest-à-dire ensemble de données de validation). Si la précision sur lensemble de données dentraînement augmente, mais que la précision sur lensemble de données de validation reste la même ou diminue, alors vous « re sur lajustement de votre réseau neuronal et vous devriez arrêter lentraînement .
- Ensemble de test (20\% de lensemble de données dorigine): Nous avons maintenant choisi notre algorithme de prédiction préféré, mais nous ne savons pas encore comment il fonctionnera sur des données du monde réel totalement invisibles. Ainsi, nous appliquons notre algorithme de prédiction choisi sur notre ensemble de test afin de voir comment il va fonctionner afin que nous puissions avoir une idée de la performance de notre algorithme sur des données invisibles. Je suppose que si vos algorithmes navaient aucun paramètre, vous nauriez pas besoin dune troisième étape. Dans ce cas, votre étape de validation sera votre étape de test. Cet ensemble de données est utilisé uniquement pour tester la solution finale afin de confirmer la puissance prédictive réelle du réseau.
Remarques:
- Il est très important de garder à lesprit que sauter la phase de test nest pas recommandé, car lalgorithme qui bien performé pendant la phase de validation croisée ne signifie pas vraiment que cest vraiment le meilleur, car les algorithmes sont comparés en fonction de lensemble de validation croisée, de ses bizarreries et de ses bruits.
- Pendant le test Phase, le but est de voir comment notre modèle final va fonctionner dans la nature, donc au cas où ses performances seraient très mauvaises, nous devrions répéter tout le processus à partir de la phase de formation.
Source: Introduction à lanalyse de modèles , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University
Réponse
Big Data est un concept large qui fait principalement référence aux quantités énormes et croissantes de données disponibles numériquement. Le Big Data se réfère indifféremment à des données quantitatives et qualitatives («nombres» et «texte»).
Un ensemble de données peut également être une référence non spécifiée à une simple collection de données, y compris des textes et des nombres. Cependant, un ensemble de données est également un terme préféré pour désigner une collection spécifique de matières premières classées selon un principe dorganisation.
Voici quelques exemples densembles de données:
- mot – le rang du mot selon le taux doccurrence décroissant
- mot en anglais – même mot ( signification ) en allemand
- mot – la classe de mots du mot (partie du discours- classification)
- phrase – le sentiment de la phrase (haut, bas, intense, diminitif, importance, etc.) Ceci est un exemple de la phrase ayant été analysée et balisée avec les informations de sentiment comme attribut (= méta-données).
- phrase – la actualité de la phrase «Sentiment» est également un exemple dactualité, mais le potentiel dattribution dinformations à une phrase va considérablement au-delà de la dimension relativement étroite du sentiment. Les caractéristiques de sentiment représentent environ 3 à 4\% de tous les mots dun texte moyen.
- paragraphe, texte intégral, collection de textes intégraux : Un exemple pourrait être «toutes les négociations orales à la Chambre des communes du Royaume-Uni (« Parlement ») de 2013–01 à 2016–06 (avant le Brexit)». Ce type densemble de données, au départ, ne comprend que les données = le nom de lensemble plus le contenu = les questions, réponses et discours des parlementaires. Une fois collecté, lensemble peut être analysé, visualisé, étiqueté, vous le nommez.
Voici quelques exemples danalyses basées sur lensemble de données Brexit:
Graphique à secteurs: Léquilibre général entre les références à lexportation et à limportation est important et problématique.
Analyse de suivi: prévalence des références à lexportation et importer dans les phrases où il y a également référence à lUE / Union européenne:
Voici comment les résultats sont interprétés: Le nombre total de phrases dans lensemble de données est de +1,5 million. Dans 18 020 dentre eux, il y a une référence à lUE / Union européenne. Si les références à lexportation, à limportation et à la circulation des marchandises avaient été réparties uniformément, il y aurait eu respectivement 44, 39, 6 et zéro exemples de ces sujets dans les phrases UE. En loccurrence, les indices de prévalence sont de 705, 697, 792 et 3,810. Cela signifie que, par exemple, lorsque lUE est mentionnée dans une phrase, la prévalence de lexportation ou de limportation est environ 7 fois plus élevée que si le sujet avait été uniformément réparti.
Ces résultats et bien dautres peuvent être extraites des ensembles de données. Il est généralement souhaitable de rassembler les membres de lensemble qui représentent un principe commun. Dans ce cas, nous savons maintenant quelque chose sur la nature des débats et le lien avec le thème UE / Brexit. Si lensemble était composé de textes aléatoires, par exemple un mélange de tweets, darticles scientifiques, de discours politiques, etc., nous naurions pas nécessairement de base pour tirer des conclusions. Cest pourquoi des précautions doivent être prises lors de la création de «référentiels» de données.