Beste Antwort
Vielen Dank, Yashashri Pahade, für A2A. Ich werde noch einen in die Liste aufnehmen. Es gibt drei Arten von Datensätzen . Ich werde sie alle im Detail besprechen.
Wenn Sie einen großen Datensatz haben, wird empfohlen, ihn in 3 Teile :
- Trainingssatz (60\% des Originaldatensatzes) : Dies wird verwendet, um unseren Vorhersagealgorithmus aufzubauen und die Gewichte im neuronalen Netzwerk anzupassen. Unser Algorithmus versucht, sich auf die Besonderheiten der Trainingsdatensätze abzustimmen. In dieser Phase erstellen wir normalerweise mehrere Algorithmen, um deren Leistung während der Kreuzvalidierungsphase zu vergleichen. Jeder Algorithmus hat seinen eigenen Parameter Optionen (die Anzahl der Ebenen in einem neuronalen Netzwerk, die Anzahl der Bäume in einem zufälligen Wald usw.) Für jeden Ihrer Algorithmen müssen Sie eine Option auswählen. Deshalb haben Sie einen Trainingssatz.
- Kreuzvalidierungssatz (20\% des ursprünglichen Datensatzes): Dieser Datensatz wird verwendet Um die Leistungen der Vorhersagealgorithmen zu vergleichen, die basierend auf dem Trainingssatz erstellt wurden. Sie haben jetzt eine Sammlung von Algorithmen. Sie müssen einen Algorithmus auswählen, der die beste Leistung bietet. Deshalb haben Sie einen Testsatz. Ein Validierungsdatensatz ist eine Stichprobe von Daten, die beim Training Ihres Modells zurückgehalten wurden. Diese werden verwendet, um eine Schätzung der Modellfähigkeiten zu erhalten, während die Hyperparameter des Modells optimiert werden. Dieser Datensatz wird verwendet, um die Überanpassung zu minimieren. Sie passen die Gewichte von nicht an Im Netzwerk mit diesem Datensatz überprüfen Sie lediglich, ob eine Erhöhung der Genauigkeit gegenüber dem Trainingsdatensatz tatsächlich zu einer Erhöhung der Genauigkeit gegenüber einem Datensatz führt, der dem Netzwerk zuvor nicht angezeigt wurde, oder zumindest das Netzwerk nicht darauf trainiert (dh Validierungsdatensatz). Wenn die Genauigkeit über den Trainingsdatensatz zunimmt, die Genauigkeit über den Validierungsdatensatz jedoch gleich bleibt oder abnimmt, sind Sie es Wenn Sie Ihr neuronales Netzwerk übermäßig anpassen, sollten Sie das Training beenden. .
- Testsatz (20\% des ursprünglichen Datensatzes): Jetzt haben wir unseren bevorzugten Vorhersagealgorithmus gewählt, aber wir wissen noch nicht, wie er sich auf völlig unsichtbare Daten aus der realen Welt auswirken wird. Daher wenden wir unseren gewählten Vorhersagealgorithmus auf unseren Testsatz an, um zu sehen, wie er sich entwickeln wird, damit wir eine Vorstellung von der Leistung unseres Algorithmus für unsichtbare Daten haben. Ich nehme an, wenn Ihre Algorithmen keine Parameter hätten, würden Sie keinen dritten Schritt benötigen. In diesem Fall wäre Ihr Validierungsschritt Ihr Testschritt. Dieser Datensatz wird nur zum Testen der endgültigen Lösung verwendet, um die tatsächliche Vorhersagekraft des Netzwerks zu bestätigen.
Hinweise:
- Es ist sehr wichtig zu beachten, dass das Überspringen der Testphase nicht empfohlen wird, da der Algorithmus dies tut Eine gute Leistung während der Kreuzvalidierungsphase bedeutet nicht wirklich, dass es wirklich die beste ist, da die Algorithmen basierend auf dem Kreuzvalidierungssatz und seinen Macken und Geräuschen verglichen werden.
- Während des Tests In dieser Phase soll untersucht werden, wie sich unser endgültiges Modell in freier Wildbahn verhalten wird. Wenn die Leistung sehr schlecht ist, sollten wir den gesamten Prozess ab der Trainingsphase wiederholen.
Quelle: Einführung in die Musteranalyse , Ricardo Gutierrez-Osuna Texas A & M Universität, Texas A & M Universität
Antwort
Big Data ist ein umfassendes Konzept, das sich hauptsächlich auf die enormen und wachsenden Mengen digital verfügbarer Daten bezieht. Big Data bezieht sich wahllos auf quantitative und qualitative Daten („Zahlen“ und „Text“).
Ein Datensatz kann auch eine nicht spezifizierte Referenz auf eine einfache Sammlung von Daten sein, einschließlich Texten und Zahlen. Ein Datensatz ist jedoch auch ein bevorzugter Begriff, wenn auf eine bestimmte Sammlung von Rohstoffen Bezug genommen wird, die nach einem bestimmten Organisationsprinzip geordnet sind.
Dies sind einige Beispiele für Datensätze:
- Wort – der Rang des Wortes entsprechend der abnehmenden Häufigkeit des Auftretens
- Wort in Englisch – dasselbe Wort ( bedeutet ) im deutschen
- Wort – die Wortklasse des Wortes (Teil der Sprache- Klassifizierung)
- Satz – das Gefühl des Satzes (hoch, runter, intensiv, verkleinernd, wichtig usw.)) Dies ist ein Beispiel für den Satz, der analysiert und mit den Stimmungsinformationen als Attribut (= Metadaten) versehen wurde.
- Satz – die Aktualität des Satzes „Sentiment“ ist ebenfalls ein Beispiel für Aktualität, aber das Potenzial, einem Satz Informationen zuzuweisen, geht dramatisch über die relativ enge Dimension des Sentiments hinaus. Die Stimmungsmerkmale machen ungefähr 3–4\% aller Wörter in einem durchschnittlichen Text aus.
- Absatz, Volltext, Sammlung von Volltexten : Ein Beispiel könnte „alle mündlichen Verhandlungen im britischen Unterhaus („ Parlament “) von 2013–01 bis 2016–06 (vor dem Brexit) sein“. Diese Art von Datensatz besteht zunächst nur aus den Daten = dem Namen des Satzes plus dem Inhalt = den Fragen, Antworten und Reden der Parlamentarier. Nach der Erfassung kann das Set analysiert, visualisiert und mit Tags versehen werden.
Hier einige Beispiele für Analysen, die auf dem Brexit-Datensatz basieren:
Kreisdiagramm: Das allgemeine Gleichgewicht zwischen Verweisen auf Export- und Importangelegenheiten und -problemen.
Follow-up-Analyse: Prävalenz von Verweisen auf Export und Import in Sätzen mit auch Verweis auf EU / Europäische Union:
So werden die Ergebnisse interpretiert: Die Gesamtzahl der Sätze im Datensatz beträgt +1,5 Millionen. In 18.020 davon gibt es einen Verweis auf EU / Europäische Union. Wenn die Verweise auf Export, Import und Warenverkehr gleichmäßig verteilt worden wären, wären in den EU-Sätzen 44, 39, 6 bzw. null Beispiele für diese Themen enthalten gewesen. Zufällig sind die Prävalenzindizes 705, 697, 792 und 3,810. Dies bedeutet, dass zum Beispiel, wenn EU in einem Satz erwähnt wird, die Prävalenz von Export oder Import ungefähr siebenmal höher ist als wenn das Thema gleichmäßig verteilt worden wäre.
Diese und viele andere ähnliche Ergebnisse können sein aus Datensätzen extrahiert. Es ist im Allgemeinen wünschenswert, Mitglieder der Gruppe zu sammeln, die ein gemeinsames Prinzip darstellen. In diesem Fall wissen wir jetzt etwas über die Art der Debatten und den Zusammenhang mit dem EU / Brexit-Thema. Hätte das Set aus zufälligen Texten bestanden, zum Beispiel einer Mischung aus Tweets, wissenschaftlichen Artikeln, politischen Rednern usw., hätten wir nicht unbedingt eine Grundlage für Schlussfolgerungen. Aus diesem Grund muss beim Erstellen von „Repositorys“ für Daten vorsichtig vorgegangen werden.