Najlepsza odpowiedź
Dziękuję Yashashri Pahade za A2A. Dodam jeszcze jednego na liście. Istnieją trzy typy zbioru danych. Omówię je wszystkie szczegółowo.
Jeśli masz duży zbiór danych , zaleca się podzielenie go na 3 części :
- Zbiór uczący (60\% oryginalnego zestawu danych) : Służy do tworzenia naszego algorytmu przewidywania i dostosowywania wag w sieci neuronowej. Nasz algorytm próbuje dostroić się do dziwactw w zestawach danych uczących. W tej fazie zwykle tworzymy wiele algorytmów w celu porównania ich wydajności podczas fazy walidacji krzyżowej. Każdy typ algorytmu ma swój własny parametr opcje (liczba warstw w sieci neuronowej, liczba drzew w losowym lesie itp.). Dla każdego algorytmu musisz wybrać jedną opcję. Dlatego masz zestaw uczący.
- Zestaw do weryfikacji krzyżowej (20\% pierwotnego zbioru danych): ten zestaw danych jest używany aby porównać wydajność algorytmów przewidywania, które zostały utworzone na podstawie zestawu uczącego. teraz mam zbiór algorytmów. Musisz wybrać jeden algorytm, który ma najlepszą wydajność. Dlatego masz zestaw testowy. Zestaw danych walidacyjnych to próbka danych wstrzymanych podczas uczenia modelu, która jest używana do oszacowania umiejętności modelu podczas dostrajania hiperparametrów modelu. Ten zestaw danych służy do zminimalizowania nadmiernego dopasowania. Nie dostosowujesz wagi sieć z tym zestawem danych, po prostu sprawdzasz, czy jakikolwiek wzrost dokładności w stosunku do zbioru danych uczących faktycznie daje wzrost dokładności w stosunku do zbioru danych, który nie był wcześniej pokazywany sieci lub przynajmniej sieć nie wyszkolony na nim (tj. zestaw danych walidacyjnych). Jeśli dokładność zbioru danych uczących wzrasta, ale dokładność w tym zbiorze danych walidacyjnych pozostaje taka sama lub maleje, nadmierne dopasowanie sieci neuronowej i należy przerwać uczenie .
- Zestaw testowy (20\% oryginalnego zestawu danych): Teraz wybraliśmy nasz preferowany algorytm przewidywania, ale nie wiemy jeszcze, jak będzie on działał na całkowicie niewidocznych danych ze świata rzeczywistego. Tak więc stosujemy wybrany przez nas algorytm przewidywania do naszego zestawu testowego, aby zobaczyć, jak będzie działać, abyśmy mogli mieć pojęcie o wydajności naszego algorytmu na niewidocznych danych. Przypuszczam, że gdyby twoje algorytmy nie miały żadnych parametrów, nie potrzebowałbyś trzeciego kroku. W takim przypadku krok weryfikacji byłby krokiem testowym. Ten zestaw danych jest używany tylko do testowania ostatecznego rozwiązania w celu potwierdzenia faktycznej mocy predykcyjnej sieci.
Uwagi:
- Bardzo ważne jest, aby pamiętać, że pomijanie fazy testowej nie jest zalecane, ponieważ algorytm, który wykonane dobrze na etapie weryfikacji krzyżowej nie oznacza, że jest naprawdę najlepszy, ponieważ algorytmy są porównywane na podstawie zestawu do weryfikacji krzyżowej oraz jego dziwactw i szumów.
- Podczas testu Faza, celem jest sprawdzenie, jak nasz ostateczny model poradzi sobie na wolności, więc w przypadku, gdy jego wydajność jest bardzo słaba, powinniśmy powtórzyć cały proces, zaczynając od fazy treningu.
Źródło: Wprowadzenie do analizy wzorców , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University
Odpowiedź
Big Data to szerokie pojęcie, które odnosi się głównie do ogromnych i rosnących ilości danych dostępnych cyfrowo. Big Data odnosi się bezkrytycznie do danych ilościowych i jakościowych („liczby” i „tekst”).
Zbiór danych może być również nieokreślonym odniesieniem do zwykłego zbioru danych, w tym tekstów i liczb. Jednak zbiór danych jest również terminem preferowanym w odniesieniu do określonego zbioru surowców uporządkowanych zgodnie z pewnymi zasadami organizacyjnymi.
Oto kilka przykładów zbiorów danych:
- słowo – ranga słowa według malejącej częstotliwości występowania
- słowo w języku angielskim – to samo słowo ( znaczenie ) w języku niemieckim
- słowo – klasa słowa słowa (część mowy- klasyfikacja)
- zdanie – sentyment zdania (góra, dół, intensywność, zdrobnienie, ważność itp.) To jest przykład zdania, które zostało przeanalizowane i oznaczone informacją o odczuciach jako atrybutem (= metadane).
- zdanie – aktualność zdania „Sentyment” jest również przykładem aktualności, ale potencjał przypisywania informacji do zdania znacznie wykracza poza stosunkowo wąski wymiar sentymentu. Charakterystyka nastrojów stanowi około 3–4\% wszystkich słów w przeciętnym tekście.
- akapit, pełny tekst, zbiór pełnych tekstów : Przykładem mogą być „wszystkie negocjacje ustne w brytyjskiej Izbie Gmin („ Parlament ”) od 2013–01 do 2016–06 (okres poprzedzający brexit)”. Ten rodzaj zbioru danych początkowo składa się tylko z danych = nazwa zbioru plus zawartość = pytania, odpowiedzi i przemówienia parlamentarzystów. Po zebraniu zestaw można przeanalizować, zwizualizować, otagować, nazwać go.
Oto kilka przykładów analiz opartych na zbiorze danych Brexit:
Wykres kołowy: ogólna równowaga między odniesieniami do kwestii i kwestii związanych z eksportem i importem.
Analiza uzupełniająca: przewaga odniesień do eksportu i importuj w zdaniach, w których występuje również odniesienie do UE / Unii Europejskiej:
Oto jak interpretuje się wyniki: Całkowita liczba zdań w zbiorze danych wynosi +1,5 miliona. 18 020 z nich zawiera odniesienie do UE / Unii Europejskiej. Gdyby odniesienia do eksportu, importu i przepływu towarów były rozłożone równomiernie, w orzeczeniach UE występowałoby odpowiednio 44, 39, 6 i zero przykładów tych tematów. Tak się składa, że wskaźniki rozpowszechnienia to 705, 697, 792 i 3,810. Oznacza to, że na przykład gdy w zdaniu jest mowa o UE, rozpowszechnienie eksportu lub importu jest około 7 razy większe niż w przypadku równomiernego rozłożenia tematu.
Te i wiele innych podobnych wyników można uzyskać wyodrębnione ze zbiorów danych. Ogólnie pożądane jest zebranie elementów zestawu, które reprezentują wspólną zasadę. W tym przypadku wiemy już coś o charakterze debat i związku z tematem UE / Brexit. Gdyby zestaw składał się z przypadkowych tekstów, na przykład mieszanki tweetów, artykułów naukowych, przemówień politycznych itp., Niekoniecznie mielibyśmy podstawy do wyciągania wniosków. Dlatego należy zachować ostrożność podczas tworzenia „repozytoriów” danych.