Najlepsza odpowiedź
Błąd uczenia to błąd, który pojawia się po ponownym uruchomieniu wytrenowanego modelu na danych uczących. Pamiętaj, że te dane zostały już użyte do wytrenowania modelu i to niekoniecznie oznacza, że raz wytrenowany model będzie działał dokładnie po zastosowaniu z powrotem do samych danych uczących.
Błąd testu to błąd, get, gdy uruchomisz wytrenowany model na zestawie danych, na które wcześniej nie był on narażony. Te dane są często używane do pomiaru dokładności modelu przed wysłaniem go do produkcji.
Odpowiedź
Chodzi o to, aby celowo wywołać nadmierne dopasowanie w modelu sieci neuronowej (NN), możemy to zrobić poprzez:
- Używając dużych modeli z bardzo dużą liczbą parametrów. NN powinno mieć wystarczającą liczbę stopni swobody, aby zmieścić się w całym zestawie danych ImageNet.
- Możemy uniknąć uregulowania, takiego jak dropout, L\_1, L\_2 lub normalizacja wsadowa. Uregulowanie może nieznacznie zwiększyć błąd uczenia, a tym samym zwiększyć prawdopodobieństwo zerowego błędu uczenia musimy unikać wszelkich form regularyzacji, chociaż nawet dobrze uregulowany model może mieć zero t padający błąd.
- Używaj małych współczynników uczenia się, ponieważ duże współczynniki uczenia się w rzeczywistości mają małe właściwości regularyzacji. W przypadku dużych wskaźników uczenia się parametry modelu nie mogą zostać dokładnie ustalone w lokalnym minimum, ponieważ aktualizacje parametrów przeskakują wokół lokalnego minimum. To przeskakiwanie dookoła może uniemożliwić modelowi zapamiętywanie zestawu szkoleniowego, a zatem dzięki zastosowaniu małych współczynników uczenia się, model może ustabilizować się nieco dokładniej w minimalnym lokalnym, zwiększając tym samym szanse modelu na zapamiętanie zestawu danych szkoleniowych.
- Unikaj wczesnego zatrzymywania, przeprowadzając model przez bardzo dużą liczbę okresów szkoleniowych. Wczesne zatrzymanie ma również pewien efekt regularyzacji, który może uniemożliwić zapamiętanie dużego zbioru uczącego.
- Wytrenuj model z różnymi początkowymi wagami losowymi, ponieważ wagi początkowe silnie określają lokalne minimum, w którym zostaną ustawione parametry. Niektóre lokalne minima mogą nie umożliwiać zerowego błędu uczenia w całym zbiorze danych ImageNet, dlatego powinniśmy celowo szukać takich lokalnych minimów, w których błąd uczenia wynosi zero.
W niektórych stosunkowo prostych zbiorach danych, takich jak MNIST, niektóre modele są w stanie uzyskać 100\% dokładność treningu, a jednocześnie całkiem niezłą dokładność testu wynoszącą 99\% +. W takich przypadkach pokazuje, że model z zerowym błędem uczenia nie oznacza nadmiernego dopasowania.
Jednak uzyskanie zerowego błędu uczenia w bardzo dużym skomplikowanym zbiorze danych, takim jak ImageNet, może silnie wskazywać, że model jest nadmiernie dopasowany. >
Inne modele mogą być zbudowane po prostu z wystarczająco dużą pojemnością, aby zapamiętać cały zbiór danych ImageNet. Podobnie jak algorytm k najbliższego sąsiada (kNN) z k = 1 i łatwo będzie miał zerowy błąd uczenia. W uczeniu maszynowym (ML) proces samego zapamiętywania zestawu uczącego nazywa się leniwym uczeniem się i jest faktycznie ważne w niektórych przypadkach, gdy nie ma dużej różnicy między punktami danych treningowych i testowych.
W rzeczywistości kNN działa bardzo dobrze w przypadku bardzo małych poprawek . Jednak w przypadku poprawek o większej rozdzielczości kNN cierpi z powodu przekleństwa wymiarowości, ponieważ kNN nie uczy się odpowiednich cech, więc nieistotne cechy mogą kolidować z miarą podobieństwa.
W przypadku próby uzyskania zerowego błędu uczenia, przekleństwo wymiarowości nie ma wpływu nawet na algorytm kNN, ponieważ technicznie po prostu dopasowujemy do niego zbiór danych uczących.
Chociaż jest mniej prawdopodobne, że taki model będzie działał dobrze na zbiorze testowym. ogromna różnica między dokładnością treningu a dokładnością testu, mówi się, że model przekroczył dane treningowe.
Mam nadzieję, że to pomoże.