Nejlepší odpověď
Chyba tréninku je chyba, kterou získáte, když spustíte trénovaný model zpět na tréninková data. Pamatujte, že tato data již byla použita k trénování modelu a to nutně neznamená, že model, který bude jednou trénován, bude přesně fungovat, když se použije zpět na samotná tréninková data.
Testovací chyba je chyba, když získejte, když spustíte trénovaný model na sadě dat, kterým dříve nikdy nebyla vystavena. Tato data se často používají k měření přesnosti modelu před odesláním do výroby.
Odpovědět
Myšlenkou je záměrně vyvolat overfitting v modelu neuronové sítě (NN), což dokážeme:
- Pomocí velkých modelů s velmi velkým počtem parametrů. NN by měl mít dostatečný stupeň volnosti, aby se vešel do celé datové sady ImageNet.
- Můžeme se vyhnout regularizaci, jako je výpadek, L\_1, L\_2 nebo dávková normalizace. Regularizace může mírně zvýšit chybu tréninku, čímž se zvýší šance na nulovou chybu tréninku musíme se vyhnout jakýmkoli formám regularizace. I když dobře regulovaný model může mít nulové t prší.
- Používejte malé rychlosti učení, protože velké rychlosti učení mají ve skutečnosti malé regularizační vlastnosti. U velkých rychlostí učení se parametry modelu nemohou usadit přesně na místním minimu, protože aktualizace parametrů přeskakují kolem místního minima. Že skákání kolem dokola může zabránit modelu v zapamatování tréninkové sady, a tak pomocí malých rychlostí učení se model může usadit o něco přesněji v místním minimu, čímž se zvýší šance modelu na zapamatování tréninkové datové sady.
- Vyvarujte se brzkého zastavení spuštěním modelu ve velkém počtu tréninkových epoch. Včasné zastavení má také určitý regularizační efekt, který by mohl zabránit zapamatování velké tréninkové sady.
- Trénujte model s různými počátečními náhodnými váhami, protože počáteční váhy silně určují místní minimum, do kterého se parametry usadí. Některá místní minima nemusí umožňovat nulovou chybu tréninku na celé datové sadě ImageNet, proto bychom měli záměrně hledat taková místní minima, kde je chyba tréninku nulová.
U některých relativně jednoduchých datových sad, jako je MNIST, některé modely jsou schopni dosáhnout 100\% přesnosti tréninku a zároveň dosáhnout docela dobré přesnosti testu 99\% +. V takových případech ukazuje, že model s nulovou tréninkovou chybou neznamená přeplnění.
Ale získání nulové tréninkové chyby ve velmi komplikovaném datovém souboru, jako je ImageNet, může silně naznačovat, že váš model přeplňuje.
Jiné modely lze jednoduše postavit s dostatečně velkou kapacitou, aby si mohly zapamatovat celou datovou sadu ImageNet. Jako algoritmus k nejbližšího souseda (kNN) s k = 1 a snadno bude mít nulovou tréninkovou chybu. V strojovém učení (ML) proces pouhé zapamatování tréninkové sady se nazývá líné učení a ve skutečnosti je důležité v některých případech, kdy mezi tréninkovými a testovacími datovými body není mnoho variací.
Ve skutečnosti kNN funguje velmi dobře pro velmi malé opravy . U větších záplat rozlišení však kNN trpí kletbou dimenzionality, protože kNN se nenaučí relevantní vlastnosti, takže irelevantní vlastnosti mohou interferovat s mírou podobnosti.
V případě pokusu o nulovou chybu tréninku kletba dimenzionality nemá žádný vliv ani na algoritmus kNN, protože technicky jen porovnáváme tréninkovou datovou sadu k sobě.
Ačkoli je méně pravděpodobné, že takový model bude dobře fungovat na testovací sadě. obrovská propast mezi přesností tréninku a přesností testu, model údajně překonává tréninková data.
Doufám, že to pomůže.