Mikä on harjoittelu- ja testivirhe?


Paras vastaus

Harjoitusvirhe on virhe, jonka saat, kun suoritat koulutetun mallin takaisin harjoitustietoihin. Muista, että näitä tietoja on jo käytetty mallin kouluttamiseen, mikä ei välttämättä tarkoita sitä, että kerran koulutettu malli toimii tarkasti, kun se otetaan takaisin itse harjoitustietoihin.

Testivirhe on virhe, kun suoritat saat kun suoritat koulutetun mallin tietojoukolla, jolle se ei ole koskaan aikaisemmin ollut alttiina. Näitä tietoja käytetään usein mallin tarkkuuden mittaamiseen ennen sen toimittamista tuotantoon.

Vastaa

Ajatuksena on tarkoituksellisesti aiheuttaa ylikuormitusta hermoverkkomallissa (NN), voimme tehdä sen seuraavasti:

  • Käyttämällä suuria malleja, joilla on hyvin suuri määrä parametreja. NN: llä tulisi olla riittävä vapausaste koko ImageNet-tietojoukon sovittamiseksi.
  • Voimme välttää laillistamisen, kuten keskeyttämisen, L\_1, L\_2 tai erän normalisoinnin. Säännöllisyys voi lisätä harjoitteluvirheitä ja lisätä siten nollaharjoitteluvirheiden mahdollisuutta. meidän on vältettävä mitään laillistamisen muotoja, vaikka jopa hyvin laillistetulla mallilla voi olla nolla t satovirhe.
  • Käytä pieniä oppimisnopeuksia, koska suurilla oppimisnopeuksilla on tosiasiallisesti pienet laillistamisominaisuudet. Suurille oppimisnopeuksille mallin parametrit eivät voi asettua tarkalleen paikalliseen minimiin, koska parametrien päivitykset hyppäävät paikalliselle minimille. Se, että hyppääminen ympäriinsä voi estää mallia muistamasta harjoittelusarjaa, joten pienillä oppimisnopeuksilla malli pystyy asettumaan hieman tarkemmin paikalliseen minimiin, mikä lisää mallin mahdollisuuksia muistaa harjoitustietojoukkoa.
  • Vältä varhaista pysähtymistä ajamalla malli läpi erittäin monta harjoitusjaksoa. Varhaisella pysäyttämisellä on myös jonkinlainen säätelyvaikutus, joka saattaa estää suuren harjoitusjoukon muistamisen.
  • Harjoittele mallia erilaisilla satunnaispainoilla, koska alkupainot määräävät voimakkaasti paikallisen minimin, johon parametrit asettuvat. Jotkut paikalliset minimit eivät välttämättä mahdollista nollatason virheitä koko ImageNet-tietojoukossa, joten meidän tulisi tarkoituksella etsiä sellaisia ​​paikallisia minimeja, joissa harjoitusvirhe on nolla.

Joissakin suhteellisen yksinkertaisissa tietojoukoissa, kuten MNIST, joissakin malleissa pystyvät saamaan 100\% harjoittelutarkkuuden samalla kun he saavat melko hyvän testitarkkuuden 99\% +. Tällaisissa tapauksissa se osoittaa, että malli, jolla ei ole harjoitteluvirhettä, ei tarkoita yliasennusta.

Mutta nollan harjoitteluvirheen saaminen hyvin suurelle monimutkaiselle aineistolle, kuten ImageNet, voi osoittaa voimakkaasti, että mallisi on liian sopiva.

Muita malleja voidaan rakentaa yksinkertaisesti riittävän suurella kapasiteetilla, jotta koko ImageNet-tietojoukko voidaan tallentaa muistiin. Kuten k lähimmän naapurin (kNN) algoritmi, jonka k = 1, ja sillä on helposti nolla harjoitteluvirhe. Koneoppimisessa (ML) Pelkästään harjoittelusarjan ulkoa pitämistä kutsutaan laiskaksi oppimiseksi, ja se on todella tärkeää joissakin tapauksissa, kun harjoittelun ja testipisteiden välillä ei ole paljon vaihtelua.

Itse asiassa kNN toimii erittäin hyvin hyvin pienille laastareille . Suurempien tarkkuuksien korjaustiedostoilla kNN kärsii dimensioiden kirouksesta, koska kNN ei opi asiaankuuluvia ominaisuuksia, joten merkityksettömät ominaisuudet voivat häiritä samankaltaisuustoimintoa. ulottuvuuden kirouksella ei ole vaikutusta edes kNN-algoritmiin, koska sovitamme teknisesti vain harjoitustietojoukon itseensä.

Vaikka tällainen malli ei todennäköisesti toimisi hyvin testijoukossa. valtava ero harjoittelutarkkuuden ja testitarkkuuden välillä, mallin sanotaan ylittävän harjoitustiedot.

Toivottavasti tämä auttaa.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *