Mi a különbség az edzési adatok és a tesztelési adatok között?

A legjobb válasz

Köszönöm Yashashri Pahade az A2A-t. Hozzáadok még egyet a listához. háromféle adatkészlet létezik. Mindegyiket részletesen megvitatom.

Ha van egy nagy adathalmaz , akkor azt javasoljuk, hogy ossza fel 3 rész :

  1. Képzési készlet (az eredeti adatsor 60\% -a) : Ezt arra használják, hogy felépítse előrejelzési algoritmusunkat és beállítsa az ideghálózat súlyát. Algoritmusunk megpróbálja ráhangolódni az edzésadatkészlet furcsaságaira. Ebben a szakaszban általában több algoritmust hozunk létre annak érdekében, hogy összehasonlítsuk teljesítményüket a keresztellenőrzési fázis alatt. Minden algoritmustípusnak megvan a saját paramétere opciók (a neurális hálózat rétegeinek száma, a véletlenszerű erdőben lévő fák száma stb.). Minden algoritmusához ki kell választania egy lehetőséget. Ezért van egy edzéskészlete.
  2. Kereszt-érvényesítési készlet (az eredeti adatsor 20\% -a): Ezt az adatsort használják hogy összehasonlítsa a képzési készlet alapján létrehozott predikciós algoritmusok teljesítményét. Ön mostantól van egy algoritmus-gyűjteményünk. Ki kell választania egy algoritmust, amely a legjobb teljesítményt nyújtja. Ezért van tesztkészlete. Az érvényesítési adatsor a modell edzéséből visszatartott adatok egy olyan mintája, amely a modell képességeinek becslésére szolgál, miközben a modell hiperparamétereit hangolja. Ezt az adatsort arra használják, hogy minimalizálja az illesztést. Ön nem állítja be a a hálózatot ezzel az adatkészlettel, akkor csak azt ellenőrzi, hogy az oktatási adatkészlethez viszonyított bármely pontosságnövekedés valóban növeli-e a pontosságot egy olyan adatkészlethez képest, amelyet korábban nem mutattak be a hálózatnak, vagy legalább a hálózat nem ” képzett (azaz érvényesítési adatkészlet). Ha az oktatási adatkészlet pontossága növekszik, de az akkor érvényesített adatkészlet pontossága változatlan vagy csökken, akkor újra túl a neurális hálózat felszerelésén, és abba kell hagynia az edzést .
  3. Tesztkészlet (az eredeti adatsor 20\% -a): Most kiválasztottuk a preferált előrejelzési algoritmust, de még nem tudjuk, hogyan fog teljesíteni egy teljesen láthatatlan valós adat. Tehát a választott predikciós algoritmust a tesztkészletünkön alkalmazzuk annak érdekében, hogy lássuk, hogyan fog teljesíteni, hogy képet alkothassunk algoritmusunk láthatatlan adatokra vonatkozó teljesítményéről. Feltételezem, hogy ha az algoritmusoknak nem lennének paraméterei, akkor nincs szükségük harmadik lépésre. Ebben az esetben az ellenőrzési lépés lesz a tesztlépése. Ez az adatkészlet csak a teszteléshez használható a végleges megoldás teszteléséhez a hálózat tényleges prediktív erejének megerősítése érdekében.

Megjegyzések:

  1. Nagyon fontos szem előtt tartani, hogy a tesztfázis kihagyása nem ajánlott, mert az az algoritmus, amely A keresztellenőrzés szakaszában jól teljesített “nem igazán azt jelenti, hogy valóban a legjobb, mert az algoritmusokat összehasonlítják a keresztellenőrzési halmazon, valamint annak furcsaságain és zajain.
  2. A teszt során Fázis, a cél az, hogy megnézzük, hogyan fog végbemenni a vadonban, így ha a teljesítménye nagyon gyenge, meg kell ismételnünk az egész folyamatot a Képzési fázistól kezdve.

Forrás: Bevezetés a mintaelemzésbe , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University

Válasz

Big Data tág fogalom, amely főleg a digitálisan elérhető adatok óriási és növekvő mennyiségére utal. A Big Data válogatás nélkül hivatkozik a kvantitatív és kvalitatív adatokra („számok” és „szöveg”).

Az adatkészlet szintén nem specifikált hivatkozás lehet egyszerűen adatgyűjteményre, beleértve a szövegeket és a számokat is. Ugyanakkor az adatkészlet is előnyös kifejezés, ha egy bizonyos alapanyag szerint rendezett alapanyaggyűjteményre utal.

Íme néhány példa az adatkészletekre:

  • szó – a szó rangja a csökkenő előfordulási arány szerint
  • szó angolul – ugyanaz a szó ( jelentése ) németül
  • szó – a szó szóosztálya (a beszéd része- osztályozás)
  • mondat – a mondat érzete (fel, le, intenzív, kicsinyítő, fontosságú stb.)) Ez egy példa arra, hogy a mondatot elemezték és attribútumként (= metaadatok) elemezték és megcímkézték az érzelmi információkkal.
  • mondat – a aktualitás szintén aktualitási példa, de az információ egy mondathoz való hozzárendelésének lehetősége drámai módon túllép az érzelmek viszonylag szűk dimenzióján. A hangulatjellemzők az átlagos szöveg összes szavának körülbelül 3-4\% -át teszik ki.
  • bekezdés, teljes szöveg, teljes szöveggyűjtemény : Példa lehet erre: „minden szóbeli tárgyalás az Egyesült Királyság alsóházában („ Parlament ”) 2013–01 és 2016–06 között (a Brexit előtti időszak). Ez a fajta adatkészlet kezdetben csak az adatokból áll = a készlet neve és a tartalom = a parlamenti képviselők kérdéseiből, válaszaiból és beszédeiből. Miután összegyűjtötte, a készlet elemezhető, vizualizálható, címkézhető, megnevezheti.

Íme néhány példa a Brexit-adatkészleten alapuló elemzésekre:

Kördiagram: Az általános egyensúly az export és import kérdésekre és kérdésekre való hivatkozások között.

Követés-elemzés: Az exportra és importálás olyan mondatokban, ahol is utalás az EU / Európai Unióra:

Így értelmezik az eredményeket: Az adatkészlet teljes mondatszáma +1,5 millió. Ezek közül 18.020-ban utalás van az EU / Európai Unióra. Ha az áruk exportjára, behozatalára és mozgására vonatkozó hivatkozások egyenletesen oszlottak volna meg, akkor az EU-mondatokban 44, 39, 6 és nulla példa fordult volna elő ezekre a témákra. Amint előfordul, a prevalencia indexei 705, 697, 792 és 3,810. Ez azt jelenti, hogy például amikor az EU-t megemlítik egy mondatban, az export vagy az import prevalenciája körülbelül hétszer magasabb, mint ha a témát egyenletesen osztották volna el.

Ezek és sok más hasonló eredmény elérhető adatkészletekből kivonva. Általában kívánatos a halmaz olyan tagjainak összegyűjtése, amelyek közös elvet képviselnek. Ebben az esetben most tudunk valamit a viták természetéről és az EU / Brexit-témához való kapcsolódásról. Ha a készlet véletlenszerű szövegekből állt volna, például tweetek, tudományos cikkek, politikai felszólalók stb. Keverékéből, akkor nem lenne feltétlenül alapunk következtetések levonására. Ezért kell körültekintően eljárni az „adattárak” kiépítésekor.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük