Jaký je rozdíl mezi tréninkovými a testovacími daty?

Nejlepší odpověď

Díky Yashashri Pahade za A2A. Do seznamu přidám ještě jednu. Existují tři typy sady dat. Podrobně si o nich promluvím.

Pokud máte velkou sadu dat , doporučuje se rozdělit ji na 3 části :

  1. Školicí sada (60\% původní sady dat) : Používá se k sestavení našeho predikčního algoritmu a k úpravě vah na neuronové síti. Náš algoritmus se pokouší naladit na zvláštnosti souborů tréninkových dat. V této fázi obvykle vytváříme více algoritmů, abychom porovnali jejich výkony během fáze křížového ověření. Každý typ algoritmu má svůj vlastní parametr možnosti (počet vrstev v neuronové síti, počet stromů v náhodném lese atd.). Pro každý ze svých algoritmů musíte vybrat jednu možnost. Proto máte tréninkovou sadu.
  2. Sada vzájemného ověření (20\% původní sady dat): Tato sada dat se používá porovnat výkonnost predikčních algoritmů, které byly vytvořeny na základě tréninkové sady. Vy nyní mají sbírku algoritmů. Musíte vybrat jeden algoritmus, který má nejlepší výkon. Proto máte testovací sadu. Sada dat pro ověření je ukázka dat zadržených při tréninku vašeho modelu, která slouží k odhadu dovedností modelu při ladění hyperparametrů modelu. Tato sada dat slouží k minimalizaci nadměrného přizpůsobení. Váhy nenastavujete v síti s touto datovou sadou, pouze ověřujete, že jakékoli zvýšení přesnosti oproti tréninkové datové sadě ve skutečnosti vede ke zvýšení přesnosti nad datovou sadou, která nebyla síti dříve zobrazena, nebo alespoň síť nemá na to vyškoleni (tj. soubor údajů o ověření). Pokud se přesnost souboru tréninkových dat zvýší, ale přesnost souboru validačních dat zůstane stejná nebo se sníží, pak jste přes připojení vaší neurální sítě a měli byste přestat trénovat .
  3. Testovací sada (20\% původní sady dat): Nyní jsme zvolili náš preferovaný predikční algoritmus, ale zatím nevíme, jak bude fungovat na zcela neviditelných datech z reálného světa. Aplikujeme tedy náš vybraný predikční algoritmus na naši testovací sadu, abychom zjistili, jak bude fungovat, abychom mohli mít představu o výkonu našeho algoritmu na neviditelných datech. Předpokládám, že pokud vaše algoritmy neměly žádné parametry, nepotřebovali byste třetí krok. V takovém případě bude vaším krokem ověření testovací krok. Tato sada dat se používá pouze pro testování konečného řešení, aby se potvrdila skutečná prediktivní síla sítě.

Poznámky:

  1. Je velmi důležité mít na paměti, že se nedoporučuje přeskočit testovací fázi, protože algoritmus, který dobře fungující během fáze křížové validace, to ve skutečnosti neznamená, že je skutečně nejlepší, protože algoritmy jsou porovnávány na základě sady křížové validace a jejích vtípků a šumů.
  2. Během testu Fáze, účelem je zjistit, jak si náš finální model poradí ve volné přírodě, takže v případě, že je jeho výkon velmi slabý, měli bychom celý proces opakovat od fáze výcviku.

Zdroj: Úvod do analýzy vzorů , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University

Odpověď

Big Data je široký koncept, který se týká hlavně enormního a rostoucího množství digitálně dostupných dat. Big Data odkazuje bez rozdílu na kvantitativní a kvalitativní data („čísla“ a „text“).

Soubor dat může být také nespecifikovaným odkazem na jednoduchou sbírku dat, včetně textů a čísel. Datová sada je však také preferovaným pojmem, když se odkazuje na konkrétní kolekci surovin, které jsou seřazeny podle nějakého organizačního principu.

Toto je několik příkladů datových sad:

  • slovo – hodnocení slova podle klesající míry výskytu
  • slova v angličtině – stejné slovo ( význam ) v němčině
  • slovo – slovní třída slova (část řeči – klasifikace)
  • věta – sentiment věty (nahoru, dolů, intenzivní, zdrobnělina, důležitost atd.)) Toto je příklad věty, která byla analyzována a označena informacemi sentimentu jako atribut (= meta data).
  • věta – aktuálnost věty „Sentiment“ je také příkladem aktuálnosti, ale potenciál připsat informace větě dramaticky přesahuje relativně úzkou dimenzi sentimentu. Charakteristické vlastnosti sentimentu tvoří přibližně 3–4\% všech slov v průměrném textu.
  • odstavec, celý text, sbírka plných textů : Příkladem mohou být „všechna ústní jednání ve sněmovně Spojeného království („ parlament “) v období 2013–01 až 2016–06 (období před Brexitem)“. Tento druh datové sady se zpočátku skládá pouze z dat = název sady plus obsah = otázky, odpovědi a projevy poslanců. Po shromáždění lze sadu analyzovat, vizualizovat, označit, pojmenovat.

Zde je několik příkladů analýz založených na datové sadě Brexit:

Výsečový graf: Obecná rovnováha mezi záležitostmi a problémy týkajícími se odkazů na export a import.

Následná analýza: Prevalence odkazů na export a importovat do vět, kde je také odkaz na EU / Evropskou unii:

Takto se interpretují výsledky: Celkový počet vět v datové sadě je +1,5 milionu. V 18.020 z nich je odkaz na EU / Evropskou unii. Pokud by byly odkazy na vývoz, dovoz a pohyb zboží distribuovány rovnoměrně, ve větách EU by se vyskytly 44, 39, 6 a nulové příklady těchto témat. Jak se to stalo, indexy prevalence jsou 705, 697, 792 a 3,810. To znamená, že když je například EU uvedena ve větě, je prevalence exportu nebo importu přibližně 7krát vyšší, než kdyby bylo téma rovnoměrně rozloženo.

Tyto a mnoho dalších podobných výsledků lze extrahováno z datových sad. Obecně je žádoucí shromáždit členy sady, které představují společný princip. V tomto případě nyní víme něco o povaze debat a souvislosti s tématem EU / Brexit. Pokud by soubor sestával z náhodných textů, například ze směsi tweetů, vědeckých článků, politických řečníků atd., Nemuseli bychom nutně mít základ pro vyvozování závěrů. Proto je třeba budovat „úložiště“ dat opatrně.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *