Paras vastaus
Kiitos Yashashri Pahade A2A: sta. Lisään vielä yhden luetteloon. Tietojoukkoa on kolme tyyppiä . Keskustelen niistä kaikista yksityiskohtaisesti.
Kun sinulla on suuri tietojoukko , on suositeltavaa jakaa se osioon 3 osaa :
- harjoitusjoukko (60\% alkuperäisestä tietojoukosta) : Tätä käytetään rakentamaan ennustusalgoritmiamme ja säätämään hermoverkon painoja. Algoritmimme yrittää virittää itsensä harjoittelutietojoukkoihin. Tässä vaiheessa luomme yleensä useita algoritmeja verrataksemme niiden suorituskykyä ristivalidointivaiheen aikana. Jokaisella algoritmityypillä on oma parametri vaihtoehdot (hermoverkon tasojen määrä, satunnaisen metsän puiden määrä jne.). Valitse jokaiselle algoritmillesi yksi vaihtoehto. Siksi sinulla on harjoitusjoukko.
- Ristivahvistusjoukko (20\% alkuperäisestä tietojoukosta): Tätä tietojoukkoa käytetään verrata harjoitussarjan perusteella luotujen ennustusalgoritmien suorituskykyä. Sinä nyt on kokoelma algoritmeja. Sinun on valittava yksi algoritmi, jolla on paras suorituskyky. Siksi sinulla on testisarja. Vahvistustietojoukko on näyte mallisi harjoittelusta pidätetyistä tiedoista, jota käytetään arvioimaan mallitaitoa samalla kun viritetään mallin hyperparametreja. Tätä tietojoukkoa käytetään minimoimaan yliasennus. Et säädä verkko tällä tietojoukolla, olet vain tarkistamassa, että mikä tahansa tarkkuuden kasvu harjoitustietojoukkoon verrattuna, lisää tarkkuuden kasvua verrattuna tietojoukkoon, jota ei ole aiemmin näytetty verkolle, tai ainakin verkkoa ei ole ”t koulutettu (eli validointitietojoukko). Jos harjoitustietojoukon tarkkuus kasvaa, mutta sen jälkeen validointitietojoukon tarkkuus pysyy samana tai pienenee, niin hermoverkkosi sovittamisen yli ja lopeta harjoittelu .
- Testisarja (20\% alkuperäisestä tietojoukosta): Nyt olemme valinneet suosimamme ennustusalgoritmin, mutta emme vielä tiedä, miten se aikoo toimia täysin näkymättömässä tosielämän tiedossa. Joten sovellamme valitsemaamme ennustusalgoritmia testijoukkoomme nähdäkseen, miten se toimii, jotta voimme saada käsityksen algoritmimme suorituskyvystä näkymättömissä tiedoissa. Oletan, että jos algoritmeillasi ei olisi parametreja, sinun ei tarvitsisi kolmatta vaihetta. Tällöin vahvistusvaihe olisi testivaiheesi. Tätä tietojoukkoa käytetään vain lopullisen ratkaisun testaamiseen verkon todellisen ennakointitehon vahvistamiseksi.
Huomautuksia:
- On erittäin tärkeää pitää mielessä, että testivaiheen ohittamista ei suositella, koska algoritmi, joka hyvin suoritettu ristivalidointivaiheen aikana, ei tarkoita, että se olisi todella paras, koska algoritmeja verrataan ristivalidointijoukkoon sekä sen oivalluksiin ja ääniin.
- Testin aikana Vaihe, tarkoituksena on nähdä, miten lopullinen mallimme sujuu luonnossa, joten jos sen suorituskyky on erittäin huono, meidän on toistettava koko prosessi koulutusvaiheesta alkaen.
Lähde: Johdatus kuvioanalyysiin , Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University
Vastaa
Big Data on laaja käsite, joka viittaa pääasiassa valtavaan ja kasvavaan määrään digitaalisesti saatavilla olevaa tietoa. Big Data viittaa erotuksetta määrällisiin ja kvalitatiivisiin tietoihin (”numerot” ja ”teksti”).
Tietojoukko voi olla myös määrittelemätön viittaus yksinkertaisesti tietokokoelmaan, mukaan lukien tekstit ja numerot. Aineisto on kuitenkin myös suositeltava termi viitattaessa tiettyyn järjestelyperiaatteen mukaan tilattuun raaka-ainekokoelmaan.
Nämä ovat joitain esimerkkejä aineistoista:
- sana – sanan sijoitus vähentyneen esiintymistiheyden mukaan
- sana englanniksi – sama sana ( merkitys ) saksaksi
- sana – sanan sanaluokka (osa puheen- luokittelu)
- lause – lauseen mielipide (ylös, alas, voimakas, pienentävä, tärkeys jne.)) Tämä on esimerkki lauseesta, joka on analysoitu ja merkitty tunnetiedoilla attribuuttina (= metadata).
- lause – ajankohtaisuus lauseesta ”Sentiment” on myös esimerkki ajankohtaisuudesta, mutta mahdollisuus omistaa tietoa lauseelle ylittää dramaattisesti mielipiteen suhteellisen kapean ulottuvuuden. Sentiment-ominaisuudet ovat noin 3–4\% kaikista keskimääräisen tekstin sanoista.
- kappale, kokoteksti, koko tekstin kokoelma : Esimerkki voisi olla ”kaikki suulliset neuvottelut Yhdistyneen kuningaskunnan alahuoneessa (” parlamentti ”) vuosina 2013–01 – 2016–06 (ennen Brexitiä). Tällainen aineisto koostuu aluksi vain tiedoista = joukon nimi plus sisältö = parlamentin jäsenten kysymykset, vastaukset ja puheenvuorot. Keräyksen jälkeen joukko voidaan analysoida, visualisoida, merkitä ja nimetä se.
Tässä on muutama esimerkki Brexit-tietojoukkoon perustuvista analyyseistä:
Ympyrädiagrammi: Yleinen tasapaino vienti- ja tuontiasioihin ja -aiheisiin liittyvien viittausten välillä.
Seuranta-analyysi: vienti- ja tuonti lauseissa, joissa on myös viittaus EU / Euroopan unioniin:
Tulokset tulkitaan näin: Tietojoukon lauseiden kokonaismäärä on +1,5 miljoonaa. Näistä 18 020: ssa viitataan EU / Euroopan unioniin. Jos viittaukset tavaroiden vientiin, tuontiin ja liikkumiseen olisi jaettu tasaisesti, EU-lauseissa olisi ollut vastaavasti 44, 39, 6 ja nolla esimerkkiä näistä aiheista. Kuten tapahtuu, esiintyvyysindeksit ovat 705, 697, 792 ja 3,810. Tämä tarkoittaa, että esimerkiksi kun EU mainitaan virkkeessä, viennin tai tuonnin esiintyvyys on noin seitsemän kertaa suurempi kuin jos aihe olisi jakautunut tasaisesti.
Nämä ja monet muut vastaavat tulokset voidaan antaa uutettu aineistoista. On yleensä toivottavaa kerätä joukon jäseniä, jotka edustavat yhteistä periaatetta. Tässä tapauksessa tiedämme nyt jotain keskustelujen luonteesta ja yhteydestä EU / Brexit-teemaan. Jos sarja olisi koostunut satunnaisista teksteistä, esimerkiksi sekoituksista tweeteistä, tieteellisistä artikkeleista, poliittisista puhujista jne., Meillä ei välttämättä olisi mitään syytä tehdä johtopäätöksiä. Tästä syystä on oltava varovainen, kun rakennetaan tietojen ”arkistoja”.