Mitä ovat suosittuja tekstiluokittelualgoritmeja kaupallisessa käytössä ja miten niitä käytetään?


Paras vastaus

Valvotun tekstiluokituksen suhteen on useita:

  • Valvottu piilevä Dirichlet-allokaatio (SLDA)
  • Tukee vektorikoneita (SVM)
  • Monikokoinen logistinen regressio (suurin entropia)
  • Naiviset Bayes (katso myös monikokoinen NB)
  • Neuraaliverkot
  • Päätöspuut
  • Satunnaiset metsät
  • Tehostamis- ja puskurointialgoritmit

Vastaus

Surullinen totuus on, että käytännössä ei ole olemassa algoritmeja, jotka ottavat huomioon sanajärjestyksen ja lauseen rakenteen. Suuri, valtava, valtava enemmistö algoritmeista luottaa yksittäisiin sanoihin, joskus sanapareihin ja hyvin harvoin sanatriplettiin (vastaavasti unigrammit, bigramit ja trigrammit).

Tästä huolimatta sanajärjestystä ja sisältö monet näistä algoritmeista toimivat melko hyvin. Logistinen regressio, naiivit sekat, SVM: t ja näiden kolmen yhdistelmät toimivat lähellä huipputasoa useimmissa tekstiluokittelutehtävissä.

Siitä huolimatta on olemassa vaihtoehtoja. On erityisesti hermoverkkoluokkia, jotka ottavat nämä huomioon. Tekstiin käytettävät AFAIK-, toistuvat, rekursiiviset ja konvoluutiohermoverkot vastaavat tästä jossain määrin. Toteutuksesta riippuen konvoluutiohermoverkko todennäköisesti menettää tarkempia tilaustietoja kuin kaksi RNN: ää, mutta tämä ei todellakaan aina ole.

Näiden mallien tiedetään yleensä tuottavan parempaa tarkkuutta tietyissä tapauksissa. Nämä ovat tapauksia, joissa kyseessä on erittäin suuret tietojoukot. Yleensä jos olet alle ~ 1m esimerkkejä, sinun on yleensä parempi käyttää yksinkertaisempaa mallia, koska nämä mallit eivät todennäköisesti opi ollenkaan tai ylikuormittaa hirvittävästi pieniin tietojoukkoihin. Jälleen on poikkeuksia jokaiseen sääntöön, mutta se on yleensä tarkka.

Ne ovat myös ERITTÄIN laskennallisesti kalliita, ja on epätodennäköistä, että pystyt kouluttamaan tätä kohtuullinen aika ilman GPU-asetuksia.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *