Melyek a népszerű szöveges osztályozási algoritmusok a kereskedelmi használatban, és hogyan használják őket?


Legjobb válasz

A felügyelt szöveges osztályozás szempontjából számos:

  • Felügyelt látens Dirichlet-allokáció (SLDA)
  • Támogatja a vektor-gépeket (SVM)
  • Multinomiális logisztikai regresszió (maximális entrópia)
  • Naiv Bayes (lásd többnemzetiségű NB)
  • Ideghálózatok
  • Döntési fák
  • Véletlenszerű erdők
  • Fokozó és táska algoritmusok

Válasz

A szomorú igazság az, hogy szinte nincsenek algoritmusok, amelyek figyelembe vennék a szórendet és a mondatszerkezetet. Az algoritmusok hatalmas, hatalmas, túlnyomó többsége egyetlen szavakra, néha szópárokra és nagyon ritkán szóhármasra (unigrammákra, bigramokra és trigrammákra) támaszkodik. tartalom sok ilyen algoritmus elég jól teljesít. A logisztikai regresszió, a naiv bajok, az SVM-ek és ezek három kombinációja a legkorszerűbbek szerint teljesíti a legtöbb szövegosztályozási feladatot. Pontosabban vannak olyan neurális hálózatok osztályai, amelyek ezeket figyelembe veszik. A szövegre alkalmazott AFAIK, visszatérő, rekurzív és konvolúciós neurális hálózatok valamennyire ezt figyelembe veszik. A megvalósítástól függően egy konvolúciós neurális hálózat valószínűleg pontosabb sorrend-információkat veszít, mint a két RNN, de ez természetesen nem mindig így van.

Ezekről a modellekről általában ismert, hogy bizonyos esetekben kiváló pontosságot produkálnak . Pontosabban ezek azok az esetek, amikor nagyon nagy adatkészletekkel van dolgunk. Általános szabály, hogy ha ~ 1 m alatti példák vannak, akkor általában jobb, ha egyszerűbb modellt használunk, mivel ezek a modellek valószínűleg egyáltalán nem tanulnak, vagy Rettenetesen túl van a kis adatkészleteken. Ismét van kivétel minden szabály alól, de ez általában pontos.

Számítástechnikailag is NAGYON drágák, és nem valószínű, hogy ezt egy ésszerű ideig GPU beállítás nélkül.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük