Legjobb válasz
A felügyelt szöveges osztályozás szempontjából számos:
- Felügyelt látens Dirichlet-allokáció (SLDA)
- Támogatja a vektor-gépeket (SVM)
- Multinomiális logisztikai regresszió (maximális entrópia)
- Naiv Bayes (lásd többnemzetiségű NB)
- Ideghálózatok
- Döntési fák
- Véletlenszerű erdők
- Fokozó és táska algoritmusok
Válasz
A szomorú igazság az, hogy szinte nincsenek algoritmusok, amelyek figyelembe vennék a szórendet és a mondatszerkezetet. Az algoritmusok hatalmas, hatalmas, túlnyomó többsége egyetlen szavakra, néha szópárokra és nagyon ritkán szóhármasra (unigrammákra, bigramokra és trigrammákra) támaszkodik. tartalom sok ilyen algoritmus elég jól teljesít. A logisztikai regresszió, a naiv bajok, az SVM-ek és ezek három kombinációja a legkorszerűbbek szerint teljesíti a legtöbb szövegosztályozási feladatot. Pontosabban vannak olyan neurális hálózatok osztályai, amelyek ezeket figyelembe veszik. A szövegre alkalmazott AFAIK, visszatérő, rekurzív és konvolúciós neurális hálózatok valamennyire ezt figyelembe veszik. A megvalósítástól függően egy konvolúciós neurális hálózat valószínűleg pontosabb sorrend-információkat veszít, mint a két RNN, de ez természetesen nem mindig így van.
Ezekről a modellekről általában ismert, hogy bizonyos esetekben kiváló pontosságot produkálnak . Pontosabban ezek azok az esetek, amikor nagyon nagy adatkészletekkel van dolgunk. Általános szabály, hogy ha ~ 1 m alatti példák vannak, akkor általában jobb, ha egyszerűbb modellt használunk, mivel ezek a modellek valószínűleg egyáltalán nem tanulnak, vagy Rettenetesen túl van a kis adatkészleteken. Ismét van kivétel minden szabály alól, de ez általában pontos.
Számítástechnikailag is NAGYON drágák, és nem valószínű, hogy ezt egy ésszerű ideig GPU beállítás nélkül.