Hvad er populære tekstklassificeringsalgoritmer i kommerciel brug, og hvordan bruges de?


Bedste svar

Med hensyn til overvåget tekstklassificering er der flere:

  • Overvåget latent dirichletallokering (SLDA)
  • Support Vector Machines (SVM)
  • Multinomial logistisk regression (maksimal entropi)
  • Naive Bayes (se også multinomial NB)
  • Neurale netværk
  • Beslutningstræer
  • Tilfældige skove
  • Boosting and Bagging algoritmer

Svar

Den triste sandhed er, at der næsten ikke findes algoritmer, der tager ordord og sætningsstruktur i betragtning. Det store, store, store flertal af algoritmer er afhængige af enkelte ord, nogle gange par af ord og meget sjældent ordtriplet (henholdsvis unigrams, bigrams og trigrams).

Når det er sagt uden at overveje ordrækkefølge og indhold fungerer mange af disse algoritmer ganske godt. Logistisk regression, naive bayes, SVMer og kombinationer af disse tre udfører tæt på state-of-the-art for de fleste tekstklassificeringsopgaver.

Når det er sagt, er der alternativer. Specifikt er der klasser af neurale netværk, der tager disse i betragtning. AFAIK, tilbagevendende, rekursive og konvolutionelle neurale netværk, der anvendes til tekst, tegner sig i nogen grad for dette. Afhængig af implementeringen mister sandsynligvis et nedbrydningsneuralt netværk mere præcis ordreinformation end de to RNNer, men dette er bestemt ikke altid tilfældet.

Disse modeller er generelt kendt for at producere overlegen nøjagtighed i visse tilfælde Specifikt er dette tilfælde, hvor du har at gøre med meget store datasæt. Som en generel regel, hvis du “er under ~ 1 m eksempler, har du det typisk bedre at bruge en enklere model, da disse modeller sandsynligvis enten slet ikke lærer, eller overtræffer frygteligt på små datasæt. Igen er der undtagelser fra hver regel, men dette er generelt nøjagtigt.

De er også MEGET beregningsdyr, og det er usandsynligt, at du vil være i stand til at træne dette i en rimelig tid uden en GPU-opsætning.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *