Quali sono gli algoritmi di classificazione del testo più diffusi nelluso commerciale e come vengono utilizzati?


Risposta migliore

In termini di classificazione del testo supervisionato, ce ne sono diversi:

  • Supervised Latent Dirichlet Allocation (SLDA)
  • Support Vector Machines (SVM)
  • Multinomial Logistic Regression (massima entropia)
  • Naive Bayes (vedere anche multinomiale NB)
  • Reti neurali
  • Alberi decisionali
  • Foreste casuali
  • Algoritmi di boosting e bagging

Risposta

La triste verità è che non esistono quasi algoritmi che tengano conto dellordine delle parole e della struttura delle frasi. La vasta, vasta, vasta maggioranza degli algoritmi si basa su singole parole, alcune volte coppie di parole e molto raramente terzine di parole (rispettivamente unigrammi, bigrammi e trigrammi).

Detto questo, senza considerare lordine delle parole e contenuto molti di questi algoritmi funzionano abbastanza bene. Regressione logistica, bayes ingenui, SVM e combinazioni di questi tre si comportano quasi allo stato dellarte per la maggior parte delle attività di classificazione del testo.

Detto questo, ci sono alternative. Nello specifico esistono classi di reti neurali che ne tengono conto. Per quanto ne so, le reti neurali ricorrenti, ricorsive e convoluzionali applicate al testo spiegano tutte questo in una certa misura. A seconda dellimplementazione, è probabile che una rete neurale convoluzionale perda informazioni sullordine più precise rispetto ai due RNN, ma certamente non è sempre così.

Questi modelli sono generalmente noti per produrre una precisione superiore in alcuni casi . In particolare, questi sono casi in cui hai a che fare con set di dati molto grandi. Come regola generale, se sei al di sotto di ~ 1 milione di esempi, in genere è meglio usare un modello più semplice in quanto è probabile che questi modelli non apprendano affatto o overfit terribilmente su piccoli set di dati. Ancora una volta, ci sono eccezioni a ogni regola, ma questo è generalmente accurato.

Sono anche MOLTO computazionalmente costosi ed è improbabile che tu sia in grado di addestrarlo in un tempo ragionevole senza una configurazione GPU.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *