Quels sont les algorithmes de classification de texte populaires utilisés dans le commerce et comment sont-ils utilisés?


Meilleure réponse

En termes de classification de texte supervisée, il en existe plusieurs:

  • Allocation de Dirichlet Latente Supervisée (SLDA)
  • Machines vectorielles de support (SVM)
  • Régression logistique multinomiale (entropie maximale)
  • Naive Bayes (voir également multinomial NB)
  • Réseaux de neurones
  • Arbres de décision
  • Forêts aléatoires
  • Algorithmes damplification et densachage

Réponse

La triste vérité est qu’il n’existe pratiquement aucun algorithme qui prend en compte l’ordre des mots et la structure des phrases. La vaste, vaste, grande majorité des algorithmes reposent sur des mots uniques, parfois sur des paires de mots et très rarement sur des triplets de mots (unigrammes, bigrammes et trigrammes respectivement).

Cela dit, sans tenir compte de lordre des mots et contenu beaucoup de ces algorithmes fonctionnent assez bien. La régression logistique, les bayes naïves, les SVM et les combinaisons de ces trois éléments sont proches de létat de lart pour la plupart des tâches de classification de texte.

Cela dit, il existe des alternatives. Plus précisément, il existe des classes de réseaux de neurones qui en tiennent compte. Les réseaux de neurones AFAIK, récurrents, récursifs et convolutifs appliqués au texte en expliquent tous dans une certaine mesure. En fonction de limplémentation, un réseau de neurones convolutifs est susceptible de perdre des informations dordre plus précises que les deux RNN, mais ce nest certainement pas toujours le cas.

Ces modèles sont généralement connus pour produire une précision supérieure dans certains cas . Plus précisément, il s’agit de cas où vous avez affaire à de très grands ensembles de données. En règle générale, si vous avez moins d’exemples d’environ 1 million d’exemples, il est généralement préférable d’utiliser un modèle plus simple, car ces modèles risquent de ne pas apprendre du tout, ou surajustement terriblement sur les petits ensembles de données. Encore une fois, il y a des exceptions à chaque règle, mais cest généralement exact.

Elles sont également TRÈS coûteuses en calcul et il est peu probable que vous puissiez entraîner cela dans un durée raisonnable sans configuration de GPU.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *