Care sunt algoritmii populari de clasificare a textului în utilizarea comercială și cum se utilizează?


Cel mai bun răspuns

În ceea ce privește clasificarea textului supravegheat, există mai multe:

  • Alocare direcționată latentă supravegheată (SLDA)
  • Suport pentru mașini vectoriale (SVM)
  • Regresie logistică multinomială (entropie maximă)
  • Naive Bayes (vezi de asemenea, multinomial NB)
  • Rețele neuronale
  • Arbori de decizie
  • Păduri aleatorii
  • Algoritmi de stimulare și împachetare

Răspuns

Tristul adevăr este că aproape nu există algoritmi care să ia în considerare ordinea cuvintelor și structura propoziției. Vasta, vasta, vasta majoritate a algoritmilor se bazează pe cuvinte unice, uneori perechi de cuvinte și foarte rar triplete de cuvinte (unigrame, bigrame și, respectiv, trigrame).

Acestea fiind spuse, fără a lua în considerare ordinea cuvintelor și conținut, mulți dintre acești algoritmi funcționează destul de bine. Regresia logistică, bayes-uri naive, SVM-uri și combinații ale celor trei efectuează aproape de ultimă generație pentru majoritatea sarcinilor de clasificare a textelor.

Acestea fiind spuse, există alternative. Mai exact, există clase de rețele neuronale care le iau în considerare. AFAIK, rețelele neuronale recurente, recursive și convoluționale aplicate textului, toate dau seama de acest lucru într-o oarecare măsură. În funcție de implementare, este probabil ca o rețea neuronală convoluțională să piardă informații de ordine mai precise decât cele două RNN, dar acest lucru nu este întotdeauna cazul.

Aceste modele sunt, în general, cunoscute pentru a produce o precizie superioară în anumite cazuri. În mod specific, acestea sunt cazuri în care aveți de-a face cu seturi de date foarte mari. De regulă generală, dacă „aveți sub ~ 1m exemple”, este de obicei mai bine să folosiți un model mai simplu, deoarece este posibil ca aceste modele fie să nu învețe deloc, fie se potrivește teribil pe seturi de date mici. Din nou, există excepții de la fiecare regulă, dar acest lucru este, în general, corect.

Ele sunt, de asemenea, FOARTE scumpe din punct de vedere al calculației și este puțin probabil să puteți instrui acest lucru într-un timp rezonabil fără o configurare GPU.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *