상업용으로 널리 사용되는 텍스트 분류 알고리즘은 무엇이며 어떻게 사용됩니까?


최상의 답변

감독 텍스트 분류 측면에서 다음과 같은 몇 가지가 있습니다.

  • SLDA (Supervised Latent Dirichlet Allocation)
  • 지원 벡터 머신 (SVM)
  • 다항 로지스틱 회귀 (최대 엔트로피)
  • Naive Bayes ( 다항 NB)
  • 신경망
  • 의사 결정 트리
  • 랜덤 포레스트
  • 부스팅 및 배깅 알고리즘

답변

슬픈 사실은 어순과 문장 구조를 고려한 알고리즘이 거의 존재하지 않는다는 것입니다. 방대하고 방대하며 대부분의 알고리즘은 단일 단어, 일부 단어 쌍 및 매우 드물게 단어 삼중 선 (각각 유니 그램, 바이그램 및 트라이 그램)에 의존합니다.

즉, 단어 순서와 이러한 알고리즘의 대부분은 꽤 잘 수행됩니다. 로지스틱 회귀, 순진한 베이, SVM 및이 세 가지 조합은 대부분의 텍스트 분류 작업에 대해 최첨단에 가깝게 수행됩니다.

그렇지만 대안이 있습니다. 특히이를 고려한 신경망 클래스가 있습니다. 텍스트에 적용된 AFAIK, 반복적, 재귀 적 및 컨볼 루션 신경망은 모두이를 어느 정도 설명합니다. 구현에 따라 컨볼 루션 신경망은 두 개의 RNN보다 더 정확한 순서 정보를 잃을 가능성이 있지만 “항상 그런 것은 아닙니다.

이러한 모델은 일반적으로 특정 경우에 우수한 정확도를 생성하는 것으로 알려져 있습니다. . 특히, 이는 매우 큰 데이터 세트를 처리하는 경우입니다. 일반적으로 “예시가 1m 미만인 경우”일반적으로 이러한 모델이 전혀 학습하지 않을 가능성이 있으므로 더 간단한 모델을 사용하는 것이 좋습니다. 작은 데이터 세트에 지나치게 적합합니다. 다시 말하지만 모든 규칙에는 예외가 있지만 일반적으로 정확합니다.

또한 계산 비용이 매우 높고 다음에서 학습 할 수있을 것 같지 않습니다. GPU 설정없이 합리적인 시간.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다