商用で使用されている一般的なテキスト分類アルゴリズムとその使用方法を教えてください。


ベストアンサー

教師ありテキスト分類に関しては、次のようなものがあります。

  • 教師あり潜在的ディリクレ割り当て(SLDA)
  • サポートベクターマシン(SVM)
  • 多項ロジスティック回帰(最大エントロピー)
  • ナイーブベイズ(を参照)また、多項NB)
  • ニューラルネットワーク
  • 決定ツリー
  • ランダムフォレスト
  • ブースティングおよびバギングアルゴリズム

回答

悲しい真実は、単語の順序と文の構造を考慮に入れるアルゴリズムがほとんど存在しないということです。広大な、広大な、大多数のアルゴリズムは、単一の単語、場合によっては単語のペア、そしてごくまれに単語のトリプレット(それぞれユニグラム、バイグラム、トリグラム)に依存しています。コンテンツこれらのアルゴリズムの多くは非常にうまく機能します。ロジスティック回帰、単純ベイズ、SVM、およびこれら3つの組み合わせは、ほとんどのテキスト分類タスクで最先端に近いパフォーマンスを発揮します。

とはいえ、代替手段があります。具体的には、これらを考慮に入れたニューラルネットワークのクラスがあります。テキストに適用されるAFAIK、再帰的、再帰的、および畳み込みニューラルネットワークはすべて、これをある程度説明します。実装によっては、畳み込みニューラルネットワークが2つのRNNよりも正確な順序情報を失う可能性がありますが、常にそうであるとは限りません。

これらのモデルは、特定の場合に優れた精度を生成することが一般的に知られています。具体的には、これらは非常に大きなデータセットを処理する場合です。原則として、「例が100万未満の場合」は、これらのモデルがまったく学習しないか、まったく学習しない可能性があるため、通常は単純なモデルを使用することをお勧めします。小さなデータセットではひどく過剰適合します。ここでも、すべてのルールに例外がありますが、これは一般的に正確です。

また、計算コストが非常に高く、これをトレーニングできる可能性はほとんどありません。 GPUセットアップなしで妥当な時間。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です