Criando um clacificador para categorizar textos através de aprendizagem de máquina

Método Quantitativo:

1) Separar as palavras
2) Tirar as STOP WORDs (achar lista de stop words em português)
3) TF (term frequence) – relação de frequencia por documento.
4) DF (document frequence) – relação de quantos documentos aparecem cada palavra.
5) TFiDF (achar algorítimo que cálcula esse valor)
6) Seleciona os 10 mais frequentes (Ponto de corte)
7) criar a tabela: documentos/termos e ditar a frequencia.
8.) Montar um arquivo de entrada para treino. Processamos esse arquivo no WEka
9) Usamos o j48 para número limitado de palavras ou SVM para uma frequencia inlimitada.
10) Esse processamento vai gerar o classificador que pode ser testado usando o Weka – Process – Open File – Classify.

Deixar um comentário

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Modificar )

Imagem do Twitter

You are commenting using your Twitter account. Log Out / Modificar )

Facebook photo

You are commenting using your Facebook account. Log Out / Modificar )

Connecting to %s

Seguir

Get every new post delivered to your Inbox.