1) Separar as palavras
2) Tirar as STOP WORDs (achar lista de stop words em português)
3) TF (term frequence) – relação de frequencia por documento.
4) DF (document frequence) – relação de quantos documentos aparecem cada palavra.
5) TFiDF (achar algorítimo que cálcula esse valor)
6) Seleciona os 10 mais frequentes (Ponto de corte)
7) criar a tabela: documentos/termos e ditar a frequencia.
8.) Montar um arquivo de entrada para treino. Processamos esse arquivo no WEka
9) Usamos o j48 para número limitado de palavras ou SVM para uma frequencia inlimitada.
10) Esse processamento vai gerar o classificador que pode ser testado usando o Weka – Process – Open File – Classify.

