TCC – Classificação e auxilio a tomada de decisão na construção de textos – Ante Projeto – TC1 e TC2

Objetivos específicos

• Estudar técnicas de aprendizagem de máquina;
• Estudar métodos de classificação de texto;
• Estudar o framework Weka;
• Definir um domínio jornalístico;
• Desenvolver protótipo que classifique textos dentro do domínio definido;
• Desenvolver protótipo que e auxilie na tomada de decisão na construção de textos dentro do domínio definido;
• Avaliar protótipo desenvolvido;

Trabalho final: Download PDF

Site desenvolvido como protótipo: www.jornalismointerativo.com.br

Criando um clacificador para categorizar textos através de aprendizagem de máquina

Método Quantitativo:

1) Separar as palavras
2) Tirar as STOP WORDs (achar lista de stop words em português)
3) TF (term frequence) – relação de frequencia por documento.
4) DF (document frequence) – relação de quantos documentos aparecem cada palavra.
5) TFiDF (achar algorítimo que cálcula esse valor)
6) Seleciona os 10 mais frequentes (Ponto de corte)
7) criar a tabela: documentos/termos e ditar a frequencia.
8.) Montar um arquivo de entrada para treino. Processamos esse arquivo no WEka
9) Usamos o j48 para número limitado de palavras ou SVM para uma frequencia inlimitada.
10) Esse processamento vai gerar o classificador que pode ser testado usando o Weka – Process – Open File – Classify.

Seguir

Get every new post delivered to your Inbox.