Skip to content

Classificação de enunciados de jurisprudência do TCU em áreas, temas e subtemas

Notifications You must be signed in to change notification settings

lucasosouza/lstm-text-classification-tcu

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Modelo de Classificação de Enunciados de Jurisprudência

Projeto criado no final de 2015 para classificação de enunciados de jurisprudência em Área, Tema e Subtema.

No código há alguns exemplos de:

  • Criação de modelos preditivos diversos usando scikitlearn.
  • Redução de dimencionalidade utilizando PCA.
  • Pré-processamento e conversão de texto para bag-of-word e vetores de palavras usando NLTK e word2vec (vetores treinados por grupo da USP).
  • Criação de gráficos simples com matplotlib para realiação de nálise exploratório.
  • Tarefas comuns de machine learning, utilando o scikitlearn.

Observações

  • As versões mais antigas do projeto estão salvas na pasta tags.
  • Os arquivos de dados (gerados a partir dos enunciados pelos scripts cria_datasets.py) foram excluídos do repositório (através da inclusão da extensão .npy no .gitignore) pois eles eram muito grandes.

Atualização:

Modelo em atualização para utilização de word embeddings com LSTM, buscando melhoria na performance do modelo preditivo. Arquivos novos no diretório nnmodel.

Embeddings utilizados de: http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc#

About

Classificação de enunciados de jurisprudência do TCU em áreas, temas e subtemas

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published