"Efetividade de técnicas de aprendizado de máquina aplicadas a Data Matching."

Beatriz Valio Weiss, 2024

Código desenvolvido ao longo do Trabalho de Conclusão de Curso na Universidade Federal de Santa Catarina, curso de Sistemas de Informação pela aluna Beatriz Valio Weiss.

Objetivo

Obter métricas de desempenho dos 03 algoritmos mais citados na literatura, aplicados na etapa de Classificação

Saiba mais

Para mais informações sobre o trabalho realizado, acesse o trabalho completo no Repositório Institucional da UFSC.

Desenvolvimento e Execução

Algoritmos implementados

Para avaliação estão incluídos nesse código:

Random Forest: RandomForestClassifier
Support Vector Machine: SVC
Neural Networks: MLPClassifier

Estruturação do código

main.py: executa o processo de ponta a ponta e avalia ao final uma simulação de como seria no ambiente de produção, utilizando 20% do conjunto de dados definido para teste.
utils.py: contém algumas funções auxiliares para deixar a main.py mais organizada.
feature_selection.py: seleciona automaticamente as features para todos os modelos utilizando CatBoostClassifier e optuna, selecionado aquelas que tiverem importancia maior que 0.
transformations.py: transforma cada feature selecionada de acordo com sua classificação na main (numérica, categórica ou textual).
hyperparameter_optimization.py: seleciona automaticamente os melhores hiperparametros encontrados dentro do numero de tentativas (setado inicialmente 5 tentativas na variável n_trials) para os algoritmos utilizando optuna e cross-validation.
models.py: avalia final dos algoritmos.

Resultados

Métricas para comparação dos algoritmos em relação ao seu potencial de classificação para o dataset em questão.

O resultado da execução do código inclue:

Salvamento da melhor versão do modelo com os hiperparâmetros encontrados na pasta /best_models
Salvamento das métricas em results/metricas_execucoes.csv
Salvamento das features selecionadas e gráficos em results/Execucao_dd_mm_YY_HH_MM_SS

Como executar?

Ter Python 3.11 instalado
Instalar as bibliotecas necessárias: pip install -r requirements.txt
Garantir que o dataset esteja em /data
Configurar as particularidades do dataset na main.py:
- dataset_name: nome do dataset (arquivo csv) inserido em /data (ex.: 'empresas.csv')
- delimiter: delimitador (',' ou ';')
- target_column: atributo alvo, provavelmente nomeado de 'matching' (booleano 'True'/'False')
- date_columns: nome de todos os atributos que possuem data (devendo estar no formato 'dd/mm/aaaa')
- numeric_columns: nome de todos os atributos numéricos (atenção para o separador de decimal ser '.')
- categoric_columns: nome de todos os atributos categóricos
- text_columns: nome de todos os atributos textuais
- key_columns: nome de todos os atributos que apenas identificam o registro nas tabelas originarias (os atributos identificados aqui não devem constar em numeric_columns, categoric_columns e text_columns)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

"Efetividade de técnicas de aprendizado de máquina aplicadas a Data Matching."

Beatriz Valio Weiss, 2024

Objetivo

Saiba mais

Desenvolvimento e Execução

Algoritmos implementados

Estruturação do código

Resultados

Como executar?

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
best_models		best_models
data		data
results		results
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
feature_selection.py		feature_selection.py
hyperparameter_optimization.py		hyperparameter_optimization.py
main.py		main.py
models.py		models.py
requirements.txt		requirements.txt
transformations.py		transformations.py
utils.py		utils.py

License

beatriz-valio/tcc-beatriz.weiss

Folders and files

Latest commit

History

Repository files navigation

"Efetividade de técnicas de aprendizado de máquina aplicadas a Data Matching."

Beatriz Valio Weiss, 2024

Objetivo

Saiba mais

Desenvolvimento e Execução

Algoritmos implementados

Estruturação do código

Resultados

Como executar?

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages