Esse repositório são conjuntos de dados, códigos, análises e gráficos de um detector automatico, usando aprendizado de máquina supervisionado, de possíveis tweets antivacina ou pró-vacina. Esse script, dividido em três notebooks, tem as tarefas de extração direta na API do Twitter, usando conta de desenvolvedor, aprendizado de máquina usando os algoritmos NaiveBayesClassifier
, MaxentClassifier
e SklearnClassifier
.
- Abrindo o notebook
projeto_antivacina_coleta.ipynb
, colocando sua chave da API do Twitter para realizar a extração. É preferêncial que o plano da conta de desenvolvedor do Twitter seja Elevated ou superior; - Abrindo o notebook
projeto_antivacina_treinamento.ipynb
, recebendo os arquivos das extrações e de treino para conseguir treinar os algoritmos de machine learning. Caso queria ter o mesmo resultado dessa análise, abra os arquivos que se encontram na pastadata
; - Abrindo o notebook
projeto_antivacina_aed.ipynb
, recebendo os arquivos já analisados. Para replicabilidade, utilize o arquivo analisado da pastadata
.
A coleta foi realizada no endpoint /2/tweets/search/recent
, da APIv2 do Twitter. Devido a um bug da API, somente as ids dos autores foram coletadas. As linhas não tem os nomes dos usuários.
Arquivos de entrada para realização do treino dos algoritmos de aprendizado de máquina
Arquivos de amostras usado para realizar a classificação manual e extrair um corpus de treino para o aprendizado de máquina
Arquivos da captura de tweets do endpoint /2/tweets/search/recent
Arquivo com tweets já classificados
Arquivos com os códigos em python para execução da análise
Arquivos em HTML com os gráficos já plotados pelo vega editor
Caso tenha dúvidas sobre esse script e análise, mande um e-mail para vitorarthur.profissional@gmail.com
Trabalho realizado como projeto final da disciplina Pensamento Computacional, do Master em Jornalismo de Dados, Automação e Data Storytelling do Insper.