Objetivo: Identificar as variantes presentes nos dados fornecidos
Tempo de duração: 12 horas
Nosso genoma (sim, de todos Homo sapiens) é grande, no sentido de que possui muitos nucleotideos em sua composição. Questões que parecem simples, como por exemplo: "Essa pequena sequencia existe no genoma?" ou "Consigo alinhar de alguma forma essa sequencia com o genoma refêrencia?", se tornam computacionalmente muito intensas.
Imagem de: https://ib.bioninja.com.au
A fim de tornar este desafio mais democrático optamos por disponibilizar apenas parte dos dados. Nesta etapa iremos disponibilizar os dados referentes ao cromossomo 22. Um genoma humano padrão possui 22 pares de cromossomos autossômicos e 1 par (X e Y) de cromossomos sexuais.
O cromossomo 22 não é o menor de nossos autossômicos, mas está entre eles.
Nesta primeira fase do nosso desafio iremos identificar todas as variantes presentes na amostra que fornecemos (FASTQs). Esta etapa é importante pois é com os resultados dela que iremos nos aprofundar na busca pelas variantes potencialmente patogênicas que podem estar presentes. Para mais informações gerais sobre testes genéticos leia o texto de nosso blog: Efeito Angelina Jolie e testes geneticos.
Não deixe de conferir os outros links para mais informações!
- 1 FASTA: sequência de nucleotídeos do cromossomo 22. A mesma disponível em bancos públicos. Adicionaremos aqui apenas para conveniência.
- Este arquivo é popularmente conhecido como "Genoma Referência" quando contém os dados de todos os cromossomos da espécie. Caso queira baixar, ou esteja apenas curioso a respeito, dê uma olhada nos links no final desta página.
- 1 par de FASTQs: leituras de sequenciamento Illumina, biblioteca de sequenciamento preparada com kit de exomas.
- VCF - algumas variantes que esperamos que estejam no seu resultado final. Se elas estiverem ausentes é sinal de que algo na sua análise pode estar incorreto.
Conseguir extrair as variantes encontradas no cromossomo 22 da amostra. Para tanto podem ser usadas quaisquer ferramentas.
Deixamos os arquivos disponíveis no Google Drive, para baixar acesse o link e clique no botão "fazer download", no canto superior direito da tela.
- grch38.chr22.fasta.gz - Sequência referência com o cromossomo 22 do genoma humano GRCh38.
- amostra-lbb_R1.fq.gz e amostra-lbb_R2.fq.gz - Leituras do sequenciamento (NovaSeq 6000).
- pequeno-gabarito.vcf - Algumas variantes que esperamos que estejam em seu resultado. O arquivo é tão pequeno que nem usamos bgzip. Usuários de macOS: cuidado para que seu sistema não tente carregar o arquivo como vCARD de contato.
Ao fim dessa tarefa você deve enviar o VCF comprimido com bgzip. O competidor também deve enviar um script descrevendo como a tarefa foi executada.
A nota desta fase será composta por:
- F1 score: o VCF entregue será comparado a nossa coleção de variantes a fim de obter a métrica. Iremos avaliar apenas as porções do genoma que são acessiveis via NGS.
- Script: será usado como critério de desempate.
É essencial a entrega de ambos arquivos: VCF e script (.sh, .nf, .wdl, .txt, etc).
-
Google Life Sciences - Genomas referência
- Já faz algum tempo que o Google vem investindo no desenvolvimento de produtos dedicados a problemas biológicos. Neste link é possível encontrar diferentes versões do genoma humano para download, bem como uma tabela com os dados e os metadados de projetos como 1,000 Genomas - no menu lateral.
-
t2t CHM13 - a versão mais completa do genoma humano
- Em 2021 pesquisadores combinaram diversas técnicas de sequenciamento para completar regiões problemáticas do genoma humano. Neste trabalho existem informações interessantes sobre as principais diferenças em relação a versão que hoje é a mais amplamente utilizada - a GRCh38.
-
Biostars - Discussão sobre genotipagem/chamada de variantes
- Existe uma resposta bastante informativa onde Kevin Blighe discorre sobre as principais diferenças nos termos com base na experiência dele. Também tem um apontamento importante sobre o contexto populacional que existe por trás da definição de SNP (Single Nucleotide Polymorfism). Nem toda variante é um SNP!