Objetivo: Evitar que um dado ruim atrapalhe suas interpretações ao final da análise. Evitar o problema "garbage in, garbage out"
Tempo de duração: 12 horas
Na culinária é bom termos ingredientes de qualidade para prepararmos bons pratos. Na bioinformática isso não é muito diferente. Precisamos conferir aspectos como:
- O resultado do sequenciamento é bom o suficiente?
- As leituras sequenciadas são mesmo da espécie que eu espero?
- Tenho algum problema de contaminação?
Na etapa anterior pedimos para que fossem identificadas as variantes na amostra fornecida. Isso deve ter resultado em um arquivo com as variantes e um outro arquivo com o alinhamento das leituras de sequenciamento sobre o genoma referência usado (cromossomo 22).
Nesta etapa você deverá usar ferramentas que te possibilitem responder as perguntas citadas acima. Se você já trabalha com bioinformática é bem possível que já tenha em seu cinto de ferramentas as de sua preferência. Caso este não seja o caso, sinta-se livre para buscar a que melhor se encaixa as suas preferências. Listamos aqui alguns exemplos:
-
Samtools: o verdadeiro canivete-suiço para quem trabalha com alinhamentos NGS.
-
Picard: muito conveniente caso você seja familiar com as ferramentas GATK.
-
Mosdepth: Ferramenta especializada no cálculo de coberturas.
-
VerifyBamId: Infere a porcentagem de contaminação que sua amostra possui. Também pode extrair informações que auxiliam na predição da ancestralidade global de sua amostra.
Há quem prefira escrever o próprio programa para extrair essas informações. Isso é extremamente produtivo para que você se familiarize com os diferentes dados que existem em cada formato de arquivo de bioinformática (ideia compartilhada por Heng Li do BWA/Samtools), no entanto também é altamente arriscado, pois ao fazer isso muito provavelmente você será o único que conhece a fundo os detalhes de sua implementação. Se este caminho te atrai lembre-se de escrever testes automatizados para seu código e também pedir para que colegas revisem o que foi escrito.
Caso você tenha mais experiência fora da computação e esteja embarcando apenas recentemente na bioinformática, talvez este texto publicado pela Nature possa lhe interessar: A cartoon guide to bioinformatics by a novice coder.
- 1 BED: delimita as regiões de captura do kit de exoma.
Gerado em Genotipagem de um cromossomo
- VCF: variantes identificadas na etapa anterior deste desafio.
- BAM: alinhamento das leituras de sequenciamento contra o cromossomo 22.
Conseguir extrair informações sobre as variantes encontradas. Para isso usem quaisquer ferramentas.
Deixamos os arquivos disponíveis no Google Drive, para baixar acesse o link e clique no botão "fazer download", no canto superior direito da tela.
- BED cobertura esperada - Segundo o fabricante;
-
Quais variantes deverão ser desconsideradas no seu VCF? - Qualquer métrica do software de escolha poderá ser utilizada. Discorra sobre a métrica utilizada.
-
Discorra sobre as regiões com baixa cobertura e quais foram seus critérios. Figuras são bem-vindas.
-
Obter informações sobre seu alinhamento. Quantos reads? Qual a porcentagem deles que foi mapeada corretamente? Muitos alinharam em mais de um local do genoma com a mesma qualidade?
- Para a questão 1 deverá ser enviado o VCF pós-filtragem.
- Para a questão 2 deverá ser enviado um BED, contendo as regiões não cobertas.
- Para a terceira questão deverá ser enviado um arquivo TSV, com as colunas "nreads" (número de reads usados), "proper_pairs" (pares mapeados corretamente), "mapQ_0" (número de reads com qualidade de mapeamento == 0)
- Sendo que a parte escrita das questões deverá ser enviada em um arquivo de texto (no próprio
README.md
, por exemplo).