Comment commencer à explorer vos données génomiques brutes

Séquencement de la prochaine génération

L'ADN est une molécule qui encode le plan de chaque organisme vivant. L'ADN est une molécule en forme de chaîne de longueur variable composée de quatre éléments constitutifs, communément appelés lettres. Les quatre lettres de l'ADN sont l'adénine (A), la thymine (T), la cytosine (C) et la guanine (G). Les méthodes qui déterminent la séquence des lettres des molécules d'ADN sont appelées séquençage. Le séquençage de nouvelle génération (NGS) est une technologie de séquençage de l'ADN à haut débit qui permet la lecture de milliards de molécules d'ADN en parallèle. Cela génère des milliards de courtes lectures de séquençage (~ 150 lettres) qui sont stockées dans des fichiers texte dans le Format FASTQ.

Nous avons lancé Nebula Explore pour créer une entrée abordable au séquençage du génome entier personnel. Nebula Explore est un séquençage peu profond du génome entier, avec une couverture moyenne de 0,4x par base, qui permet d'obtenir ~ 1,3 milliard de bases séquencées sur les ~ 6,4 milliards de bases du génome humain. En comparaison, la plupart des autres sociétés de génomique personnelle, dont 23andMe et AncestryDNA, utilisent un génotypage basé sur des puces à ADN qui ne lit le génome humain qu'à environ 500 000 positions.

Séquencement du traitement des données

La séquence continue d'ADN d'un génome humain peut être reconstruite par calcul en utilisant des chevauchements entre de courtes lectures de séquençage. La reconstruction d'un génome peut être facilitée si un génome de référence est disponible, sur lequel on peut aligner les lectures de la séquence. L'utilisation de génomes de référence est possible parce que les représentants d'une espèce sont génétiquement très similaires - par exemple, deux séquences quelconques du génome humain sont presque identiques. Par exemple, pour Nebula Explore, nous utilisons le génome humain de référence GRCh37 (hg19). Un outil d'alignement des séquences est utilisé pour mettre en correspondance les lectures courtes stockées dans un fichier FASTQ avec le génome de référence GRCh37 (figure 1). Cela génère une Carte d'alignement binaire (BAM) et un fichier BAI (Binary Alignment Index) associé. Les fichiers FASTQ sont généralement rejetés après la génération des fichiers BAM, car aucune information n'est perdue pendant le processus d'alignement. Les fichiers BAM peuvent être facilement retransformés en fichiers FASTQ, par exemple en utilisant samtools:

samtools fastq input.bam > output.fastq

Appel de variantes d'ADN
Figure 1. Reconstructions d'un génome en alignant les lectures courtes sur un génome de référence.

Une fois que les lectures de séquençage sont alignées sur un génome de référence, les différences entre le génome séquencé et le génome de référence peuvent être identifiées. Ce processus est appelé "appel de variantes" et produit des fichiers dans le format d'appel de variantes (VCF). Nous imputons ainsi la partie non séquencée du génome en utilisant un ensemble de génomes de référence qui a été généré par le Projet 1000 Génomes. Cela donne une précision moyenne de ~ 99% par base sur l'ensemble du génome, ce qui est suffisamment élevé pour prédire l'ascendance et les traits. Pour les utilisateurs qui souhaitent avoir un aperçu des risques de maladie, du statut de porteur et de la pharmacogénomique, nous lancerons bientôt notre séquençage du génome entier de qualité clinique qui permet d'atteindre une précision plus élevée en séquençant chaque position du génome en moyenne 30 fois.

Exploration des données génomiques

La première itération de la déclaration Nebula Explore comprend la prédiction de l'ascendance et de 27 traits différents. Toutefois, il est important de comprendre que le séquençage du génome personnel est le début d'un voyage qui permettra d'en savoir toujours plus, surtout à mesure que la science progresse et que de nouvelles découvertes sont faites. Ainsi, nous ajouterons régulièrement de nouveaux traits à nos rapports tout en augmentant continuellement la granularité de nos prédictions sur l'ascendance.

Nous donnons également à nos utilisateurs l'accès à leurs données génomiques (fichiers BAM, BAI et VCF) et les invitons à explorer eux-mêmes leurs données. Comme le téléchargement de données génomiques personnelles sur des sites web tiers présente des risques pour la vie privée, nous voulons introduire quelques outils qui peuvent être utilisés localement sur des ordinateurs personnels.

Visualisation des fichiers BAM avec un navigateur de génome

Les navigateurs de génomique sont utilisés pour parcourir les lectures qui sont alignées sur une séquence de génome de référence et stockées dans un fichier BAM. Vous pouvez essayer le Visualisation interactive du génome (IGV).

  1. Télécharger IGV pour votre système d'exploitation et l'installer.
  2. Téléchargez vos fichiers BAM et BAI via votre compte Nebula Genomics.
  3. Ouvrez IGV et réglez le génome de référence sur hg19 (liste déroulante en haut à gauche) et téléchargez-le pour obtenir de meilleures performances (figure 2). Pour ce faire, allez dans la barre de menu et sélectionnez "Genomes" → "Load Genome for Server ..." → "Human hg19" et cochez la case "Download Sequence".
  4. Glissez et déposez votre fichier BAM dans IGV. Votre fichier BAI doit se trouver dans le même dossier que votre fichier BAM.
  5. Visualisez vos lectures de séquençage alignées sur le génome de référence en sélectionnant les chromosomes (1) ou en effectuant une recherche par noms de gènes (2) puis en zoomant sur la séquence (3).
Visualisation interactive du génome
Figure. 2 Visualisation interactive du génome

Détermination de l'haplogroupe d'ADNmt

Mitochondrie sont des organites cellulaires qui génèrent la majeure partie de l'énergie chimique fournie par la cellule. Les mitochondries ont également leur propre génome, qui est transmis par les mères à leurs enfants. Haplogroupes de l'ADN mitochondrial humain (ADNmt) représentent les principaux points de ramification dans le cheminement évolutif de la lignée féminine. Elle permet de remonter aux origines de l'homme moderne en Afrique et de le propager ensuite dans le monde entier (figure 3).

haplogroupes d'ADNmt
Figure 3. Haplogroupes d'ADNmt autour du globe. Adapté de FamilyTreeDNA.

Vous pouvez déterminer votre haplogroupe en analysant les lectures d'ADNmt dans votre fichier BAM. Pour cela, vous pouvez utiliser le kit d'analyse BAM.

  1. Téléchargez et lancez le Kit d'analyse BAM. Cet outil n'est disponible que pour les PC sous Windows. (Dépannage de Windows)
  2. Choisissez "M" pour l'ADNmt (1) comme indiqué dans la figure 4. Décochez toutes les autres cases.
  3. Cliquez sur "Parcourir" (2) et sélectionnez votre fichier BAM.
  4. Cliquez sur Démarrer l'analyse. Le traitement peut prendre jusqu'à une heure.
  5. Ouvrez le fichier MtDNA_Haplogroup.txt pour trouver votre haplogroupe mtDNA.
Kit d'analyse BAM
Figure 4. Détermination de l'haplogroupe d'ADNmt avec le kit d'analyse BAM.

Conversion des fichiers VCF en fichiers 23andMe

Le format de fichier 23andMe est actuellement le format le plus populaire pour les données génomiques personnelles. Ainsi, la plupart des outils destinés aux consommateurs prennent les fichiers au format 23andMe en entrée. Pour utiliser ces outils, vous pouvez convertir votre fichier VCF en un fichier au format 23andMe. Notez que les fichiers VCF Nebula Explore contiennent beaucoup plus d'informations que les fichiers 23andMe. En convertissant au format 23andMe, nous éliminons un grand nombre d'informations pour des raisons de compatibilité avec les outils couramment utilisés.

1. Télécharger VCF-à-23etMe. Les deux scripts de ce répertoire nécessitent Python 3.

2. Tout d'abord, exécutez le script data_to_db.py en utilisant votre fichier VCF comme entrée. Cela génère le fichier genome.db :

> python3 data_to_db.py input.vcf.gz vcf genome.db

3. Exécutez ensuite le script db_to_23.py en utilisant le fichier genome.db comme entrée. Cela produit un fichier au format 23etMe :

> python3 db_to_23.py genome.db blank_v3.txt 23etMe.txt

Calcul du pourcentage d'ADN néandertalien

Les Néandertaliens sont une espèce humaine éteinte, qui vivait en Eurasie jusqu'à il y a 40 000 ans. Parce que Les Néandertaliens se sont croisés avec les humains modernesLa plupart des gens ont un peu d'ADN de Néandertal dans leur génome. Vous pouvez utiliser l'Ancienne Calculatrice pour savoir quelle part de votre génome est partagée avec les Néandertaliens et d'autres anciens parents humains.

  1. Télécharger et lancer Ancienne calculatrice (Figure 5). Cet outil n'est disponible que pour les PC Windows.
  2. Sélectionnez un échantillon d'ADN ancien auquel vous souhaitez faire correspondre vos données génétiques (1). Par exemple, sélectionnez "Altaï Néandertal".
  3. Cliquez sur "BROWSE" et sélectionnez vos données génomiques au format 23andMe que vous avez généré à partir de votre fichier VCF. Le calcul ne prend que quelques secondes.
Une ancienne calculatrice pour trouver l'ADN de Neandertal dans un génome humain
Figure 5. Ancienne calculatrice.

Plus de ressources pour l'exploration des données

Partager cet article
Partager sur facebook
Partager sur google
Partager sur twitter
Partager sur linkedin
Partager sur print
Partager sur email
fr_FRFrench
en_USEnglish es_ESSpanish ru_RURussian jaJapanese zh_CNChinese fr_FRFrench