Qu'est-ce que la couverture cartographiable ?

Par : Sjoert B.G. Jansen | Directeur principal du développement commercial de NGS

Lorsque l'un de nos clients demande des services de séquençage NGS à Macrogen Europe, l'une des premières questions auxquelles nous essayons de répondre est la profondeur de séquençage requise. C'est ce que l'on appelle communément la « profondeur de lecture » ou la « couverture » requise pour une cible spécifique. En d'autres termes, de combien de lectures de séquençage ou de giga-paires de bases (Gbps) un client a-t-il besoin pour son application spécifique ? C'est une question qui dépend de multiples facteurs et sur laquelle nous sommes heureux de fournir un consultation gratuite.

Pour des applications telles que Séquençage de l'ARN (WTS), nous utilisons généralement la « profondeur de lecture » ou le nombre total de lectures en millions, et la couverture cartographiable est moins pertinente. Lorsque le service concerne des lectures génomiques telles que séquençage du génome entier (WGS), séquençage de l'exome entier (WES), séquençage de panneaux ou séquençage de l'épigénome comme le séquençage du génome entier au bisulfite (WGBS), une complexité supplémentaire est ajoutée à cette question, en ayant à la fois la « couverture brute ou profondeur de lecture » et la « couverture cartographiée ou profondeur de lecture ».

Par exemple, lors du reséquençage d'un échantillon germinal pour le séquençage du génome entier humain (HWG) à l'aide de lectures courtes (Illumina), la couverture la plus fréquemment demandée est de 30X. Il s'agit du nombre de fois qu'un nucléotide est lu pendant le séquençage. Cela signifie que chaque base du génome est couverte environ 30 fois en moyenne à chaque position de base séquençable.

Couverture brute ou couverture cartographiée

Le génome humain haploïde a une taille d'environ 3 giga paires de bases et peut être séquencé par des lectures courtes ou longues (Illumina, PacBio respectivement), ce qui permet une lecture complète du génome complet à différents niveaux, en fonction de la profondeur globale du séquençage (couverture) *. En faisant des calculs simples (3 x 30), une couverture moyenne de 30 fois donne environ 90 Go de données. Cependant, cela ne donne qu'une couverture moyenne théorique de 30X par base. C'est ce que l'on appelle une couverture 30X « brute ». Cela ne tient pas compte de l'efficacité des processus d'alignement du génome et de filtrage de la qualité.

Pour les expériences de reséquençage, pour lesquelles un génome de référence est disponible, les données sont mappées/alignées sur le génome de référence, comme c'est le cas pour les HWG. Cela permet d'identifier des variants dans un échantillon par rapport à un génome de référence. Le génome humain de référence le plus utilisé actuellement est le Consortium de référence sur le génome Human Build 38 (H 38), mais la référence peut varier d'une application à l'autre.

Si une partie des lectures de séquençage brutes est supprimée ou perdue pendant le processus d'alignement, la « profondeur de lecture cartographiée » après l'alignement sera inférieure à la « profondeur de lecture brute » avant l'alignement.

Cela signifie que vous n'atteindrez pas la couverture « cartographiée » 30X avec 90 Gbit/s de données. Les lectures rejetées peuvent être dues à une duplication (c'est-à-dire à des cycles de PCR), à des lectures non cartographiables, à une contamination, à la qualité de la base de séquençage (score de Phred) et à d'autres facteurs.

Après la cartographie, plusieurs statistiques sont utilisées pour évaluer la qualité des données cartographiées. Dans la plupart des rapports de données, des histogrammes sont utilisés pour montrer la plage de couverture et l'uniformité de la profondeur de séquençage.


En affichant le nombre de bases du génome de référence couvertes par un certain nombre de lectures dans un ensemble de données, vous pouvez visualiser la distribution de la couverture et évaluer la moyenne ou la profondeur moyenne de l'ensemble de données cartographié. La plupart des clients se soucient de cette « profondeur de séquençage cartographiée moyenne » ou de cette « profondeur moyenne cartographiée ».

En d'autres termes, la profondeur de lecture mappée fait référence au nombre total de bases séquencées ET alignées à une position de base de référence donnée.

Dans un histogramme de couverture de séquençage, les profondeurs de lecture sont affichées sur l'axe X, tandis que le nombre total de bases de référence couvertes par cette profondeur de lecture est affiché sur l'axe Y de gauche. Si la qualité du séquençage est bonne, le graphique prendra la forme d'une distribution de Poisson de forme normale avec un écart type aussi faible que possible, comme le montre l'histogramme de l'échantillon tiré d'un rapport d'analyse de base des macrogènes HWGS ci-dessous. La distribution réelle varie en fonction de l'espèce, de l'application, de la source de l'échantillon, de la profondeur du séquençage et d'autres paramètres et peut ne pas toujours suivre une distribution de Poisson propre en forme de cloche.

Coverage Histogram Graph
Figure 1 : L'échantillon qui a donné lieu à l'histogramme a été séquencé à une profondeur de 38,8 fois, soit un peu plus de 114 Go de données. Cela a permis d'obtenir une profondeur moyenne cartographiable de 34X. Dans cet exemple particulier, >103 Gbp auraient été nécessaires pour atteindre la profondeur moyenne cartographiable 30X souhaitée, soit >13 Gbps de plus que la valeur brute théorique de 30X de 90 Gbps. Sur l'axe Y de droite, vous pouvez trouver le pourcentage de bases couvertes à un certain niveau de couverture. Dans cet exemple, vous pouvez constater que plus de 95 % de toutes les bases de la référence sont couvertes à une profondeur supérieure à 20X suivant la profondeur de couverture cumulée.

Données mappées dans d'autres applications

Afin de garantir des données cartographiées moyennes multipliées par 30 dans les HWG pour les échantillons de lignée germinale, nous recommandons généralement un minimum de 110 Go de données.

Cependant, diverses applications alternatives ou sources d'échantillons nécessitent des mesures très différentes, qui dépendent de multiples facteurs.

Par exemple, les sources d'ADN dérivées du FFPE ou de la salive nécessitent un séquençage beaucoup plus approfondi afin d'obtenir les mêmes résultats cartographiés moyens. Cela est dû à la qualité de l'ADN (FFPE) ou à la contamination d'autres sources d'ADN (salive) qui affectent l'ensemble des lectures cartographiées, nécessitant souvent plus de 120 Go de données, pour atteindre la profondeur cartographiée moyenne souhaitée de 30X pour les HWG.

Un autre exemple est exome entier ou séquençage ciblé. La profondeur moyenne réelle requise dépend de l'efficacité de capture des sondes, de la taille cible des sondes, de l'effet hors cible, de la quantité/qualité des entrées et des cycles de PCR, entre autres facteurs. En règle générale, selon une règle empirique standard, les données cartographiées représentent 50 % des données brutes pour les approches ciblées. Par exemple, 100 fois la couverture brute = 50 fois la couverture cartographiée.

Un exemple encore plus difficile est le séquençage du génome entier au bisulfite pour évaluer la méthylation à l'échelle du génome. Nous recommandons généralement création de 2 bibliothèques distinctes et séquençage à une profondeur supérieure à 180 Go pour atteindre une couverture cartographiée moyenne multipliée par 30. Cela est dû au processus unique de traitement de l'ADN et de préparation de la bibliothèque.

En fonction de l'application et du matériel source, différents conseils seront donnés. La couverture cartographique moyenne requise dépend des besoins et des questions du client et est généralement unique par projet.

Par exemple, pour certaines analyses de mutations somatiques dans le cancer, une couverture cartographique moyenne aussi élevée que 1000X peut être recommandée pour une détection adéquate de la fréquence des variants alléliques, tandis que les variations du nombre de copies peuvent être détectées avec un séquençage superficiel aussi bas que 0,1X.

Quels que soient les besoins ou les variables, par exemple : application, choix du kit, reséquencement ou assemblage de Novo, lectures longues ou courtes, qualité et quantité, espèce, ploïdie et source ; nos consultants sont hautement qualifiés pour vous aider à choisir la couverture la mieux adaptée et la plus rentable à vos besoins spécifiques.

 

*Certaines parties du génome (humain) ne peuvent pas être couvertes de manière adéquate à l'aide du séquençage à lecture courte (Illumina). Ces régions, pour la plupart répétitives ou difficiles, sont appelées régions du génome sombre. D'autres méthodes sont disponibles pour couvrir ces régions à l'aide de lectures longues

Référence : Illumina - Couverture de séquençage pour NGS