Informations

L'erreur de séquençage est-elle fonction du nucléotide lu ?

L'erreur de séquençage est-elle fonction du nucléotide lu ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

En vérifiant sur Google Scholar, je peux voir que pour Illumina (juste pour prendre un exemple), le taux d'erreur de séquençage est de l'ordre de 0,001 à 0,01 par nucléotide.

En parlant d'erreur de séquençage, considérons uniquement les mésappariements (substitution d'un nucléotide par un autre). Connaissant le "vrai" nucléotide à une position donnée, est-il aussi susceptible d'être lu que tout autre nucléotide spécifique lors d'un décalage ou y a-t-il un biais ? Par exemple, si le vrai nucléotide estUNE, est-il plus susceptible d'être trouvé en tant queg(puisqu'ils sont tous les deux des purines) qu'unTou unC? Certains nucléotides sont-ils plus susceptibles d'être mal interprétés que d'autres ?

J'espère que la réponse ne dépendra pas trop des techniques de séquençage.


Malheureusement, cela dépend des techniques de séquençage.

Par exemple, dans le séquençage Illumina, chaque fragment de séquence est amplifié (afin d'obtenir un signal plus fort) et forme un cluster sur le microarray. Chaque cluster est séquencé par des cycles de :

  1. Ajout de nucléotides terminateurs fluorescents. Ces nucléotides sont modifiés pour contenir un groupe d'inhibition/de terminaison et empêchent l'ajout de plus de nucléotides. Théoriquement, un seul nucléotide est incorporé dans chaque fragment d'ADN au cours de cette étape.
  2. Laver les nucléotides en excès.
  3. Capturer le nucléotide incorporé à l'aide de techniques d'imagerie et déterminer quelle base a été incorporée (sur la base de la couleur de la fluorescence).
  4. Clivage du terminateur des nucléotides ajoutés, afin que la réaction puisse continuer.

Image de Metzker, 2010.

De cette façon, chaque fragment est synthétisé, un nucléotide à la fois, et chaque nucléotide incorporé est détecté. Cependant, la première étape n'est pas sans faille : parfois plus d'un nucléotide est incorporé dans un certain fragment d'ADN, ou aucun nucléotide n'est incorporé. Finalement, les fragments d'ADN dans un cluster (contenant tous la même séquence) se désynchroniseront (« phasing ») et le signal fluorescent deviendra moins clair, avec un mélange de couleurs différentes. C'est la principale cause d'erreur de séquençage pour les machines Illumina, et aussi la raison pour laquelle les lectures Illumina sont relativement courtes (~300bp).

Donc, pour répondre à votre question, dans cet exemple, les nucléotides peuvent être lus à tort comme des nucléotides proches dans cette séquence. Les erreurs varieront en utilisant d'autres méthodes de séquençage et la façon dont ces méthodes fonctionnent.

L'article que j'ai lié plus tôt explique différentes méthodes de séquençage plus en détail. (Malheureusement, il se trouve derrière un paywall, donc certains ne pourront peut-être pas le voir.)


Introduction

Les nucléotides sont les molécules biologiques qui servent de blocs de construction aux acides nucléiques comme l'ADN et l'ARN. Ils sont essentiels pour toutes les fonctions remplies par une cellule vivante. Non seulement cela, mais ils sont également essentiels pour transférer des informations vers de nouvelles cellules ou la prochaine génération d'organismes vivants.

Les nucléotides se rejoignent pour former des dinucléotides, des trinucléotides, etc., ce qui entraîne la formation de polymères appelés polynucléotides. Ces polynucléotides se rejoignent ensuite pour former des acides nucléiques complexes comme l'ADN et l'ARN. Dans cette section, nous discuterons des différents aspects des nucléotides, de leur structure, de leur emplacement dans les corps vivants, des arrangements chimiques et des fonctions qu'ils remplissent. Nous discuterons également en détail de certains nucléotides qui remplissent des fonctions importantes dans notre corps.


  • Les deux brins d'ADN sont de nature anti-parallèle, c'est-à-dire que l'extrémité 3&prime d'un brin fait face à l'extrémité 5&prime de l'autre brin.
  • Les nucléotides qui composent l'ADN contiennent une base azotée, un sucre désoxyribose et un groupe phosphate qui se lient de manière covalente avec d'autres nucléotides pour former des liaisons phosphodiester.
  • Les bases nucléotidiques peuvent être classées en purines (contenant une structure à double cycle) ou en pyrimidines (contenant une structure à un seul cycle).
  • L'adénine (purine) et la thymine (pyrimidine) sont des paires de bases complémentaires tout comme la guanine (purine) et la cytosine (pyrimidine).
  • Le séquençage de l'ADN est le processus consistant à déterminer l'ordre précis des nucléotides dans une molécule d'ADN.
  • désoxyribose: un dérivé du sucre pentose ribose dans lequel le 2&prime hydroxyle (-OH) est réduit en un hydrogène (H) un constituant des nucléotides qui composent l'acide désoxyribonucléique, ou ADN
  • liaison hydrogène: Une liaison faible dans laquelle un atome d'hydrogène déjà lié de manière covalente à un atome d'oxygène ou d'azote dans une molécule est attiré par un atome électronégatif (généralement l'azote ou l'oxygène) dans la même molécule ou une molécule différente.
  • nucléotide: le monomère comprenant des molécules d'ADN ou d'ARN est constitué d'une base hétérocyclique azotée qui peut être une purine ou une pyrimidine, un sucre pentose à cinq carbones, et un groupement phosphate

Les éléments constitutifs monomères de l'ADN sont des désoxyribomononucléotides (généralement appelés simplement nucléotides), et l'ADN est formé à partir de chaînes linéaires, ou polymères, de ces nucléotides. Les composants du nucléotide utilisé dans la synthèse de l'ADN sont une base azotée, un désoxyribose et un groupe phosphate. Le nucléotide est nommé en fonction de la base azotée présente. La base azotée peut être une purine telle que l'adénine (A) et la guanine (G), caractérisées par des structures à double cycle, ou une pyrimidine telle que la cytosine (C) et la thymine (T), caractérisées par des structures à un seul cycle. Dans les polynucléotides (les polymères linéaires des nucléotides), les nucléotides sont reliés les uns aux autres par des liaisons covalentes appelées liaisons phosphodiester ou liaisons phosphodiester.

Figure (PageIndex<1>) : Structure nucléotidique: Chaque nucléotide est composé d'un sucre, d'un groupement phosphate et d'une base azotée. Le sucre est le désoxyribose dans l'ADN et le ribose dans l'ARN. Sous leur forme mononucléotidique, les nucléotides peuvent avoir un, deux ou trois phosphates qui leur sont attachés. Lorsqu'ils sont liés entre eux dans des chaînes polynucléotidiques, les nucléotides n'ont toujours qu'un seul phosphate. Une molécule avec juste une base azotée et un sucre est connue sous le nom de nucléoside. Une fois qu'au moins un phosphate est lié de manière covalente, il est appelé nucléotide.

James Watson et Francis Crick, avec l'aide de Rosalind Franklin et Maurice Wilkins, sont reconnus pour avoir découvert la structure de l'ADN. Watson et Crick ont ​​proposé que l'ADN soit composé de deux brins polynucléotidiques qui sont enroulés l'un autour de l'autre pour former une hélice droite.

Les deux brins polynucléotidiques sont de nature anti-parallèle. C'est-à-dire qu'ils courent dans des directions opposées.

Les sucres et les phosphates des nucléotides forment le squelette de la structure, tandis que les paires de bases azotées sont pointées vers l'intérieur de la molécule.

La torsion des deux brins l'un autour de l'autre entraîne la formation de rainures majeures et mineures uniformément espacées bordées par les squelettes sucre-phosphate des deux brins.

Figure (PageIndex<1>) : Trois représentations de l'ADN à double structure hélicoïdale.: A est un modèle d'ADN rempli d'espace, où chaque atome est représenté comme une sphère. Les deux brins polynucléotidiques antiparallèles sont colorés différemment pour illustrer comment ils s'enroulent l'un autour de l'autre. B est un modèle d'ADN de bande dessinée, où les squelettes sucre-phosphate sont représentés par des brins violets et les bases azotées sont représentées par des anneaux codés par couleur. C est un autre modèle de remplissage d'espace, avec les atomes de sucre-phosphate colorés en violet et tous les atomes de base azotés colorés en vert. Les rainures majeures et mineures, qui s'enroulent autour de la molécule entière, sont apparentes comme les espaces entre les squelettes sucre-phosphate.

Le diamètre de la double hélice d'ADN est de 2 nm et est uniforme partout. Seul l'appariement entre une purine et une pyrimidine peut expliquer le diamètre uniforme. C'est-à-dire qu'à chaque point le long de la molécule d'ADN, les deux squelettes sucre phosphate sont toujours séparés par trois cycles, deux d'une purine et un d'une pyrimidine.

Les deux brins sont maintenus ensemble par appariement de bases entre les bases azotées d'un brin et les bases azotées de l'autre brin. L'appariement des bases a lieu entre une purine et une pyrimidine stabilisée par des liaisons hydrogène : A s'apparie avec T via deux liaisons hydrogène et G s'apparie avec C via trois liaisons hydrogène.

Les paires de bases intérieures tournent les unes par rapport aux autres, mais sont également empilées les unes sur les autres lorsque la molécule est observée en regardant vers le haut ou vers le bas de son axe long.

Chaque paire de bases est séparée de la paire de bases précédente par une hauteur de 0,34 nm et chaque tour de 360 ​​o de l'hélice parcourt 3,4 nm le long du grand axe de la molécule. Par conséquent, dix paires de bases sont présentes par tour d'hélice.

Figure (PageIndex<1>) : Structure de l'ADN: L'ADN a (a) une structure en double hélice et (b) des liaisons phosphodiester. Les sillons (c) majeurs et mineurs sont des sites de liaison pour les protéines de liaison à l'ADN au cours de processus tels que la transcription (la copie de l'ARN à partir de l'ADN) et la réplication.

Le séquençage de l'ADN est le processus de détermination de l'ordre précis des nucléotides dans une molécule d'ADN. Les méthodes de séquençage rapide de l'ADN ont considérablement accéléré la recherche et les découvertes biologiques et médicales. La connaissance des séquences d'ADN est devenue indispensable pour la recherche biologique fondamentale et dans de nombreux domaines appliqués tels que le diagnostic, la biotechnologie, la biologie médico-légale et la systématique biologique. La vitesse rapide de séquençage atteinte avec la technologie moderne a contribué à l'obtention de séquences d'ADN complètes, ou génomes, de nombreux types et espèces de vie, y compris le génome humain et ceux d'autres espèces animales, végétales et microbiennes.


La technique plus/moins

Alors que Sanger et son équipe avaient réussi à séquencer une partie substantielle de l'ADN f1, ils n'avaient pas terminé toute sa séquence. De plus, leur méthode était longue et laborieuse. Désireux de trouver une technique plus rapide qui lui permettrait de déterminer de plus grandes séquences d'ADN, Sanger a continué à chercher de nouvelles voies pour s'attaquer au problème.

En 1975, Sanger et son assistant Coulson publient un article ( Sanger, Coulson, 1975 ) dans lequel ils esquissent une approche radicalement différente de la précédente. Ce qui était nouveau dans leur technique, c'est qu'elle ne reposait pas sur la reconstitution d'une séquence basée sur l'examen des chevauchements dans de petits fragments d'ADN. De plus, il permettait le balayage visuel direct d'une séquence. Sanger et Coulson n'avaient pas développé la méthode du jour au lendemain. Elle est plutôt apparue progressivement à la suite de quelques expériences, lancées en avril 1973, destinées à tester l'action de différentes polymérases et l'efficacité de différentes techniques de fractionnement ( Sanger, Dowding, 1996 Garcia-Sancho, 2010 ).

Ces notes proviennent de l'expérience D80. Ce fut l'une des premières expériences de Sanger où il commença à tester la possibilité de copier avec les quatre désoxytriphosphates. Carnet de laboratoire d'ADN de Sanger, 1972. Crédit : Wellcome Library, dossier SA//BIO, P/1/42.

Dans cette note, Sanger enregistre le début d'une « expérience assez ambitieuse ». Le but de l'expérience, étiquetée D93, était de trouver un moyen d'étendre des fragments d'ADN, clivés avec une enzyme de restriction, par l'ajout des quatre nucléotides de l'ADN, qui devaient ensuite être séparés par ionophorèse sur gels et leurs séquences analysées. Les résultats de cette expérience étaient assez prometteurs. Sanger continuerait à affiner la méthode utilisée dans cette expérience avec l'aide de Coulson et Barrell. L'expérience a jeté les bases de la méthode du plus et du moins. Cahier de laboratoire d'ADN de Sanger, 1973-1974. Crédit : Wellcome Library, dossier SA//BIO, P/1/43.

Appelée finalement le système « plus/moins », la technique consistait en un certain nombre d'étapes différentes. Dans un premier temps, une amorce a été synthétisée. Il s'agissait d'une copie complémentaire d'une courte longueur de l'échantillon d'ADN à l'étude. Une fois fabriquée, l'amorce a été liée à une région complémentaire spécifique sur une matrice d'ADN simple brin afin de fournir un point de départ pour la synthèse d'ADN. Les brins combinés ont ensuite été incubés avec de la polymérase I (provenant de Escherichia coli) afin qu'il puisse ajouter des nucléotides radiomarqués à l'extrémité 3' de l'amorce. Ce processus a fourni un assortiment aléatoire de fragments d'ADN synthétisés de différentes longueurs. Chacun a été purifié pour éliminer les nucléotides en excès.

Après purification, les échantillons ont été répartis entre deux traitements. Le premier traitement, connu sous le nom de système « moins », s'appuyait sur la méthode de copie mise au point par Wu et Kaiser. Dans ce cas, l'échantillon a été incubé dans un tube à essai avec de l'ADN polymérase I (provenant de Escherichia coli) avec seulement trois nucléotides d'ADN sur quatre (A, C, G ou T). Un nucléotide a été délibérément soustrait à ce processus d'incubation. Cela a profité du processus biologique naturel, par lequel la polymérase continuera à synthétiser une chaîne d'ADN jusqu'à ce qu'elle rencontre un nucléotide manquant. Dans le cas par exemple où l'adénine est absente, la polymérase va synthétiser un chapelet de nucléotides, s'arrêtant juste avant ce nucléotide. En omettant un nucléotide particulier, un à la fois, l'équipe a pu obtenir des produits d'ADN avec des terminaisons nucléotidiques spécifiques.

Contrairement au système "moins", qui reposait sur l'élimination d'un nucléotide spécifique, le deuxième traitement, le système "plus" reposait sur l'ajout d'un nucléotide pendant le processus d'incubation. Développé par Paul Englund entre 1971 et 1972, le système « plus » utilisait une polymérase différente, la T4. Cela provenait du bactériophage T4. Dans des circonstances normales, cette polymérase agit comme un réactif de synthèse. Cependant, il commencera à dégrader un brin d'ADN à partir de son extrémité 3' lorsqu'il rencontrera un nucléotide supplémentaire. Comme dans le cas du système « moins », le système « plus » a produit des fragments d'ADN avec des terminaisons nucléotidiques spécifiques.

Tests d'enregistrement de notes de Coulson avec la polymérase T4. Crédit : Wellcome Library, Coulson papers, dossier : PP/COU, Notebook 'Plus and minus sequencing, T4 polymerase preparations', 1976.

Les deux systèmes reposaient sur la préparation de quatre réactions en tube à essai avec les deux types différents de polymérase. Après traitement, les amorces ont été séparées de la matrice. Cela a fourni huit brins d'ADN différents. Quatre d'entre eux provenaient de la matrice, connue sous le nom de brins moins, et quatre provenaient de l'amorce, connue sous le nom de brins plus. Le résultat final était une série de fragments se chevauchant avec chacune des terminaisons nucléotidiques (A, C, G, T).

Chaque fragment d'ADN a ensuite été placé côte à côte dans des voies séparées sur un gel d'acrylamide prêt pour l'ionophorèse. Suite à l'application d'une charge électrique, les fragments d'ADN migreraient du haut vers le bas du gel, les plus gros fragments se déplaçant plus lentement que les plus petits. Dans ce contexte, le gel a agi comme un tamis qui a permis de trier les fragments par leur taille. Une fois cette opération terminée, un film radiographique a été superposé sur le gel pendant un certain temps, généralement pendant la nuit, puis développé pour produire une autoradiographie, qui a révélé la position des nucléotides radioactifs marqués dans les fragments. L'image finale montrait une série de bandes sombres dans un motif en échelle qui mettait en évidence l'endroit où les fragments se chevauchaient ( Hutchison, 2007 Finch, 2008 ).

L'utilisation de gel d'acrylamide pour l'analyse des séquences a marqué un changement significatif. Auparavant, Sanger avait généralement effectué ce travail en utilisant la chromatographie sur papier bidimensionnelle. Cependant, cela prenait beaucoup de temps car cela impliquait de nombreuses coupures de groupes. L'un des attraits de l'utilisation du système de gel d'acrylamide était qu'il fournissait une lecture unidimensionnelle d'une séquence. La décision d'utiliser des gels pour fractionner l'ADN avait d'abord semblé une idée folle à Sanger. Alors que les gels étaient couramment utilisés pour séparer les protéines intactes ainsi que l'ADN et les fragments d'ADN, ils n'avaient jamais été utilisés auparavant pour séparer des acides nucléiques individuels (Sanger, 1992).

Cela montre John Donelson qui a joué un rôle central dans le développement du système de gel d'acrylamide pour le système plus et moins. Crédit : John Donelson.

Lorsqu'ils ont commencé à développer la méthode plus et moins, Sanger et Coulson ont largement effectué le fractionnement par homochromatographie. Cependant, ils se sont rapidement tournés vers Donelson pour l'aider dans le processus, ce qu'il a fait en utilisant un système à base de gel d'acrylamide qu'il développait pour d'autres expériences. Au début, ce système avait semblé peu prometteur car les résultats initiaux n'étaient que légèrement meilleurs que ceux obtenus par homochromatographie. Certains progrès ont été réalisés grâce à l'adoption de gels plus gros. Cela a produit des bandes plus nettes dans les autoradiographies. Pourtant, les problèmes de dentition ont continué. À plusieurs reprises, les fragments les plus gros ont couru plus vite que les plus petits. Cela a complètement bouleversé la séquence. De plus, en testant le système avec de l'ADN synthétisé avec la méthode de ribosubstitution pour laquelle une séquence était déjà connue, ils ont continué à obtenir des séquences inversées. Ils l'ont attribué à une structure secondaire dans la matrice d'ADN. Finalement, après de nombreux essais et erreurs, le problème a été résolu par l'ajout d'urée 8M, un produit chimique, et l'application d'une haute tension, dont la combinaison a rendu le gel chaud. Après tous ces changements, l'équipe a commencé à obtenir des résultats beaucoup plus clairs qu'avec la chromatographie sur papier ( Sanger, 1992 Sanger, Dowding, 1996 ).

La combinaison de la méthode plus et moins en tandem avec le système de fractionnement à base de gel d'acrylamide a été un grand pas en avant. Désormais, une séquence pouvait être lue directement à partir d'une autoradiographie. Cela a été fait en balayant l'image de bas en haut, en notant où les bandes sombres, le produit de la radioactivité, sont apparues. Tout cela pourrait être fait à l'œil nu. Sanger considérait cette nouvelle approche comme l'une des meilleures idées qu'il ait jamais eues. La nouvelle méthode a non seulement permis aux chercheurs de scanner directement une séquence d'ADN, mais également de déterminer des tronçons beaucoup plus longs que jamais auparavant, 50 nucléotides à la fois. Il a également marqué un départ de l'utilisation de la dégradation à une procédure de copie. (Sanger, 1988 Finch, 2008).


L'erreur de séquençage est-elle fonction du nucléotide lu ? - La biologie

La région des séquences nucléotidiques du codon de départ (ATG) au codon d'arrêt est appelée cadre de lecture ouvert.

La recherche de gènes dans l'organisme, en particulier les procaryotes, commence par la recherche d'un cadre de lecture ouvert (ORF). Un ORF est une séquence d'ADN qui commence par le codon de départ &ldquoATG&rdquo (pas toujours) et se termine par l'un des trois codons de terminaison (TAA, TAG, TGA). Selon le point de départ, il existe six manières possibles (trois sur le brin avant et trois sur le brin complémentaire) de traduire n'importe quelle séquence nucléotidique en séquence d'acides aminés selon le code génétique. On les appelle cadres de lecture.

Alors que la recherche de gènes eucaryotes est une tâche tout à fait différente, car les gènes eucaryotes ne sont pas continus et interrompus par des séquences non codantes intermédiaires appelées &lsquointrons&rsquo. De plus, l'organisation de l'information génétique chez les eucaryotes et les procaryotes est différente

Qu'est-ce que la séquence de codage (CDS) ? En quoi est-il différent de l'ORF ?

La séquence codante (CDS) est la région réelle de l'ADN qui est traduite pour former des protéines. Alors que l'ORF peut également contenir des introns, le CDS fait référence aux nucléotides (exons concaténés) qui peuvent être divisés en codons qui sont réellement traduits en acides aminés par la machinerie de traduction ribosomique. Chez les procaryotes, l'ORF et le CDS sont les mêmes.


L'erreur de séquençage est-elle fonction du nucléotide lu ? - La biologie

Les réactions de séquençage de l'ADN utilisent toutes une amorce pour initier la synthèse de l'ADN. Cette amorce déterminera le point de départ de la séquence en cours de lecture et la direction de la réaction de séquençage.

La plupart des réactions de séquençage d'ADN utilisent des didésoxy nucléotides (ddNTP) pour arrêter la synthèse d'ADN au niveau de nucléotides spécifiques. Par exemple, si le ddCTP à droite est incorporé dans un brin d'ADN en croissance, l'absence d'un groupe 3 OH libre empêcherait l'ajout du nucléotide suivant et la chaîne se terminerait.

Dans le séquençage automatisé, nous utilisons un marqueur fluorescent différent attaché à chacun des quatre nucléotides didésoxy (ddA, ddC, ddG et ddT). Ainsi, nous pouvons déterminer la base terminale dans chaque fragment d'ADN.

Les deux animations ci-dessous illustrent comment la synthèse d'ADN et la terminaison didésoxy sont utilisées pour séquencer l'ADN.

Une animation Quicktime montrant comment les didésoxy nucléotides sont incorporés dans l'ADN dans les réactions de séquençage.

Une animation Shockwave du séquençage didésoxy de Cold Spring Harbor. http://www.dnalc.org/ddnalc/resources/sangerseq.html

Une animation Shockwave du séquençage automatisé du thermocycle depuis Cold Spring Harbor. http://www.dnalc.org/ddnalc/resources/cycseq.html

Exemples de gels issus du séquençage automatisé (à gauche) et du séquençage manuel (à droite).

Le séquençage automatisé utilise un colorant fluorescent différent attaché à chaque ddNTP.

Le séquençage manuel utilise du dATP radiomarqué (35-S ou 33-P) pour marquer l'ADN. L'échantillon est ensuite divisé en quatre tubes contenant chacun un ddNTP individuel. Les échantillons sont ensuite soumis à une électrophorèse sur gel d'acrylamide suivie d'une autoradiographie.


Fond

Les technologies de séquençage de nouvelle génération (NGS) fournissent un séquençage abordable, fiable et à haut débit de l'ADN, et permettent de cataloguer de manière exhaustive les variations génétiques dans les génomes humains. La variation d'un seul nucléotide est l'une des variations génétiques les plus courantes chez les individus humains. Les variantes mononucléotidiques peuvent en outre être interprétées comme des SNV de lignée germinale, c'est-à-dire des polymorphismes mononucléotidiques (SNP), dans des cellules normales ou des SNV somatiques dans des cellules cancéreuses/tumorales. À ce jour, une variété de méthodes de calcul ont été développées pour appeler des SNV germinales ou somatiques à partir des données de lecture NGS et une ligne de pile typique basée sur NGS comprend : (je) contrôle de qualité de lecture de séquence (par exemple, correction d'erreur de lecture et suppression des doublons) (ii) aligner les lectures de séquences d'un ou plusieurs échantillons sur le génome en utilisant des aligneurs principaux (par exemple [1–4]) (iii) réaligner les lectures autour des indels pour faciliter l'appel indel (iv) appellent des variantes à l'aide de méthodes probabilistes (par exemple, modèle bayésien) et (v) évaluer la signification statistique des variantes appelées et rapporter les résultats. Notez que certaines méthodes appellent également des indels avec les SNV.

Un certain nombre d'appelants SNV à échantillon unique ont été développés pour NGS, et les appelants représentatifs incluent MAQ [5], SOAPsnp [6], SAMtools [7], SNVMix [8], GATK [9] et FaSD [10]. Les décomptes d'allèles des modèles MAQ, SOAPsnp et FaSD sur chaque site sous forme de distribution binomiale, tandis que SNVMix utilise une distribution binomiale mixte. Les quatre appelants identifient les SNV en calculant des probabilités postérieures bayésiennes. SAMtools et GATK utilisent tous deux la probabilité bayésienne et prennent en charge le traitement des données regroupées. Il convient de noter que ces appelants SNV peuvent en fait être appliqués pour identifier toute variation génétique d'un seul nucléotide chez un individu, y compris les variantes germinales et somatiques, bien que ciblant à l'origine les SNP. De plus, certains de ces outils n'appellent pas d'indels. Reportez-vous à [11] pour plus de détails sur la recherche de pointe sur le génotypage et l'appel SNV à échantillon unique.

Par rapport à l'appel SNV de la lignée germinale, l'appel SNV somatique est plus difficile car son objectif est d'identifier les allèles qui apparaissent dans la tumeur, mais ne se produisent pas dans la lignée germinale de l'hôte. En d'autres termes, nous devons en outre distinguer les polymorphismes germinaux des polymorphismes somatiques sur les sites contenant des variants. Une approche [8] consiste à appeler d'abord les SNV dans la tumeur à l'aide d'appelants SNP conventionnels, puis à cribler les SNV prédits par rapport aux bases de données SNP publiques, par ex. dbSNP [12]. Malheureusement, cette approche est contestée par le nombre considérable de nouveaux SNV trouvés chez les individus, par ex. [13] ont rapporté que 10 à 50 % des SNV par individu sont des événements nouveaux. Dans ce cas, les mutations germinales non cataloguées dans les bases de données publiques seraient faussement identifiées comme des mutations somatiques.

Une approche plus fiable pour détecter les mutations somatiques consiste à appeler des variantes à la fois dans un échantillon de tumeur et dans son échantillon normal correspondant. Les approches utilisées par les appelants somatiques SNV existants peuvent être classées en deux catégories : la soustraction simple et l'analyse conjointe d'échantillons. L'approche de soustraction simple génotype séparément les échantillons normaux et tumoraux à chaque site, puis classe le site comme somatique si le génotype de la normale est homozygote de référence et que le génotype de la tumeur contient des allèles alternatifs à la base de référence. Cela suggère également que les appelants basés sur une simple soustraction peuvent utiliser directement des appelants SNV à échantillon unique bien établis tels que SAMtools et GATK. Cette approche de soustraction simple peut fournir une prédiction raisonnable pour les paires d'échantillons avec une fréquence allélique somatique élevée et une pureté des données. Cependant, il a été observé que les mutations somatiques sont répandues à faible fréquence dans les échantillons cliniques [14]. Dans ce cas, toute tendance à confondre les mutations germinales avec les mutations somatiques peut potentiellement contaminer la découverte des SNV somatiques. D'autre part, il existe des variations dans la fréquence des allèles somatiques d'un site à l'autre ou d'un échantillon à l'autre, qui sont souvent causées par un mélange substantiel de cellules normales dans l'échantillon tumoral, des variations du nombre de copies et l'hétérogénéité tumorale. À cet égard, une analyse conjointe des deux échantillons devrait être capable d'améliorer encore les performances, en facilitant les tests simultanés d'allèles dans les deux échantillons et en permettant une représentation plus complète des impuretés tumorales et des données bruyantes. Plusieurs appelants somatiques SNV ont été développés sur la base d'une analyse d'échantillons conjointe, notamment VarScan2 [15], SomaticSniper [16], JointSNVMix2 (JSM2) [17], Strelka [18], MuTect [19] et FaSD-somatic [20]. Bien qu'utilisant une approche de soustraction simple au cœur, VarScan2 a été le premier à évaluer conjointement la signification statistique des informations de fréquence allélique dans des échantillons normaux pour la tumeur. SomaticSniper, JSM2, Strelka, MuTect et FaSD-somatic utilisent tous des modèles bayésiens pour analyser conjointement la paire tumeur-normale, tout en adoptant diverses procédures ou formules spécifiques. De plus, contrairement à d'autres appelants somatiques qui se concentrent uniquement sur les appels SNV, VarScan2 fournit une prise en charge supplémentaire des appels indel somatiques.

Dans cet article, nous présentons SNVSniffer, une solution intégrée pour l'identification rapide et efficace des SNV/indels germinaux et somatiques. Cet algorithme s'appuie sur l'inférence de génotypes à l'aide de modèles probabilistes bayésiens pour identifier les SNV et a étudié une approche d'alignement multiple (MUA) pour appeler des indels. Pour l'appel de variantes de lignée germinale, sur chaque site, nous modélisons son vecteur de comptage d'allèles pour suivre une distribution conditionnelle multinomiale, puis nous sélectionnons le génotype le plus probable en calculant les probabilités postérieures bayésiennes. Pour l'appel de variantes somatiques, nous utilisons des échantillons tumoraux normaux appariés d'individus identiques, et à chaque site apparié, nous considérons que le vecteur de comptage d'allèles dans la normale est un mélange de bases de référence, de variantes de lignées germinales diploïdes ou de bases artificielles (par exemple à partir de cycles de séquençage ou processus d'alignement), et le vecteur de comptage des allèles dans la tumeur est un mélange de bases de cellules normales et de variantes somatiques en plus des bases artificielles. De plus, nous étudions une approche d'appel somatique hybride de SNV en combinant une analyse de soustraction avec une analyse d'échantillon conjointe, où l'analyse d'échantillon conjointe modélise le vecteur de comptage d'allèles conjoint de la paire tumeur-normale pour suivre une distribution multinormale conjointe. Pour la comparaison des performances, nous avons utilisé les benchmarks SMASH [21] et GCAT [22] pour l'appel de variantes germinales, et avons utilisé des tumeurs synthétiques à partir de données simulées, des tumeurs virtuelles [19] à partir de données de séquençage réelles, et de vraies tumeurs de souris et humaines pour la recherche somatique. variante d'appel. Grâce à nos évaluations, en termes d'appel de variantes de lignée germinale, SNVSniffer démontre une précision très compétitive et une vitesse plus rapide que les algorithmes les plus performants de FaSD, GATK et SAMtools. Pendant ce temps, en termes d'appel de variantes somatiques, notre algorithme atteint une précision comparable ou même meilleure par rapport aux principaux algorithmes VarScan2, SomaticSniper, JSM2 et MuTect, tout en démontrant une vitesse très compétitive.


Explications non adaptatives de l'évolution rapide

Le renouvellement de la séquence fonctionnelle et les changements alléliques dans le répertoire des gènes n'ont pas besoin d'améliorer la capacité de reproduction. Au lieu de cela, de nombreux changements ont été délétères, mais n'ont pas été supprimés par sélection négative (revue dans [10, 57]). En particulier, les allèles qui n'ont qu'un effet négatif modeste sur la fitness (petit coefficient de sélection négatif, s) n'aura une forte probabilité d'être éliminée d'une espèce que lorsque sa taille effective de population (N e) est grand (Fig. 6). A l'inverse, quand N e est petit, comme c'est le cas pour l'homme moderne, alors les variantes faiblement délétères ont plus de chances d'être retenues. Cela implique que de nombreuses variantes qui perturbent ou suppriment des gènes, en particulier celles qui ne présentent que des changements subtils du phénotype de l'organisme, auront été corrigées malgré leur effet délétère.

Variation de l'efficacité de la sélection. La sélection purificatrice est de plus en plus inefficace pour les allèles de faible coefficient de sélection s au sein d'espèces de tailles effectives de population relativement petites N e, conduisant à un taux croissant d'accumulation de changements délétères. Le graphique montre la probabilité de fixation d'une nouvelle variante par rapport à l'attente neutre (Axe Y) en tant que fonction de N e s pour s = −10 −5 (modifié de [10]). Pour des valeurs plus élevées, telles que N e = 10 5 , la probabilité de fixation par rapport à l'attente neutre est faible à environ 7 %. Néanmoins, dans une population dix fois plus petite N e cette probabilité monte à 81%

Une évolution rapide pourrait également refléter des taux de mutation plus élevés que la moyenne. Les séquences à forte teneur en dinucléotides CpG, y compris la séquence codant pour les protéines, évoluent particulièrement rapidement en raison d'un taux élevé de mutation de la forme méthylée de CpG en TpG et CpA dans les génomes germinaux [58,59,60]. La séquence située dans les régions hautement recombinées du génome évolue également particulièrement rapidement, un gène de souris connaissant une multiplication par 100 en raison de ce phénomène de conversion génique biaisée [61, 62]. Les régions fonctionnelles du génome non codant peuvent également muter rapidement en raison de facteurs liés à l'ADN bloquant le déplacement de la séquence polymérase-α sujette aux erreurs pendant la réplication [63]. L'identification des séquences sous sélection positive due à l'adaptation est ainsi rendue plus complexe car non seulement le modèle neutre classique, mais aussi les modèles rendant compte de ces biais mutationnels, doivent être rejetés.


Qu'est-ce qu'une mutation

Une mutation fait référence à un changement permanent et héréditaire dans la séquence nucléotidique du génome. Des mutations peuvent survenir en raison d'erreurs de réplication de l'ADN ou de facteurs externes appelés mutagènes. Les trois formes de mutations sont les mutations ponctuelles, les mutations de décalage du cadre de lecture et les mutations chromosomiques.

Mutations ponctuelles

Les mutations ponctuelles sont des substitutions de nucléotides simples. Les trois types de mutations ponctuelles sont les mutations faux-sens, non-sens et silencieuses. Mutation faux-sens modifie un seul codon du gène, modifiant l'acide aminé dans la chaîne polypeptidique. Bien que mutations absurdes modifient la séquence de codons, ils ne modifient pas la séquence d'acides aminés. Mutations silencieuses modifier un seul codon en un autre codon qui représente le même acide aminé. Les mutations ponctuelles sont causées par des erreurs dans la réplication de l'ADN et par des mutagènes. Différents types de mutations ponctuelles sont présentés dans Figure 1.

Figure 1 : Mutations ponctuelles

Mutations de décalage de cadre

Les mutations de décalage du cadre de lecture sont des insertions ou des suppressions d'un ou de plusieurs nucléotides du génome. Les insertions, les suppressions et les duplications sont les trois types de mutations par décalage du cadre de lecture. Insertions sont l'ajout d'un ou plusieurs nucléotides à la séquence tout en suppressions are the removal of several nucleotides from the sequence. Duplications are the repeating of several nucleotides. Frameshift mutations are also caused by errors in the DNA replication and by mutagens.

Mutations chromosomiques

Chromosomal mutations are alterations of segments of chromosomes. The types chromosomal mutations are translocations, gene duplications, intra-chromosomal deletions, inversions, and loss of heterozygosity. Translocations are the interchanges of parts of chromosomes between nonhomologous chromosomes. In gene duplication, multiple copies of a particular allele may appear, increasing the gene dosage. The removals of segments of chromosomes are known as intra-chromosomal deletions.Inversions change the orientation of a chromosome segment. Heterozygosity of a gene can be lost due to the loss of an allele in one chromosome by deletion or genetic recombination. Chromosomal mutations are mainly caused by external mutagens and due to mechanical damages to DNA.


This process involves a mixture of techniques: bacterial cloning or PCR template purification labelling of DNA fragments using the chain termination method with energy transfer, dye-labelled dideoxynucleotides and a DNA polymerase capillary electrophoresis and fluorescence detection that provides four-colour plots to reveal the DNA sequence.

A quality measure for a sequenced genome. A finished-grade genome, commonly referred to as a finished genome, is of higher quality than a draft-grade genome, with more base coverage and fewer errors and gaps (for example,the human genome reference contains 2.85 Gb, covers 99% of the genome with 341 gaps, and has an error rate of 1 in every 100,000 bp).

This recombinant DNA molecule is made up of a known region, usually a vector or adaptor sequence to which a universal primer can bind, and the target sequence, which is typically an unknown portion to be sequenced.

Assays that use next-generation sequencing technologies. They include methods for determining the sequence content and abundance of mRNAs, non-coding RNAs and small RNAs (collectively called RNA–seq) and methods for measuring genome-wide profiles of immunoprecipitated DNA–protein complexes (ChIP–seq), methylation sites (methyl–seq) and DNase I hypersensitivity sites (DNase–seq).

This Review mostly describes technology platforms that are associated with a respective company, but the Polonator G.007 instrument, which is manufactured and distributed by Danaher Motions (a Dover Company), is an open source platform with freely available software and protocols. Users manufacture their own reagents based on published reports or by collaborating with George Church and colleagues or other technology developers.

A fragment library is prepared by randomly shearing genomic DNA into small sizes of <1kb, and requires less DNA than would be needed for a mate-pair library.

A genomic library is prepared by circularizing sheared DNA that has been selected for a given size, such as 2 kb, therefore bringing the ends that were previously distant from one another into close proximity. Cutting these circles into linear DNA fragments creates mate-pair templates.

This occurs with step-wise addition methods when growing primers move out of synchronicity for any given cycle. Lagging strands (for example, m − 1 from the expected cycle) result from incomplete extension, and leading strands (for example, m + 1) result from the addition of multiple nucleotides or probes in a population of identical templates.

Dark nucleotides or probes

A nucleotide or probe that does not contain a fluorescent label. It can be generated from its cleavage and carry-over from the previous cycle or be hydrolysed in situ from its dye-labelled counterpart in the current cycle.

Total internal reflection fluorescence

A total internal reflection fluorescence imaging device produces an evanescent wave that is, a near-field stationary excitation wave — with an intensity that decreases exponentially away from the surface. This wave propagates across a boundary surface, such as a glass slide, resulting in the excitation of fluorescent molecules near (<200 nm) or at the surface and the subsequent collection of their emission signals by a detector.

Libraries of mutant DNA polymerases

Large numbers of genetically engineered DNA polymerases can be created by either site-directed or random mutagenesis, which leads to one or more amino acid substitutions, insertions and/or deletions in the polymerase. The goal of this approach is to incorporate modified nucleotides more efficiently during the sequencing reaction.

These are only useful for single-molecule techniques and are produced by sequencing the same template molecule more than once. The data are then aligned to produce a 'consensus read', reducing stochastic errors that may occur in a given sequence read.

An oligonucleotide sequence in which one interrogation base is associated with a particular dye (for example,A in the first position corresponds to a green dye). An example of a one-base degenerate probe set is '1-probes', which indicates that the first nucleotide is the interrogation base. The remaining bases consist of either degenerate (four possible bases) or universal bases.

An oligonucleotide sequence in which two interrogation bases are associated with a particular dye (for example, AA, CC, GG and TT are coded with a blue dye). '1,2-probes' indicates that the first and second nucleotides are the interrogation bases. The remaining bases consist of either degenerate or universal bases.

A nucleotide substitution will have two colour calls, one from the 5′ position and one from the 3′ position of the dinucleotide sequence. When compared with a reference genome, base substitution in the target sequence is encoded by two specific, adjacent colours. In Figure 3b, the sequence 'CCT' is encoded as blue-yellow ('CC' = blue 'CT' = yellow), but substituting the middle 'C' for 'A' would result in two colour changes to green-red. Any other colour sequence can be discarded as an error.

With two-base-encoded probes, the fluorescent signal or colour obtained during imaging is associated with four dinucleotide sequences having a 5′- and 3′-base. Colour space is the sequence of overlapping dinucleotides that codes four simultaneous nucleotide sequences. Alignment with a reference genome is the most accurate method for translating colour space into a single nucleotide sequence.

Zero-mode waveguide detectors

This nanostructure device is 100 nm in diameter, which is smaller than the 532 nm and 643 nm laser wavelengths used in the Pacific Biosciences platform. Light cannot propagate through these small waveguides, hence the term zero-mode. These aluminium-clad waveguides are designed to produce an evanescent wave (see the 'total internal reflection fluorescence' glossary term) that substantially reduces the observation volume at the surface of the polymerase reaction down to the zeptolitre range (10 −21 l). This provides an advantage for the polymerization reaction, which can be performed at higher dye-labelled nucleotide concentrations.

Fluorescence resonance energy transfer

This is generally a system that consists of two fluorescent dyes, one being a donor dye (a bluer fluorophore) and the other an acceptor dye (a redder fluorophore). When the two dye molecules are brought into close proximity (usually ≤30 nm), the energy from the excited donor dye is transferred to the acceptor dye, increasing its emission intensity signal.

All sequence variants other than single-nucleotide variants, including block substitutions, insertions or deletions, inversions, segmental duplications and copy-number differences.

A project aimed at discovering rare sequence variants with minor allele frequencies of 1% in normal genomes derived from HapMap samples.

A project aimed at developing and validating cost-effective, high-throughput technologies for resequencing all of the protein-coding regions of the human genome.

The study of communities of mixed microbial genomes that reside in animals, plants and environmental niches. Samples are collected and analysed without the need to culture isolated microbes in the laboratory. The Human Microbiome Project aims to characterize a reference set of microbial genomes from different habitats within the human body, including nasal, oral, skin, gastrointestinal and urogenital regions, and to determine how changes in the human microbiome affect health and disease.

A project aimed at discovering single-nucleotide variants and structural variants that are associated with major cancers, such as brain cancer (glioblastoma multiforme), lung cancer (squamous carcinoma) and ovarian cancer (serous cystadenocarcinoma).

A project aimed at providing open access to human genome sequences from volunteers and to develop tools for interpreting this information and correlating it with related personal medical information.


Voir la vidéo: DNA-molekylens struktur och funktion gammal (Juin 2022).


Commentaires:

  1. Raedan

    Je pense, qu'est-ce que c'est - une fausse façon. Et à partir de là, il est nécessaire de désactiver.

  2. Paegastun

    Je pense qu'il y en a.

  3. Devland

    Je suis absolument d'accord avec vous. L'idée est bonne, je la soutiens.



Écrire un message