Enjeux
La soudaine accélération du séquençage du génome humain
"Le projet international "Génome Humain" a été lancé dès 1990 avec, aux États-Unis, un budget de 18 milliards de francs sur quinze ans.
Ce programme se fondait notamment sur une carte physique, localisant géographiquement les gènes sur la molécule d'ADN: elle avait été dressée à 70 % par le Professeur Daniel Cohen, chercheur au Centre d'études du polymorphisme humain (CEPH) et au Généthon, le laboratoire de l'Association française contre les myopathies (AFM), puis achevée avec le concours des chercheurs de l'Institut de technologie du Massachusetts (MIT).
Il se fondait également sur une carte génétique, situant les gènes selon leur fonction, établie par le Professeur Jean Weissenbach, actuellement directeur général du Centre national français de séquençage.
Afin que les travaux soient menés le plus rationnellement possible, tous les responsables des centres nationaux d'étude du génome se réunirent aux Bermudes en 1996 et procédèrent au "partage" du génome afin de répartir son séquençage, chaque équipe étant chargée d'un chromosome entier ou d'une région particulière du génome.
La France, à cette époque, se montra hésitante et ce n'est qu'en 1998 qu'elle se vit confier le séquençage des chromosomes 3 et 14 (elle a ensuite renoncé au séquençage du chromosome 3).
Jusqu'en 1998, dans le cadre du programme international public Génome Humain, une fraction de 10 % des gènes a été séquencée.
Or, depuis un an, ce programme fait l'objet d'une accélération fulgurante. Le 15 mars 1999, les Instituts nationaux de la santé américaine (NIH) ont annoncé que le projet international de décryptage du génome humain avait achevé avec succès sa phase d'essai et que le financement du séquençage de l'ADN à grande échelle était décidé. Les échéances annoncées sont proches: un an pour l'ébauche globale, prévue pour le printemps 2000 et trois à quatre ans pour l'aboutissement d'un séquençage définitif de grande qualité (moins d'une erreur tous les cent mille nucléotides), prélude à la compréhension des protéines sécrétées.
Pour parvenir à ces résultats, les NIH ont réparti 493 millions de francs entre les trois plus grands groupes publics impliqués dans le séquençage:
- Whitehead Institute à Cambridge (Massachusetts);
- Washington University School of Medicine à Saint-Louis (Missouri);
- Baylor College of Medicine à Houston (Texas).
L'institut américain du génome, du département de l'énergie (Joint Genome Institute of the US Department of Energy, à Walnut Creek, California) a associé ses efforts à ceux de ces trois grands centres.
Dans le même temps, la fondation britannique Wellcome Trust a annoncé le versement, dans les douze mois à venir, d'une somme de 460 millions de francs au Centre Sanger (Royaume-Uni). Le Centre Sanger a été fondé en 1993 par le Wellcome Trust (la plus grande association mondiale pour la recherche médicale) et le Medical Research Council. C'est l'un des centres les plus productifs du monde ; il devrait produire, à lui seul, un tiers du séquençage du génome humain en 2001.
Les raisons de cette brusque accélération du décryptage du génome humain sont de deux ordres.
- Tout d'abord, le progrès technique a permis d'accroître les vitesses de séquençage : en 1992 les chercheurs identifiaient un million de bases par an. À ce rythme, il aurait fallu près d'un siècle pour achever le séquençage du génome humain. À l'heure actuelle, la vitesse de séquençage est dix fois plus élevée, grâce à des appareils tels que les Mega Bace 1000 ou les Abi Prism 3700. Non seulement on peut séquencer beaucoup plus vite, mais aussi beaucoup moins cher : le coût de la base séquencée est passé de 5 dollars en 1990 aux États-Unis à 50 cents aujourd'hui.
- Par ailleurs, cette accélération est liée à la "course" récemment née entre la recherche publique internationale et le secteur privé.
Le généticien américain Craig Venter a fait sensation en annonçant, le 9 mai 1998: "J'ai un plan pour achever de façon substantielle le séquençage du génome humain dans les trois ans à venir ". Pour ce faire, le fondateur de l'Institut de recherche génomique (TIGR à Rockville, Maryland) a créé une société privée, la firme Celera Genomics, en s'associant au géant américain de l'électronique, Perkin Elmer. Celera Genomics s'est équipée de 230 séquenceurs Abi-Prism 3700 dont le prix unitaire est de 300 000 dollars.
Puis la société Incyte Genetics créée en août 1998 par Incyte Pharmaceuticals, pour concurrencer Celera Genomics, a annoncé qu'elle séquencerait et cartographierait le génome humain d'ici 2001. Elle utilise des séquenceurs Mega Bace 1000 et a déjà établi de fortes relations commerciales avec plus de vingt grandes compagnies pharmaceutiques à travers le monde pour leur vendre les informations issues de ses recherches.
Cette émergence du secteur privé explique en grande partie le récent et massif engagement de la recherche publique internationale: il existe de grandes différences entre les objectifs des uns et des autres.
La divergence des approches publiques et privées dans le séquençage du génome humain
Deux logiques de recherche différentes
Les sociétés privées ont une stratégie de séquençage aléatoire sans cartographie préalable qui se veut rapide et puissante. Toutefois leur technique peut éventuellement se révéler peu efficace et en tout état de cause elle produit un séquençage "à trous".
Le séquençage aléatoire rapide sans cartographie préalable n'a jusqu'alors démontré son efficacité que sur des génomes simples et pourrait marquer ses limites pour des génomes plus grands.
Aussi, Celera Genomics, avant de décrypter le génome humain, va tester sa méthode en séquençant le génome de la mouche du vinaigre
Drosophila melanogaster (120 millions de bases). Si cette technique échoue pour la drosophile, elle a peu de chance de réussir pour le génome humain, infiniment plus important et plus complexe. Et même si elle donne satisfaction pour la drosophile, elle ne sera pas forcément transférable pour le génome humain.
Quant à Incyte Genetics, elle a déjà testé sa technique en menant à bien le séquençage complet d'une levure (
Candida albicans: 17 millions de bases). Pour cette société se posera aussi le problème de la taille du génome humain composé de 3 milliards de bases.
De toute façon, ce type de séquençage est effectué fragment par fragment, chacun d'entre eux comprenant environ 500 bases. Cela aboutit à une séquence très morcelée du génome constituée de dizaines voire de centaines de petits segments, non ou mal positionnés sur les cartes existantes.
Pour reconstituer dans ce puzzle des morceaux cohérents correspondant aux séquences des gènes, un gigantesque travail de réassemblage restera à faire. Il manquera inévitablement des morceaux importants, le résultat étant un séquençage "à trous".
Selon Jean Weissenbach,
"On ne peut pas croire que, comme le dit Craig Venter, les "trous" restants au terme de son travail ne représenteront que moins de 10 millièmes du génome humain. Son programme comporte de nombreux mystères d'un point de vue méthodologique. En réalité, tout laisse à penser que cette équipe entend réaliser un "écrémage" lui permettant de trouver toute une série de choses intéressantes à breveter rapidement " (1).
Au contraire, les laboratoires du programme international public isolent des fragments de chromosomes et les ordonnent entre eux avant le séquençage, ce qui nécessite, au préalable, une cartographie fine des chromosomes. De plus, ils procèdent à dix vérifications pour chaque séquence, quand les équipes du secteur privé n'en font que trois. Cette technique est moins rapide mais le succès est assuré, ainsi que la qualité des résultats obtenus (2).
Toutefois, il semblerait que dans un premier temps les chercheurs publics aient décidé, en ce qui concerne le génome humain, de procéder de manière prioritaire au séquençage aléatoire à faible profondeur en continuant toutefois à ordonner les clones de fragments d'ADN sur une carte de préséquençage.
Cette technique permettrait d'obtenir pour le printemps 2000 l'ébauche globale. Cette étape sera bien entendu immédiatement suivie par un séquençage définitif de grande qualité. Retenir cette solution d'un séquençage en deux temps à pour avantage de fournir rapidement des données partielles mais suffisantes pour des projets de recherche de gènes responsables de maladies dans des régions données. L'offre de ces données, par le secteur public est essentielle car, là encore, les stratégies du privé et du public divergent.
Deux logiques d'accès aux connaissances
Les chercheurs du public craignent que les grandes entreprises privées de génomique ne confisquent l'information, alors que l'accès à celle-ci est un élément de base indispensable pour la communauté scientifique.
En 1992, Craig Venter, alors chercheur aux NIH, avait déposé des centaines de demandes de brevets sur des gènes dont l'intérêt biologique n'était pas prouvé. Devant la polémique internationale déclenchée par cette initiative, les NIH avaient renoncé, sans que les règles du jeu de la brevetabilité aient été pour autant clarifiées.
Aujourd'hui Craig Venter et ses associés ont l'intention de créer une banque de données sur le génome humain dont personne ne sait exactement quelles seront les conditions d'accès.
Par ailleurs, l'Office américain des brevets a accordé en mars 1999 à la société Incyte le premier brevet sur des marqueurs d'expression du génome (il s'agit de portions d'ARN messagers, molécules indispensables à l'expression des gènes, appelées
"Expressed Sequence Tags" - EST).
Or, la position des chercheurs publics est toute autre. Selon des accords internationaux issus des réunions des centres d'études du génome aux Bermudes, toute portion d'ADN séquencée à l'aide de fonds publics doit être publiée dans la littérature scientifique et diffusée rapidement sur Internet afin d'être disponible pour la communauté des chercheurs.
De plus, tout récemment, les cinq plus grands laboratoires publics de séquençage (Whitehead Institute, Washington University School of Medicine, Baylor College of Medicine, Joint Genome Institute, Sanger Centre) se sont engagés à rendre publics leurs résultats dans un délai de vingt-quatre heures:
"Par cet effort majeur de financement public, nous permettons que les résultats restent dans le domaine public, en libre accès pour les chercheurs qui mettent au point les traitements du futur. C'est crucial pour en recueillir de manière efficace les vrais bénéfices médicaux " a indiqué Michael Morgan, directeur du Wellcome Trust Genome Campus (3).
Les résultats déjà obtenus ou attendus et l'intérêt de ces résultats
Le génome humain
Bien que son séquençage complet ne soit pas réalisé, les chercheurs ont déjà identifié de très nombreux gènes impliqués dans les processus pathologiques. Il est très difficile d'en présenter une liste exhaustive. On ne peut que citer les découvertes les plus récentes:
Une équipe française vient de démontrer que le cancer du sein de type médullaire est une entité biologique dans laquelle on trouve 100 % de mutation du gène p 53, déjà suspecté précédemment d'avoir un rôle important dans le processus cancéreux.
L'unité de génétique des déficits sensoriels de l'Institut Pasteur vient de mettre en lumière le fait que plus de la moitié des surdités héréditaires de l'enfant sont dues à des mutations dans un gène unique, le DFNB1.
Aujourd'hui, on estime à 1 500 le nombre de gènes responsables de maladies strictement génétiques identifiés. Mais il est évident que des milliers d'autres gènes, en partie identifiés, sont impliqués dans des pathologies plus courantes (cancer, diabète, maladies cardio-vasculaires ou neurologiques).
Par exemple, au 1er mars 1999, 487 gènes de maladies ont été localisés et 77 gènes de maladies ont été identifiés avec l'aide de l'AFM et/ou de Généthon.
Ces gènes se répartissent ainsi:
- Maladies neurologiques et psychiatriques | 28 % |
- Malformations congénitales
Anomalies chromosomiques | 13 % |
- Maladies oculaires | 11 % |
- Maladies neuromusculaires | 8 % |
- Maladies métaboliques et endocriniennes | 6 % |
- Maladies systémiques | 5 % |
- Maladies cardiovasculaires | 5 % |
- Maladies dermatologiques | 5 % |
- Maladies ostéo-articulaires | 4 % |
- Surdité | 4 % |
- Maladies cancéreuses | 4 % |
- Maladies urogénitales | 3 % |
- Maladies de l'appareil digestif | 3 % |
- Maladies hématologiques | 1 % |
| |
Le génome d'agents responsables de maladies
Si l'on excepte celui des très petits virus, le premier séquençage complet remonte à 1995. C'est celui d'
Haemophilus influenzae (1,93 million de bases), suivi en 1996 par celui de
Mycoplasma genitalium (9,58 millions de bases). Puis, à partir de 1996, ont été séquencés les génomes de :
- Mycoplasma pneumoniae (810 000 bases);
- Helicobacter pylori (1,66 million de bases), tenu depuis peu pour responsable de l'ulcère de l'estomac;
- Escherichia coli (4,6 millions de bases);
- Borrelia burgdorferi (1,44 million de bases), agent pathogène de la maladie de Lyme;
- Mycobacterium tuberculosis ou bacille de Koch. Le génome de ce bacille, composé de 4,41 millions de bases formant 4 000 gènes, a fini d'être séquencé en juin 1998 par une équipe de 42 chercheurs dirigés par le Professeur Stewart COLE, chef de l'unité de génétique moléculaire à l'Institut Pasteur de Paris et par Bart BASSEL du Centre Sanger au Royaume-Uni.
On peut espérer d'autres découvertes dans un avenir assez proche:
- Des biologistes américains ont réalisé la carte chromosomique de la bactérie responsable de la syphilis et vont commencer son séquençage.
- Les génomes d'agents pathogènes tels que
Streptococcus pneumaniae (2,2 millions de bases) et
Rickettsia prowazekii (1,1 million de bases) sont à l'étude, de même que ceux de
Vibrio cholerae (2,5 millions de bases), responsable du choléra et
Plasmodium falciparum, responsable du paludisme.
- Les génomes dont l'étude donnera des résultats un peu plus tard sont ceux d'agents pathogènes responsables de maladies malheureusement bien connues :
Listeria monocytogènes,
Candida albicans,
Legionella pneumophila (maladie du légionnaire),
Mycobacterium leprae (lèpre),
Neisseria gonorrhoeae (gonococcie),
Staphylococcus aureus (infections graves, notamment la septicémie),
Trypanosoma brucei rhodosiense (maladie du sommeil)
Yersinia pestis (peste).
Les génomes des organismes eucaryotes (4)
Là encore, il est impossible d'être exhaustif mais l'on peut citer notamment les séquençages sur lesquels travaille le Génoscope d'Évry :
- l'
Arabidopsis thaliana (arabette, petite crucifère de la famille du colza et du chou) ;
- Le
Tetraodon fluviatilis, un poisson à génome " compact " c'est-à-dire débarrassé de l'ADN " superflu " (non codant).
Il convient également d'évoquer la levure
Saccharomyces cerevisae, le premier organisme eucaryote dont le génome ait été séquencé, en 1996, grâce à un programme international placé sous la responsabilité du professeur A. GOFFEAU de l'Université de Louvain en Belgique.
Enfin, il faut souligner l'importance exceptionnelle d'un récent succès : le séquençage du génome d'un animal a été achevé au début de l'année 1999; c'est celui du ver
Caenorhabditis elegans.
Ses 97 millions de bases forment plus de 19 000 gènes dont 12 000 encore inconnus. Ce travail considérable a été réalisé par l'Université Washington de Saint-Louis et le Sanger Center du Royaume Uni.
L'intérêt de ces séquençages
En ce qui concerne les génomes des bactéries pathogènes, l'utilité de leur décryptage est évidente. Un exemple en a été fourni très récemment avec le séquençage du
Mycobacterium tuberculosis ou bacille de Koch. La tuberculose connaît aujourd'hui une inquiétante recrudescence et tue chaque année plus de 3 millions de personnes dans le monde, les vaccins demeurant bien faibles devant la maladie. Or le séquençage du
Mycobacterium tuberculosis a permis, en octobre 1998, à des chercheurs de l'unité de génétique mycobactérienne de l'Institut Pasteur de Paris d'identifier un gène responsable de la virulence du bacille de la tuberculose. Appelé
erp, ce gène commande la production d'une protéine dont le bacille a besoin pour se multiplier dans les cellules qu'il infecte. Inactiver ce gène pourrait permettre d'atténuer la virulence du bacille et de produire de nouveaux vaccins, en particulier des vaccins vivants atténués.
D'une façon plus générale, il est certain que connaître l'ensemble des gènes et donc des protéines d'un organisme pathogène est un préalable indispensable à la compréhension des mécanismes pathologiques induits par ces espèces.
"Cette connaissance devient cruciale à l'heure où l'on assiste à une généralisation du phénomène de résistance aux antibiotiques et aux moyens de lutte contre les parasites. Il devient essentiel d'inaugurer de nouvelles voies de lutte contre les pathogènes. On peut même penser qu'en raison de leur extraordinaire capacité d'évolution, de nouvelles variétés insensibles aux nouveaux agents anti-pathogènes ne vont cesser d'apparaître en réponse à l'utilisation de ces agents. La connaissance du génome permettra néanmoins de connaître rapidement les changements clés chez ces variants et de prendre des mesures appropriées" (5).
- En ce qui concerne les génomes d'organismes eucaryotes, leur intérêt réside essentiellement dans les possibilités de comparaison avec le génome humain qu'ils offrent. L'utilité de génomes d'espèces utilisées comme modèles expérimentaux, comme la souris, dont la physiologie est proche de l'homme, est évidente. Mais les génomes d'organismes très éloignés de l'homme peuvent être très intéressants également.
Si l'on prend l'exemple de la levure
Saccharomyces cerevisiae, on constate que certaines protéines humaines ont une séquence en acides aminés qui ressemble de façon significative à celle d'une protéine de levure: ces protéines sont "homologues". Selon les scientifiques, près de 40 % des gènes connus pour être impliqués dans une maladie génétique humaine ont un homologue chez la levure (6). Mais l'on ignore souvent le rôle des protéines que codent ces gènes humains. La levure peut alors fournir une indication sur la fonction des protéines. Le schéma de recherche est le suivant: le gène responsable d'une maladie génétique humaine est identifié; la fonction de la protéine qu'il code est inconnue; un homologue du gène existe chez la levure; on utilise alors la levure comme une "éprouvette biologique" car il est aisé de détruire ou remplacer un gène précis dans un organisme tel que la levure et cela permet de commencer à décrypter le rôle et le fonctionnement des gènes dont l'équivalent humain provoque une maladie génétique. Cette méthode a, par exemple, été utilisée pour étudier l'ataxie de Friedreich (maladie due à une dégénérescence des neurones entraînant des handicaps physiques graves et une cardiomyopathie).
De même, le séquençage du génome du
Caenorhabditis elegans aura des conséquences importantes, toujours grâce au caractère homologue de nombreux gènes humains avec ceux d'espèces bien différentes ; grâce à des années de recherche intensive, la fonction de nombreux gènes du ver est déjà connue. Les possibilités d'études comparatives seront donc nombreuses.
En ce qui concerne le génome humain, l'utilité de son décryptage est évidente, ainsi que le rappelle le Professeur Jean Weissenbach.
"Plus de 6 000 maladies d'origine clairement génétique, conséquence d'un défaut au niveau d'un gène, ont été répertoriées à ce jour. Ces maladies génétiques souvent incurables sont cependant rares, elles affectent un nouveau-né sur 1 000 à 100 000, voire moins. Depuis une dizaine d'années, les gènes responsables des maladies génétiques les plus fréquentes sont progressivement identifiés.
Ils constituent le point de départ à une approche rationnelle de la thérapie. Cette identification est considérablement facilitée lorsqu'on dispose de la séquence de l'ADN de la région dans laquelle le gène a pu être localisé. Cette localisation, elle-même encore très laborieuse il y a quelques années, s'est considérablement améliorée grâce à la cartographie du génome humain, préalable indispensable au séquençage. À ce jour, près de 1 500 gènes responsables de maladies génétiques ont été identifiés.
À côté de ces maladies strictement génétiques, d'autres pathologies beaucoup plus communes comme le diabète, les maladies cardiovasculaires, neuropsychiatriques, etc., ont elles aussi une composante génétique dans leur origine en général complexe. La recherche des gènes prédisposant à ces pathologies fréquentes devrait permettre de disposer de nouvelles cibles pour les médicaments du futur. Ces gènes représentent donc des enjeux majeurs pour l'industrie pharmaceutique, et la plupart des grands groupes internationaux se sont lancés dans de grands programmes visant à identifier les facteurs génétiques prédisposant aux pathologies communes. Ces travaux n'ont pas encore abouti à des découvertes majeures mais la séquence complète du génome humain devrait aussi considérablement faciliter la recherche de ces gènes.
Le diagnostic de maladies et de prédispositions génétiques reposera lui aussi sur la séquence du génome. À ce jour, cette activité, qui a bénéficié de nombreux progrès technologiques, est déjà largement répandue. La connaissance de la séquence complète du génome va cependant provoquer une véritable explosion dans le domaine du diagnostic génétique dans le but d'orienter de manière beaucoup plus ciblée les traitements et éventuellement de mettre en place de nouveaux modes de prévention (7)
"."
Notes
(6)
Le Monde, 3 juin 1998.
(7) Cf. entretien du rapporteur avec M. Manfred Zorn. Center for bioinformatics and computational genomics. Université de Berkeley, Californie, 2 avril 1999.
(8)
Le Monde, 24 mars 1999.
(9) Le génome des organismes eucaryotes tels que les plantes, les animaux, les champignons, les levures, est protégé par une membrane à l'intérieur du noyau de la cellule.
(10) Jean Weissenbach,
ENA Mensuel, n° 285.
(11) Françoise Foury,
Revue Gène, 195 - 1, 1997.
(12)
ENA Mensuel, n° 285
Office parlementaire d'évaluation des choix scientifiques et technologiques,
Génomique et informatique : l'impact sur les thérapies et sur l'industrie pharmaceutique. Rapport de M. Franck Sérusclat, sénateur (15 octobre 1999) [sur le site du Sénat de la République française]. Assemblée nationale: n° 1871 (11ème législature) - Sénat: n° 20 (1999-2000).