MDJ-anmeldelse av året: "Dyp genotyping" - Hva tredjegenerasjonssekvensering kan lære oss
Dr. Sarah Camargos: Velkommen til MDS Podcast, den offisielle kanalen til International Parkinson and Movement Disorder Society. Jeg er Sarah Camargos, assisterende redaktør for podkasten. I dag har vi selskap av Dr. Guillaume Cogan og professor Alexis Brice fra Paris Brain Institute. De er korresponderende forfattere av artikkelen, som ble valgt ut som årets Movement Disorders Review.
Se fullstendig transkripsjon
Artikkelens tittel er «Utforskning av nevrogenerative sykdommer ved bruk av langlesningssekvensering og optiske genomkartleggingsteknologier». Gratulerer til dere begge med denne viktige nominasjonen. Dr. Cogan, fortell oss litt om bakgrunnen din og hva som inspirerte deg til å skrive denne artikkelen.
Dr. Guillaume Cogan: Hei. Takk for at dere har oss her. Jeg er medisinsk genetiker, og nå [00:01:00] tar jeg en doktorgrad ved Paris Brain Institute. Vi hadde et prosjekt sammen fra Paris Brain Institute med National Institutes of Health, med kollegene våre som også er medforfattere av artikkelen, Kensuke Daida, Cornelis Blauwendraat og Kimberly Billingsley.
Så i bunn og grunn hadde vi en kohort av uløste Parkinsons sykdomstilfeller, som hadde blodeksomsekvensering. Vi hadde familiære tilfeller og også tilfeller med tidlig debut, og vi ønsket å prøve å identifisere noe sånt som mutasjonen som forårsaker sykdommen. For å gjøre det brukte vi long read-sekvensering. Jeg vil gå inn på detaljene om det i fremtiden. Vi hadde et interessant tilfelle, vi ønsket å rapportere dette til bevegelsesforstyrrelser, så det gjorde vi. Redaktøren ba oss om å gjøre en gjennomgang av long read-sekvensering, men også optisk genomkartlegging for å få en gjennomgang av de nye genteknologiene vi kan bruke ved nevrodegenerative lidelser.
Dr. Sarah Camargos: Veldig bra. Jeg tror genetikk noen ganger kan føles som et utfordrende tema for [00:02:00] nevrologer. Så la oss ta et skritt tilbake og starte med det grunnleggende. Vi skal snakke om typen varianter som forårsaker nevrodegenerative sykdommer, enkeltnukleotidvarianter, strukturelle varianter og repeterende ekspansjoner.
Kan du forklare hvilke teknikker som brukes for å studere denne typen varianter?
Professor Alexis Brice: Ja, jeg kan begynne, og Guillaume fullfører. Jeg tror det som virkelig er viktig er at langtidsavlesningssekvensering betyr at du kan analysere lange DNA-fragmenter i stedet for å måtte lese noe sånt som 150 til 300 basepar for hvert fragment du har noe sånt som titalls kilobaser, og dette endrer seg mye.
Fordi du kan oppdage mange av [00:03:00] omorganiseringene, som ikke oppdages med vanlige teknikker. Og dette betyr for eksempel at når det er en inversjon i genet, kan du se knutepunktene. Du kan sekvensere dem. Du kan lettere oppdage duplikasjoner eller slettinger.
Og det er også et tema for mange nevrodegenerative sykdommer. I tillegg til gjentatte ekspansjoner. De små kan fanges opp med klassiske teknikker, men når de overstiger størrelsen på 300 basepar, kan de ikke. Så med lang lesesekvensering. Igjen, kan du plukke opp denne typen varianter.
Så det er de viktigste aspektene. Men det finnes andre. Du kan for eksempel skille mellom individer som har to varianter i et gen. Du kan si om de er i cis eller i trans. Og for recessiv sykdom, [00:04:00] må de være i trans hvis du vil være sikker på at de er ansvarlige for sykdommen.
Du kan også ha bruksområder for gener og pseudogener når de er svært homologe. Long read-sekvensering tillater igjen å sekvensere genet uavhengig. Så det er egentlig det grunnleggende, og vi kan absolutt gi noen eksempler hvis du vil.
Dr. Sarah Camargos: Veldig bra. Spesielt da jeg leste artikkelen din, syntes jeg det var veldig interessant at du bruker disse eksemplene for å vise fordelene med langtidssekvensering, slik som du nevnte pseudogener og fasering. Kan du dele historien om søsknene og tvillingene med PRKN-varianter med oss?
Dr. Guillaume Cogan: Ja. Så vår kollega fra NIH, Kensuke Daida, hadde først disse to søsknene med en fenotype som var kompatibel med Parkinsons sykdom. [00:05:00] Så søsknene hadde en tidlig debut, en langsom progresjon av sykdommen, og jeg tror det var eksomsekvensering. Så kortfattet sekvensering.
De hadde en patogen enkeltnukleotidvariant, men bare én variant, så det er ikke tilstrekkelig til å forklare sykdommen. Og så brukte de long read-sekvensering, og de identifiserte en inversjon i det andre allelet, som forklarer sykdommen. Og inversjonen var veldig stor. Den er på syv megabasis.
Så det forklarer hvorfor de ikke fikk det først. Og så fra vår kohort. Vi hadde også to søsken med autosomal recessiv form av sykdommen kompatibel med PRKN, igjen, med fenotypen. Og vi brukte først de konvensjonelle sekvenseringsmetodene multippel ligeringsprobeamplifisering, målrettet sekvensering med eksomsekvensering.
Og vi hadde en delesjon av eksom fire, men bare én mutasjon igjen, så det var ikke tilstrekkelig til å forklare sykdommen. Vi brukte igjen long read-sekvensering, og vi fant det veldig interessant. Så i den første studien [00:06:00] hadde vi en delesjon av eksom tre og eksom fire, og i den andre tilføyde studien hadde vi en duplisering av eksom tre.
Så totalt sett har vi to kopier av eksom tre, noe som er normalt, ikke sant? Jeg håper vi alle har to kopier av eksom tre her.
Jeg håper, og det er derfor de andre sekvenseringsverktøyene ikke klarte å se det. Og bare, la oss si at bare langtidsavlesningssekvensering kunne identifisere dette.
Og så utvidet Kensuke og kollegene denne studien til, jeg tror det var 23 individer med én PRKN-variant og tidlig debut av PD, og de var i stand til å løse en fjerdedel av tilfellene ved hjelp av long read-sekvensering. Så dette er noe som er meningsfullt, tror jeg. Og nevrologer kan tenke på det når de har en pasient med én mutasjon i PRKN og en fenotype som er kompatibel.
Dr. Sarah Camargos: Og du ble bare veiledet for fenotypingen. Dette er veldig interessant. Så du gravde litt for å se om det fantes en strukturell variant som kunne forklare den andre i trans [00:07:00] variasjonen.
Er det riktig?
Dr. Guillaume Cogan: Yeah.
Dr. Sarah Camargos: Fantastisk. I tillegg til å oppdage de nye genene, er et annet interessant aspekt å utforske karakteriseringen av repeterende ekspansjon.
Hvordan er denne karakteriseringen relevant for å forstå fenotypen eller genetisk veiledning?
Professor Alexis Brice: Jeg tror det er minst to aspekter knyttet til repetisjonsutvidelsene. For det første er det størrelsen, og passende størrelse er veldig viktig, fordi det vanligvis er en terskel over hvilken en repetisjon kan sies å være patogen. Og dette varierer mye avhengig av lidelsene. Og for noen av dem må jeg si at terskelen som kan være verdifull fortsatt er omdiskutert, men i det minste over en viss verdi er du sikker på at den er patogen.
Så det første er størrelsen, som er helt [00:08:00] avgjørende for diagnose. Og det andre aspektet er rekkefølgen av repetisjonen. Fordi det viser seg at på noen loki er ikke bare størrelsen, men også repetisjonens sammensetning, noe som er viktig. Og det finnes alternativ sammensetning, hvorav noen er patogene og andre som tolereres godt og ikke er assosiert med sykdommen.
Med langtidsavlesningssekvensering får du begge deler med én enkelt stein. Du har både størrelsen på repetisjonen og sammensetningen, og derfor kan du si om repetisjonen er patogen eller ikke. Og dette er veldig viktig for mange av de nylig identifiserte repetisjonene som for eksempel FGF 14 eller RFC 1.
Dr. Guillaume Cogan: Ja, kanskje jeg kan gi eksempler på det. FGF 14 er et veldig godt eksempel. Så det er ansvarlig for [00:09:00] spinocerebellar ataksi nummer 27 B ble identifisert ganske nylig, og vi vet at utvidelser av GAA som er lavere enn 200, de ikke er patogene. Men når repetisjonen er over 300, vet vi at den er patogen, og bruker kortlesningssekvensering fordi størrelsen på fragmentet er av lesningen er omtrent 150.
Vi kan ikke vite noe som er lengre. Vi kan bare si at det er en ekspansjon over 150, men vi kan ikke si om den er over 300 eller ikke. Så vi kan ikke si om den er patogen, og vi trenger en annen teknologi for å si det. Men ved å bruke lang lesesekvensering kan vi si mer presist størrelsen på ekspansjonen, og vi kan si om ekspansjonen er over terskelen eller ikke.
Et annet eksempel på viktigheten av motivet er et gen som er ansvarlig for det velkjente syndromet cerebellar ataksi, nevropati, vestibulær arefleksi, så CANVAS. Og vi vet at lange utvidelser av [00:10:00] AAAG, så det er fem nukleotider. De er ikke patogene. Utvidelser av motivet AAGGG er imidlertid patogene, og ved å bruke lang lesesekvensering har vi motivet slik at vi kan vite om det er patogent eller ikke.
Og jeg tror noe også viktig er tilstedeværelsen eller fraværet av avbrudd. Og vi diskuterer dette i artikkelen. Så jeg tror et godt eksempel er spinocerebellar ataksi to. Så det er en CAG-ekspansjon. Og hvis vi i denne utvidelsen av CAG har en eller flere avbrudd av CAA i stedet for CAG, vet vi at det ikke er ansvarlig for spinocerebellar ataksi, men Parkinsons sykdom.
Motivet er tilstedeværelsen eller fraværet av integrasjon som er viktig. For fenotypen, men også for aldersdebut, penetrans, sykdommens arv og alvorlighetsgraden og typen av fenotype.
Professor Alexis Brice: Så vi kan absolutt forvente å [00:11:00] identifisere flere av disse gjentakelsene i fremtiden. Og vi vet at de er spesielt hyppige ved nevrologiske lidelser.
Så jeg tror at ved å sekvensere mange flere tilfeller, vil vi helt sikkert oppdage ukjente mutasjoner i fremtiden.
Dr. Sarah Camargos: Og du kunne også sjekke metyleringen. Du kan forstå litt mer om genuttrykk.
Dr. Guillaume Cogan: Absolutt ved å bruke de viktigste metodene for langtidssekvensering. Vi kan identifisere metylering, og dette har selvfølgelig flere implikasjoner i sykdommer fordi det vanligvis ikke alltid er tilfelle. Men vanligvis har hypermetylerte elementer i DNA-et mindre uttrykk sammenlignet med hypometylering.
Og i sammenheng med nevrodegenerative lidelser. Jeg synes dette er interessant. For eksempel, hvis vi har genet. Jeg studerte nettopp dette for NOTCH2NLC, som er ansvarlig for når [00:12:00] du har en GGGC, ekspansjon i den fem pre-materialregionen. Det er ansvarlig for en sykdom som kalles neuronal intranukleær hyalin inklusjonssykdom, og de fant ut at det er veldig interessant at upåvirkede foreldre til barn rammet av denne sykdommen hadde lengre ekspansjoner sammenlignet med avkommet. Så det er ikke forventet, ikke sant? Men ved å bruke long read-sekvensering fant de fortsatt ut at denne GGC-ekspansjonen hos foreldrene var hypermetylert. Så genet var mindre uttrykt sammenlignet med den lavere ekspansjonen. Og denne ekspansjonen er patogen fordi den fører til RNA 4C som fører til en sekvestrering av RNA-bindende proteiner.
Så hvis du har et lavere uttrykk, har du mindre RNA 4C, og da har du ikke sykdommen. Det er veldig interessant å se at metylering lar oss forstå hvorfor noen mutasjoner ikke er patogene sammenlignet med andre.
Dr. Sarah Camargos: Fantastisk. Veldig interessant. [00:13:00] La oss snakke litt om målretting i langtidssekvensering. I april 2024 intervjuet vi professor Houlden og dr. Zhongbo Chen ved bruk av målrettet langtidssekvensering for å beskrive SCA4. Kan du minne oss på hvordan denne metoden fungerer, og om det finnes en annen metode for målretting i stedet for å sekvensere alt?
Dr. Guillaume Cogan: Ja. Så det er et godt spørsmål, fordi man kan bruke long read-sekvensering på flere måter. Man kan gjøre helgenomsekvensering, men man kan også gjøre målrettet sekvensering. Og jeg vil si at det finnes tre metoder for å gjøre dette i artikkelen. For det første kan man bruke Cas9-basert metode.
Så du fanger bare interesseområdet ved hjelp av CRISPR Cas9, og så sekvenserer du bare dette interesseområdet. Så dette er den første. En annen er også enkel. Det er langtrekkende PCR. Så du amplifiserer interesseområdet ditt ved hjelp av langtrekkende PCR [00:14:00] sammen. Men hvis du bruker dette, kan du selvfølgelig ha amplifiseringsskjevhet fordi du bruker en polymerasekjedereaksjon, ikke sant?
Så dette er den andre, og den siste leveres kun av Oxford Nanopore Technologies. Så den siste er adaptiv sampling, og den er ganske interessant.
Så i bunn og grunn har du DNA-strengen din, som går gjennom poren. Og poren vil analysere de første 100 baseparene. For eksempel 400 basepar, og den vil se om disse baseparene er i det interessante området du ba sekvenseringsmaskinen om å sekvensere. Så hvis den ser at dette fragmentet ikke er et interessant fragment, kaster den ut fragmentet.
Så den vil bare sekvensere hele veien gjennom porefragmentene av interesse. Så det er de tre metodene. Cas9-basert, langtrekkende PCR og ONT adaptiv prøvetaking.
Dr. Sarah Camargos: Veldig bra. Professor Brice, jeg har en følelse av at long read-sekvensering er nesten som den genetiske versjonen [00:15:00] av dyp fenotyping, en slags dyp genotyping. Er du enig?
Professor Alexis Brice: Jeg er helt enig. Med dyp fenotyping finner man ting man ikke så fordi man ikke lette ordentlig etter dem. Og jeg tror det er veldig viktig for nevrologer å kunne utføre denne dype fenotypingen, som kan hjelpe med diagnostisering. Og her er det akkurat det samme, fordi verktøyene vi brukte frem til langtidssekvensering ikke klarte å oppdage noen av disse variantene.
Og nå som vi har dette verktøyet, kan vi plukke opp disse variantene og forbedre diagnosen. Så det er egentlig helt likt, bortsett fra at kostnaden for dyp fenotyping kanskje er mindre enn for langtidsavlesning av sekvensering for øyeblikket, i hvert fall.
Dr. Sarah Camargos: Ja. Når vi snakker om utfordringene når det gjelder langlesningssekvensering, hva er de [00:16:00] store utfordringene for oss? Bortsett fra kostnaden.
Dr. Guillaume Cogan: Utover kostnadene er utfordringene først våtlaboratoriet. Så våtlaboratorieprotokollen er ennå ikke standardisert. Dessuten er den bioinformatiske pipelinen for å kalle variansen ikke standardisert. Og du trenger også mye datalagringskapasitet fordi den genererer hundrevis av gigabaser.
Så du trenger god lagringskapasitet. Gode GPU-er og CPU-er for å kalle variansen er også veldig beregningsintensivt, og på slutten av kjeden, la oss si å tolke variansen, er det også vanskeligere fordi vi har mye mer varians. I det minste er vi sikre på variansen vår, for hvis du for eksempel bruker kortlesningssekvensering og prøver å analysere strukturell varians, vet du at mange av dem bare er falske positive. Men ved å bruke langlesningssekvensering vet du at de fleste av dem er sanne positive. Men når vi analyserer varians, hvis du vil identifisere årsaken til en pasients sykdom, vil du fjerne varians som har høy [00:17:00] frekvens som er vanlig hos oss alle, bare for å velge varianter.
Saken er at med sekvensering har vi lenge ikke hatt kataloger som Genome 80 for sekvensering av korttidsavlesninger. Så det er vanskelig å filtrere varians fra korttidsavlesninger. Likevel finnes det noen samarbeidsprosjekter, for eksempel 1000 Genome-prosjektet som sekvenserer hundrevis, om ikke tusenvis, av friske kontroller for å gi oss populasjonsdatabaser, slik at vi kan fremheve variansen i henhold til frekvens.
Og til slutt, med litt erfaring med det, er det noen ganger frustrerende fordi man tenker liksom, jeg sekvenserer alle varianstypene jeg har som strukturelle varians-SND-er, korte gjentakelser, men jeg finner ikke den genetiske mutasjonen. Men jeg vet at den er her et sted, men jeg kan kanskje ta ett eksempel.
For eksempel har vi introniske strukturelle varianter som kan påvirke spleising av et gen, men vi har ikke noe verktøy for å forutsi om det påvirker spleising eller ikke. Så vi håper at bioinformatikere [00:18:00] i fremtiden vil utvikle disse verktøyene slik at vi endelig kan identifisere årsaken til sykdommen til alle mennesker med en genetisk lidelse, la oss si.
Dr. Sarah Camargos: Eller til og med sekvensert alt RNA-et også.
Dr. Brice eller Cogan: Ja, dette er en annen. Ved å bruke lang sekvensering kan vi identifisere nye isoformer, slik vi snakker om i artikkelen.
Dr. Sarah Camargos: Og i artikkelen din utforsket du også mulighetene for optisk genomkartlegging. Forklar oss hvordan denne teknikken fungerer og hva er de viktigste fordelene.
Dr. Guillaume Cogan: Så det er ganske annerledes sammenlignet med long read-sekvensering fordi det ikke er sekvensering. Så i utgangspunktet merker du bare DNA-et ditt med en kanonisk sekvens, korte sekvenser, og så har du et mikroskop som ser på avstanden mellom den merkede taggen på DNA-et. Så med det kan du identifisere strukturelle varianter som er over 500 basepar.
Så du kan ikke se noe under det. Det er én ting. Du [00:19:00] kan ikke heller se SND-er, enkeltnukleotidvarianter ved bruk av optisk genomkartlegging. Det er imidlertid ganske interessant fordi dybden og dekningen er bedre sammenlignet med langtidssekvensering. Du kan få 150 ganger dekningsdybde ved bruk av OGM sammenlignet med vanligvis 20 til 30 ganger med langtidssekvensering.
Og, og ja, det er det viktigste med OGM, vil jeg si. Så noen sammenlignet OGM og long read-sekvensering. Og for long read-sekvensering er det vanskelig å identifisere varianter, strukturelle varianter som er over 50 kb. OGM er imidlertid bra for å identifisere den typen mutasjoner. Så jeg vil si at hvis du har penger, kan du bruke begge, og det ville være det beste.
Men du trenger penger for å gjøre det
Dr. Sarah Camargos: Selvfølgelig.
Professor Alexis Brice: Nei, jeg mener, du trenger også DNA med høy molekylvekt, og det er noen ganger en begrensning for disse teknikkene. Og klassisk biobankvirksomhet bruker noen ganger ekstraksjonsteknikker [00:20:00] som ikke gir slikt DNA. Så det er noe du må ta hensyn til i det minste for de potensielle kohortene eller prøvene du får.
Dr. Guillaume Cogan: Ja. Og noe annet for OGM, jeg tror en begrensning ved OGM som er god å vite for lyttere, er at det er veldig vanskelig å få den nøyaktige plasseringen av bruddpunkter ved hjelp av OGM. Vanligvis kan man ikke få det. Det er mellom 6 KB og 15 kb. Så det kan være viktig i medisinsk genetikk fordi man ved bruk av OGM kan si at en strukturell variant omfatter et eksom, mens det ikke er det, så det er ikke en falsk positiv, men det er bare ikke like nøyaktig for strukturell varians som langtidsavlesningssekvensering.
Så igjen, det er bra å bruke begge hvis du vil bruke OGM, ja.
Dr. Sarah Camargos: Så du spår at disse to teknologiene vil bli den første metoden for å diagnostisere arvelige nevrogenerative lidelser i fremtiden?
Professor Alexis Brice: Forutsatt at [00:21:00] pengene er der for å betale for dem. Ja, jeg tror det, de gjør det helt klart mulig å løse en større andel av sakene, og de er derfor veldig nyttige. Jeg tror at hvis vi ønsker å ha en tilnærming, en første- og sistenivåtilnærming der én enkelt teknologi kan gi resultatene.
Dr. Guillaume Cogan: Ja, det er fortsatt en lang vei å gå for å få disse teknologiene først her, vil jeg si. Ja.
Dr. Sarah Camargos: Ja. Veldig fint. Før vi er ferdige, er det ett viktig budskap dere begge ønsker at lytterne våre skal ta med seg fra denne artikkelen?
Dr. Guillaume Cogan: Ja. Så jeg tror du må vite hva prosjektet ditt er og hva du egentlig vil se før du bruker disse teknologiene. Og jeg tror at vi i artikkelen vår har gjort vårt beste for å gi eksempler slik at leseren kan forstå hva han kan få ut av disse teknologiene. Og jeg tror ja, å lese denne artikkelen er en måte å forstå dette bedre på og bruke det på en [00:22:00] passende måte for hvert enkelt prosjekt. Ja.
Dr. Sarah Camargos: Ja. Så leger, tusen takk for at dere ble med oss. Og delte innsikten deres i dag. Takk til alle lytterne våre for at dere er med oss på MDS-podkasten. Følg med for neste episode, og inntil da, ta vare på dere selv og farvel.
Dr. Guillaume Cogan: Takk for at du har oss.

Guillaume Cogan, lege
Paris hjerneinstitutt
Paris, Frankrike

Alexis Brice, lege
Paris hjerneinstitutt
Paris, Frankrike






