UVOD
Sekvenciranje RNA je sodobna molekularna tehnika, ki omogoča vpogled v transkriptome številnih celic in tkiv. Prinesla je izjemen napredek na področju transkriptomskih študij. V primerjavi z mikromrežami je sekvenciranje RNA bolj občutljivo in ponuja številne aplikacije zaradi širokega dinamičnega razpona, možnosti prepoznavanja novih transkriptov ter ločljivosti na ravni posameznega nukleotida (1). Glavni cilj analize transkriptoma je običajno kvantificirati in primerjati izražanje genov med različnimi stanji in na podlagi teh podatkov sklepati o biološki funkciji analiziranih genov (2). Podatki, pridobljeni s sekvenciranjem RNA, se lahko uporabljajo pri anotaciji – procesu določanja lokacije in zaporedja genomskih elementov ter določanja njihove biološke funkcije. Medtem ko se za anotacijo uporabljajo tudi genomski podatki, transkriptomski podatki omogočajo pridobitev informacij o nekaterih elementih, ki jih zgolj z uporabo genomskih podatkov ni mogoče zaznati (npr. neprevedene regije UTR, nekodirajoče RNA in posttranskripcijski dogodki) (3).
Sekvenciranje RNA omogoča tudi odkrivanje različnega alternativnega spajanja – razlik v vzorcih spajanja eksonov med različnimi biološkimi pogoji. Alternativno spajanje eksonov je zelo razširjen mehanizem uravnavanja izražanja genov (4), pri čemer lahko napake v tem sistemu povzročajo številne bolezni (5). Nadaljnji napredek v zmogljivostih in dolžinah odčitkov tehnologij NGS je olajšal tudi odkrivanje fuzijskih transkriptov, ki jih pogosto najdemo v tumorskih celicah in lahko služijo kot biooznačevalci ali terapevtske tarče (6), poleg tega pa lahko analiziramo tudi prisotnost variant v kodirajočih delih genoma (7). V nadaljevanju bomo najprej opisali potek sekvenciranja RNA, od izolacije RNA iz biološkega vzorca do priprave knjižnic RNA in bioinformatske analize (Slika 1), nato bomo izpostavili nekaj pomanjkljivosti in omejitev sekvenciranja RNA. Na koncu bomo na kliničnem primeru predstavili še opis poteka sekvenciranja RNA pri bolniku z B-celično akutno limfoblastno levkemijo (B-ALL).
IZOLACIJA RNA
Prvi korak pri sekvenciranju RNA je izolacija RNA iz biološkega vzorca, ki jo lahko izvedemo iz gojenih celic, periferne krvi, kostnega mozga, plazme, seruma in drugih telesnih tekočin ali tkiv. Izolacija je možna tako iz svežega kot tudi zamrznjenega tkiva ali celo iz s formalinom fiksiranih vzorcev, vklopljenih v parafin (8). Za izolacijo RNA se najpogosteje uporabljajo pripravljeni reagenčni kompleti, ki omogočajo učinkovito in kakovostno izolacijo (9). Pred začetkom priprave knjižnice je treba izolirani RNA določiti koncentracijo in kakovost (10). Za ocenjevanje kakovosti oz. degradiranosti RNA se uporablja parameter RIN (angl. RNA integrity number), katerega vrednosti so od 1 (popolnoma degradirana RNA) do 10 (intaktna RNA) (11).
PRIPRAVA KNJIŽNIC RNA
Obogatitev mRNA ali odstranitev rRNA
V celici najdemo več različnih zvrsti RNA, kar od 80 do 90 % vseh molekul RNA predstavlja ribosomalna RNA (rRNA), ki nas v procesu sekvenciranja ne zanima in jo je treba v prvem koraku priprave knjižnice odstraniti (12). To lahko naredimo s selekcijo poli-A koncev ali z deplecijo rRNA. Pri prvem pristopu uporabimo oligo-dT sonde, ki se povežejo s poli-A repi na zreli mRNA, in jih osamimo s pomočjo magnetnih kroglic. Vendar degradirani vzorci in številne nekodirajoče RNA, kot so mikro RNA (miRNA), ne vsebujejo poli-A koncev in jih z uporabo tega pristopa izgubimo. Za sekvenciranje celotnega transkriptoma je tako primernejši pristop deplecija rRNA, pri kateri uporabimo oligonukleotidne sonde s specifičnim zaporedjem, komplementarnim citoplazemskim in mitohondirjskim rRNA (13). Nastale oligo-DNA:RNA hibride nato odstranimo s pomočjo magnetnih kroglic (14) ali jih razgradimo z RNazo H (15).
Fragmentacija RNA in dodajanje adapterjev
Odstranitvi rRNA sledi fragmentacija RNA, potrebna zaradi velikostne omejitve večine tehnologij sekvenciranja. Mogoči sta kemijska ali encimska fragmentacija. Kemijska fragmentacija poteka z uporabo alkalnih raztopin ali raztopin z dvovalentinimi kationi (npr. Mg2+ ali Zn2+) pri povišani temperaturi, običajno pri 70 °C (16). Encimska fragmentacija poteka z različnimi encimi, kot je RNaza III (17). Fragmentacija ni povsem naključna in je lahko vir povečane zastopanosti določenih regij RNA. Fragmentirano RNA nato z naključnimi heksameri prepišemo v komplementarno DNA (cDNA). Redkeje se najprej izvede reverzna transkripcija RNA v cDNA in nato fragmentacija cDNA (18). Ta se običajno izvaja z ultrazvočnimi valovi ali z DNazami. Fragmentirani cDNA v nadaljevanju dodamo adapterje, ki omogočajo klonalno pomnožitev knjižnice in njeno sekvenciranje. Adapterje lahko dodamo na več različnih načinov, vendar je treba paziti, da pri tem ohranimo informacijo o smeri RNA (19). Z uporabo metode dUTP je mogoče ohraniti informacijo o smeri RNA. S to metodo se med sintezo cDNA pri pripravi knjižnice namesto dTTP uporabljajo dUTP, ki se vgradijo v drugo verigo. Pred pomnoževanjem PCR se druga veriga, ki vsebuje uracile, razgradi z uracil-N-glikozilazo, tako da se pomnoži samo prva veriga (20). Takšna priprava knjižnice omogoča določitev izražanja prekrivajočih genov, torej tistih genov, ki imajo vsaj delno prekrivajoče genomske koordinate, a se prepisujejo iz različnih verig (21). Posameznim vzorcem lahko v procesu priprave knjižnice dodamo tudi indekse oz. molekularne črtne kode, ki omogočajo identifikacijo posameznega vzorca po sekvenciranju. Z uporabo indeksov lahko pripravljene knjižnice združimo in s tem povečamo učinkovitost ter zmanjšamo stroške sekvenciranja.
Klonalna amplifikacija knjižnice
Pripravljene knjižnice, označene z adapterji, je treba pred sekvenciranjem pomnožiti s PCR. Razlike v velikosti in sestavi cDNA lahko kljub le majhnemu številu ciklov povzročijo neenakomerno pomnoževanje. Za popravljanje pristranskosti PCR se lahko uporabljajo molekularne oznake, imenovane edinstveni molekularni identifikatorji (UMI, angl. unique molecular identifiers), ki omogočajo odstranitev PCR duplikatov (22). UMI so običajno vgrajeni v adaptersko zaporedje in se dodajo cDNA pred pomnoževanjem. Razlikujejo se po velikosti (številu baz) in kompleksnosti. Lahko so sestavljeni iz določenega ali naključnega zaporedja. Molekularno označevanje je še posebej uporabno pri manjših količinah vhodne RNA, kjer je potrebno večje število ciklov pomnoževanja (23).
Sekvenciranje
Sekvenciranje RNA se izvaja na enakih platformah kot sekvenciranje celotnega eksoma ali celotnega genoma. Najpogosteje se uporablja tehnologija Illumina, ki omogoča sekvenciranje z visoko natančnostjo in zmogljivostjo. Določimo lahko zaporedje enega ali obeh koncev fragmenta DNA. Sekvenciranje s parnimi konci omogoča natančnejšo mapiranje odčitkov na referenčni genom (24).
BIOINFORMATSKA ANALIZA
Po končanem sekvenciranju sledi bioinformatska analiza. Svetlobne ali električne signale, pridobljene med sekvenciranjem, najprej pretvorimo v nukleotidno zaporedje, med tem pa s pomočjo uporabljenih indeksov tudi določimo, kateri signali pripadajo kateremu vzorcu. Za vsak vzorec dobimo datoteko formata FASTQ, ki vsebuje podatke o sekvenciranju, surova sekvenčna zaporedja in oceno kakovosti za posamezno zaporedje. Najprej je treba preveriti kakovost odčitkov, kar izvedemo z orodjem FastQC. V tem koraku odstranimo baze z nizko kakovostjo, ki se običajno nahajajo na 3‘-koncu, in adapterska zaporedja. V primeru, da smo uporabljali UMI, je treba tudi te pred poravnavo odstraniti. Med bioinformatsko analizo je potrebno upoštevati priporočila, ki jih predvideva konzorcij za standardizacijo ENCODE (25). S tem zagotavljamo primerljivost in reproducibilnost podatkov.
Poravnava zaporedji na referenčni genom ali transkriptom
V nadaljevanju je treba za vsak odčitek najti mesto, kjer se najbolje ujema z referenčnim zaporedjem, kar imenujemo poravnava oz. mapiranje odčitkov na referenčni genom ali transkriptom. Pri tem je treba upoštevati, da lahko odčitki vsebujejo polimorfizem posameznega nukleotida (SNP, angl. single-nucleotide polymorphism), delecije, insercije ali napake, nastale pri sekvenciranju, in se zato ne ujemajo popolnoma z referenčnim zaporedjem. Nekateri odčitki se lahko ujemajo z več lokacijami v referenčnem zaporedju. Takšne odčitke lahko algoritmi zavržejo (26), naključno mapirajo (27) ali mapirajo na podlagi povprečne pokritosti (28). Z uporabo sekvenciranja s parnimi konci se oba konca fragmentov nahajata blizu skupaj, kar v nekaterih primerih lahko odpravi dvoumnost pri mapiranju. Treba je upoštevati, da odčitki izhajajo iz transkriptoma in ne iz genoma. Enostaven pristop je uporaba samega genoma kot reference, vendar odčitki, ki segajo preko meje eksonov, ne bodo mapirani. Transkripti z manj eksoni so tako bolje pokriti od daljših odčitkov pri enaki ravni izražanja (29). Za poravnavo na referenčno zaporedje se najpogosteje uporabljajo orodja BWA (30), bowtie (31) in STAR (32). Enostavnejši pristop je uporaba “psevdo-poravnave”, pri kateri se odčitki ne poravnajo na referenčni genom na običajen način. Namesto tega se odčitki samo klasificirajo glede na to, iz katerega gena ali transkripta izvirajo. Gre za hitrejšo metodo, ki potrebuje manj računalniških virov, saj ne vključuje natančne poravnave vsakega odčitka na specifično mesto v genomu. Namesto tega se prepoznajo vzorci v odčitkih, ki jih povezujejo z znanimi geni ali transkripti, kar omogoča hitro in učinkovito “poravnavo”. Orodji, ki omogočata “psevdo-poravnavo”, sta Salmon (33) in Kallisto (34). Mapirani odčitki so shranjeni v standardnem formatu SAM (angl. sequence alignment map), ki ga lahko pretvorimo v binarno obliko – format BAM (angl. binary alignment map). Transkriptom pa je mogoče sestaviti tudi de novo, kar pomeni, da transkriptom sestavimo iz sekvenciranih odčitkov brez uporabe referenčnega genoma. Ta pristop se uporablja predvsem za organizme, pri katerih referenčni genom ni na voljo. V postopku sestavljanja transkriptoma de novo se kratki odčitki, ki jih dobimo pri sekvenciranju, na podlagi prekrivanja med njimi združujejo v daljše sekvence. Te daljše sekvence predstavljajo transkripte, ki jih je treba na koncu identificirati.
Kvantifikacija genov oz. transkriptov
Po pridobitvi genomskih lokacij za čim več odčitkov sledi kvantifikacija odčitkov na biološko pomembne enote. Kvantifikacija je mogoča le na anotirane biološke enote; to pomeni, da imajo določene genomske koordinate ime in druge funkcionalne informacije. Običajno izvajamo kvantifikacijo na gene, mogoča pa je tudi kvantifikacija na eksone ali transkripte. V procesu kvantifikacije preštejemo, koliko odčitkov se prilega na določeno biološko pomembno enoto. Kot rezultat dobimo tabelo s številom odčitkov za vsako posamezno enoto (gen, transkript) pri vsakem vzorcu (35), ki jo imenujemo matrika odčitkov in je prikazana pri koraku 7 na Sliki 1.
Normalizacija
Normalizacija omogoča primerjavo izražanja genov med vzorci in znotraj vzorca. Pri primerjavi izražanja znotraj vzorca uporabljamo FPKM (angl. fragments per kilobase per million mapped reads) ali TPM (angl. transcripts per million mapped reads), ki omogočata primerjavo izražanja vsakega gena glede na druge gene v vzorcu in upoštevata tako velikost knjižnic kot tudi dolžino genov (36). Kadar delamo primerjavo med različnimi vzorci, se tehnične napake večinoma izničijo, saj med seboj primerjamo iste gene. Ker pa gre za različne knjižnice, je normalizacija še zmeraj potrebna. Najpreprostejša in pogosto uporabljena normalizacija je prilagoditev glede na celokupno število odčitkov v knjižnici (37).
Analiza različnega izražanja genov oz. transkriptov
Cilj analize je prepoznati gene, katerih izraženost se med skupinami vzorcev statistično značilno razlikuje. Najpogosteje se za ta namen uporabljata parametrični metodi DESeq2 in EdgeR (38). DESeq2 se uporablja predvsem za podatke z manjšo variabilnostjo in natančno opredeljenimi skupinami (39), EdgeR pa je primeren za manjše, a kompleksnejše podatke z visoko variabilnostjo (40). Kot kriterij za določanje različne izraženosti genov uporabimo vrednost p in dvojiški logaritem spremembe (l2FC, angl. log2 fold change) (41), pri čemer vrednost p pove, ali je rezultat statistično značilen, l2FC pa pove, kolikokrat višje oziroma nižje je izražanje gena v testni v primerjavi s kontrolno skupino. Zaradi večkratnega testiranja je treba vrednost p popraviti – običajno uporabimo Benjamini-Hochbergov popravek (42). Izbira mejnih vrednosti p in l2FC, s katerimi identificiramo različno izražene gene, je odvisna od poskusa (43). Rezultate statistične analize običajno grafično predstavimo na diagramu MA (44) ali z vulkanskim diagramom (45). Diagram MA podatke pretvori v lestvico M (logaritemsko razmerje) in lestvico A (povprečna vrednost); prvotno se je uporabljal za prikazovanje podatkov, pridobljenih z mikromrežami. Prikazuje vrednosti l2FC, odvisne od povprečnega normaliziranega števila odčitkov. Na vulkanskem diagramu pa je prikazana odvisnost vrednosti p od l2FC (Slika 2).
POMANJKLJIVOSTI IN OMEJITVE
Sekvenciranje RNA prinaša mnogo priložnosti, kot vsaka metoda pa ima tudi svoje omejitve in pomanjkljivosti. V primerjavi z DNA je RNA bolj podvržena razgradnji zaradi vseprisotnih RNaz, kar zahteva poseben transport vzorcev (čim hitrejši in na ledu) in previdnost pri celotnem procesu, od izolacije RNA do koraka reverzne transkripcije v postopku priprave knjižnice. V primeru slabše kakovosti izolirane RNA (nižja vrednost RIN) je treba postopek priprave knjižnice prilagoditi z izpustitvijo dodatne fragmentacije (46). Zelo pomembna je tudi pravilna izbira vzorca glede na biološko vprašanje, na katerega želimo odgovoriti. Medtem ko je DNA načeloma enaka v vsaki celici določenega organizma, pa je izražanje genov tkivno specifično (47), torej je kri manj oz. neprimerna, če želimo analizirati transkriptom pri bolezni, ki se na primer izraža v mišičnem tkivu. Prav tako je lahko izražanje genov različno v vsaki posamezni celici, vendar s sekvenciranjem celotne RNA iz tkiva (angl. bulk RNA sequencing) izgubimo te podatke in dobimo samo sliko povprečnega izražanja. Za naslavljanje tega problema se že uporabljajo tehnike sekvenciranja posameznih celic (angl. single-cell sequencing) (48). Previdni moramo biti tudi pri analiziranju variant, saj lahko pogosto spregledamo variante z nizko frekvenco. Prav tako smo omejeni na variante v kodirajočih delih genoma in na variante v tistih genih, ki so dejansko izraženi (49).
KLINIČNI PRIMER
Za prikaz uporabe sekvenciranja RNA v diagnostiki navajamo primer bolnika z B-ALL, pri katerem s standardnimi diagnostičnimi preiskavami (kariotipizacija, fluorescentna in situ hibridizacija in multipleksni PCR) nismo našli nobenih ponavljajočih se genetskih sprememb. Raziskava je bila opravljena v skladu z načeli Helsniško-Tokijske deklaracije; preiskovanci so se strinjali z vključitvijo v raziskavo in so podpisali izjavo o zavestni in svobodni privolitvi k sodelovanju v raziskavi po poučitvi. Pri bolniku je prišlo do zgodnjega ekstramedularnega relapsa bolezni z nizko infiltracijo v kostnem mozgu (3 % blastnih celic). Takrat je bilo naročeno sekvenciranje RNA iz vzorca kostnega mozga, odvzetega ob diagnozi, in tistega, odvzetega ob ponovitvi bolezni. Iz vzorcev smo izolirali RNA in pripravili knjižnico za sekvenciranje celotnega transkriptoma. Najprej smo odstranili rRNA, ki predstavlja večino RNA v celicah, vendar nas pri analizi ne zanima. Nato smo preostalo RNA fragmentirali in prepisali v cDNA. Temu je sledila priprava knjižnic, podobna postopku priprave knjižnic za sekvenciranje celotnega eksoma in genoma. Na oba konca cDNA smo ligirali adapterska zaporedja, s pomočjo katerih se fragmenti cDNA lahko vežejo na pretočno celico sekvenatorja. Ta zaporedja vsebujejo tudi zaporedja za unikatno označevanje vzorcev (“molekularna črtna koda”). Po pripravi knjižnice RNA smo izvedli sekvenciranje s sekvenatorjem Illumina NovaSeq6000. Po končanem sekvenciranju smo z bioinformatsko analizo pretvorili svetlobne signale v zaporedje baz in tako določili nukleotidno zaporedje vseh fragmentov cDNA, s pomočjo “molekularne črtne kode” pa smo določili odčitke, ki so pripadali preiskovanima vzorcema. S specifičnim bioinformatskim orodjem smo odčitke nalegali na referenčni genom, temu pa je sledilo štetje količine odčitkov, ki se nalegajo na posamezne gene. Nato smo uporabili program MD-ALL, ki deluje na podlagi strojnega učenja in lahko iz profila izraženih genov vzorce razvrsti v 26 različnih genetskih podtipov B-ALL. Oba vzorca preiskovanega bolnika sta bila uvrščena v podtip CDX2/UBTF, za katerega sta značilna visoko izražanje gena CDX2 in prisotnost fuzijskega gena UBTF::ATXN7L3. Program MD-ALL omogoča tudi vizualizacijo količine izraženega gena v primerjavi z drugimi vzorci v bazi podatkov. Pri obeh vzorcih smo videli povišano izražanje CDX2 (Slika 3). Potem smo uporabili še bioinformatski cevovod nf-core rnafusion (v. 2.3.4) (50), ki s pomočjo petih različnih orodij (Arriba, FusionCatcher, STAR-Fusion, Squid in Pizzly) določi prisotnost fuzijskih transkriptov, vendar analiza ni pokazala prisotnosti UBTF::ATXN7L3. Podatke smo nato pregledali še v interaktivnem genomskem pregledovalniku IGV (angl. Integrative Genomics Viewer). Ob pregledu regije na dolgi ročici kromosoma 17 smo našli približno 10 kilobaz veliko delecijo, ki vodi v nastanek iskanega fuzijskega gena (Slika 4). S tem smo pri preiskovanem bolniku potrdili prisotnost genetskega podtipa CDX2/UBTF ob diagnozi in relapsu. Ta podtip je bil prvič opisan šele leta 2022, gre pa za podtip z visokim tveganjem za ponovitev bolezni in odpornost na zdravljenje, pri katerem se priporoča intenzivnejše zdravljenje (51). Zanj je značilen tudi specifičen aberanten imunofenotip z odsotnostjo CD10 in prisotnostjo IgM (52), ki je bil viden tudi pri našem bolniku. S standardnimi diagnostičnimi preiskavami te fuzije nismo odkrili, najverjetneje zaradi omejitve algortimov orodij, ki kličejo fuzije, saj imajo lahko ta orodja več problemov z iskanjem intrakromosomskih fuzij, prav tako pa lahko imajo določene kriterije za filtriranje lažno pozitivnih rezultatov. Na detekcijo lahko vplivajo nepopolne anotacije genov, kadar pa imajo geni homologne sekvence, se lahko odčitki nalegajo nepravilno in zato zgrešimo fuzijo. Primer tega bolnika nazorno prikazuje uporabnost sekvenciranja RNA pri bolnikih z B-ALL, sploh pri tistih, pri katerih standardne diagnostične preiskave ne pokažejo nobenih posebnosti (okoli 25 % vseh bolnikov z B-ALL).
ZAKLJUČEK
Sekvenciranje RNA je molekularna tehnika, ki se uporablja tako pri osnovnih kot tudi kliničnih raziskavah. Z njeno pomočjo lahko analiziramo izražanje genov, kar omogoča odkrivanje novih bioloških označevalcev, prav tako pa ima pomembno vlogo pri izboljšanju razumevanja kompleksnejših boleznih, kar je bilo predstavljeno na opisanem kliničnem primeru. S konstantnim tehnološkim napredkom postaja sekvenciranje RNA vse bolj dostopno in uporabno. S povezovanjem sekvenciranja posameznih celic s prostorsko transkriptomiko lahko dobimo vpogled v zgradbo tkiv, heterogenost celičnih populacij in vzorce izražanja genov. Takšen napredek izboljša razumevanje zapletenih bioloških sistemov in prispeva k razumevanju poteka bolezni. Predvidevamo, da bo uporaba sekvenciranja RNA v kliničnih laboratorijih naraščala. Kot je bilo prikazano na kliničnem primeru, se sekvenciranje RNA že uporablja v primerih, ko s standardnimi diagnostičnimi preiskavami ne odkrijemo nobenih genetskih sprememb. Na podlagi določenega molekularnega profila posameznih bolnikov lahko pomaga pri diagnostiki in usmerja odločitve o zdravljenju. Ta pristop se lahko uporablja predvsem pri raku, nevroloških in nevrodegenerativnih, imunskih ter drugih kompleksnih bolezni, kjer uporaba sekvenciranja RNA v zadnjih letih močno narašča, sploh v primerih, pri katerih je izplen sekvenciranja celotnega humanega eksoma in genoma negativen. Z integracijo sekvenciranja RNA z drugimi metodami lahko preučujemo interakcije med RNA in proteini oz. med RNA in RNA. S tem se izboljša tudi naše razumevanje regulatornih mehanizmov, kar bo v prihodnosti odprlo nove možnosti, predvsem na terapevtskem področju. Z napredkom strojnega učenja in umetne inteligence se izboljšuje tudi sposobnost interpretacije velike količine kompleksnih podatkov, ki jih dobimo s sekvenciranja RNA. To bo v prihodnosti dodatno olajšalo odkrivanje novih bioloških označevalcev in terapevtskih možnosti.