Disertatie 27 06 V5 Verif Plagiat [616732]

1
UNIVERSITATEA DIN BUCUREȘTI
FACULTATEA DE BIOLOGIE

LUCRARE DE DISERTAȚIE

Analiza bioinformatică și genetică
a fenomenului de transpoziție la Drosophila melanogaster

Coordonator științific:
Lector Dr. Ecovoiu Al. Alexandru

Absolvent: [anonimizat]
2020

2
1. Introducere
Transpozonii au transformat studiul geneticii prin utilizarea lor ca agenți mutageni
inserționali pentru gene knockout și ca marker -i pentru detecția expresiei genelor (Majumdar și
Rio, 2014) . Utilizarea lor pentru a identifica enhancer -i a permis studiul mecanismelor reglatorii,
studiu dificil de realizat altfel, și abilitatea lor de a efectua transformare genică în linia germinală
a permis adnotarea a întregi genomuri folosind mutageneze rep etate (Finnegan, 1992) .
Drosophila melanog aster (musculița de oțet) este un model experimental ideal pentru
studiul geneticii animale datorită ciclului său de viață scurt de o săptămână de la zigot la adult și
al numărului mare de descendenți. Linii mutante și transgenice de musculițe sunt păstrat e în
număr mare în facilități specializate, de unde pot fi transportate pentru a fi utilizate în
experimente. Genomul acesteia, secvențiat în totalita te, constă într -un număr relativ mic de patru
cromozomi și conține o varietate de elemente transpozabile, inclusiv transpozonul P, primul
descoperit în anii 1960 în urma studiilor sindromurilor de tip disgeneze hibride (Hiraizumi,
1971) . Studiul genomului acesteia este util din considerente practice datorită ortologiei a 60%
din genele acestuia cu cele de la om, printre care gene implicate în maladii neurologice,
metabolice, renale, malformații și cancere (Bernards și Hariharan, 2001) . Diversitatea
fenotipur ilor observabile la lupă a D. melan ogaster face acest organism ideal pentru studiul
efectelor genelor asupra acestuia. Transpozonii pot fi modificați pentru a conține marker -i
genetici , care conferă un fenotip evident atunci când au fost inserați cu succes.
Transpozonii codifică transpozaze, ce mediază fenomenul transpoziției, numit și
mobilizare. Transpozazele acționează in trans , ceea ce permite ca transpozonul și gena
transpozazei să fie plasate în cromozomi diferiți, ce pot fi separați sau aduși î mpreună prin cross –
uri controlate în generații succesive ale pedigree -ului organismului. Transpoziția permite astfel
experimente de mutageneză la scară largă, fără a fi necesare unelte moleculare, de exemplu
mutageneza cu transpozoni, care a fost folosită pentru a genera mutații loss of function la
jumătate din genele D. melanogaster (Mayhew, 2004) .
Transpozaza asociată elementului P de la D. melanogaster , conține un domeniu ce se
leagă de ADN, numit THAP . Gene similare acesteia, clasificate ca THAP9 sau P element
transpozaze -like genes, au fost descope rite în genomuri a numeroase euc ariote cum ar fi la om,

3
Danio rerio , Xenopus , Trichomonas vaginalis , Ciona intestinalis , ariciul de mare și hi dra. Aceste
gene sunt îndeajuns de similare pentru a facilita transpoziția interspecii, de exemplu gena
transpozaze -like de la om poate mobiliza elementul P în celule de D. melanogaster (Majumdar
și Rio, 2014) .
Volumul masiv de date rezultat din experimentele cu transpozoni poate fi prea mare
pentru a fi interpretat dir ect, ceea ce face necesară cunoașterea de concepte din matematică,
statistică și bioinformatică. Baze de date, cum ar fi NCBI (NCBI, 2018) și PDB (Berman et al. ,
2000) , stochează astfel de date despre gene, ARN sau proteine din toată gama de organisme . Alte
baze de date sunt specializat e pentru un singur organism, precum Flybase (Thurmond et al. ,
2018) și Uniprot (UniProt: a hub for protein information., 2015) .
Bioinformatica poate fi d efinită ca stocarea, vizualizarea și analiza datelor medicale, ale
acizilor nucleici, ribonucleici și ale proteinelor. Alinierea secvențelor de nucleotide reprezintă
una din primele realizări ale bioinformaticii și a rămas cea mai comună. Aceasta poate fi folosită
pentru a compara multiple genomuri între ele în scopul evaluării înrudiri filogenetice, pentru a
compara gene sau pentru a determina dacă o anumită genă se regăsește într -un anumit genom.
Transpozonii, odată inserați, devin parte din genom și pot fi analizați ca orice altă genă.
Determinarea situsului de inserție al unuia dintre aceștia se poate realiza prin procesul molecular
de iPCR ( inverse Polymerase Chain Reaction ) și apoi prin alinierea secvenței produsului cu
genomul în care se face căutare a. Acesta nu este un proces exact, din cauza erorilor metodei
PCR, a secvențierii sau a prezenței a multiple secvențe asemănătoare în genom. Determinarea
situsului corect necesită realizarea unei cuantificări a calității alinierii, desemnate de obicei
printr-un scor. În plus, este importantă experiența cercetătorului pentru a identifica rezultate
eronate oferite de algoritmul de cuantificare sau cauzate de reacții defective de iPCR. Anumite
dintre aceste erori, dacă au caracteristici comune și repetabile, p ot fi identificate de algoritmi
succesivi, ceea ce poate crește precizia calculatorului în alinierea corectă.

4
2. Descrierea și scopul studiului
2.1 Scopul studiului de genetică
Scopul acestui studiu constă în caracterizarea fenotipică a genei CG18135 . Motivul
pentru care am ales această genă este faptul că baza de date dedicată pentru D. mela nogaster
(FlyBase) nu conține suficiente date pentru a caracteriza această genă. Intrarea acestei gene din
FlyBase, are ID -ul FBgn0036837 ( toate ID -urile din FlyB ase sunt din varianta de adnotare
FB2020_02) . O intrare în Flybase, care poate fi o genă, alelă, construct artificial sau orice altă
categorie referitoare la organismul model, conține majoritatea informației disponibile la un
moment dat despre aceasta, sub forma unui rezumat și de referințe către sursele informațiilor.
În Figura 1 este prezentată o parte din informațiile referitoare la funcția genei, obținută
din raportul de genă disponibil în FlyBase. Informațiile au fost obținute prin deducții, fie din
asemănarea secvenței cu secvențele unor gene cu funcție cunoscută, fie ca rezultate secundare
din experimente în care au fost studiate alte subiecte. De exemplu, Liu et al., 2008 a folosit yeast
two-hybrid screening (Young, 1998) pentru a determina interactomul genei Sisyphus (ID
FlyBase – FBgn0263705), una din genele cu care aceasta interacționa fiind CG18135 . Deoarece
gena Sisyphus este o genă cu rol cunoscut în producerea unei varietăți de miozină, se poate
deduce că genele care interacționează cu aceasta prin intermediul produșilor genici ar putea fi de
asemenea implicate în procese care implică miozina . Un astfel de experiment poate determina
interacțiuni genice numai din punct de vedere molecular; este posibil ca aceste interacțiuni să nu
existe la nivel de organism.
Pentru a determina efectele fenotip ice ale genei studiate, un studiu genetic este necesar.
În acest scop am propus generarea unei serii polialelice. Aceasta presupune obținerea de mutanți
pentru gena studiată, mutațiile putând fi de tip loss-of-function sau cu efect e fenotipic e noi .
Mecanis mul folosit în acest scop a fost mutageneza excizională cu transpozoni. Aceasta
oferă o metodă facilă și controlabilă de a obține gene knockout prin inserția de transpozoni în
interiorul genelor și de a obține alele noi prin excizia imprecisă a acestora în urma inserțiilor. Un
singur studiu experimental poate genera mii de noi astfel de alele care pot fi apoi secvențiate și
stocate digital (Bellen et al. , 2011) .

5

Figura 1 . Informații referitoare la funcțiile genei CG18135 , cu ID FlyBase FBgn0036837. Funcționalitatea de
myosin binding a fost dedusă prin interacțiunea produșilor genici cu gena Sisyphus , în urma a experimente yeast
two-hybrid screening . Funcțiile glycerophosphocholine phosphodiesterase activity și starch bind ing au fost obținute
prin adnotare automatizată comparând secvența genei cu cele ale unor gene asemănătoare.
2.2 Scopul proiectului de bioinformatică
Scopul acestui proiect este de a aduce îmbunătățiri programului de bioinformatică
GenomeARTIST (Ecovoiu et al. , 2016) prin automatizarea anumitor funcții de interpretare și de
vizualizare a datelor pentru a face utilizarea software -ul mai facilă utilizatorilor, precum și
manipularea ulterioară a unui volum mare de date de cartare/aliniere exportate în fișiere ușor de
utilizat.
Programul urmărește identificarea precisă a locusurilor inserțiilor transpozonilor
mobilizați într -un genom folosi nd date de secvențiere. Detectarea locusurilor poate fi dificilă din
cauza mutațiilor SNP sau a artefactelor de secvențiere din apropierea acestora. Genome ARTIST
este un program cu interfață grafică construit pentru a detecta astfel de inserții, folosind secvențe
obținute în urma unor reacții iPCR sau a altor metode moleculare (Ecovoiu et al. , 2016) .
În plus, un al doilea program a fost dezvoltat în scopul analizei bioinformatice și
matematice a distribuției unui număr de inserții ale elementelor transpozabile . Datele urmărite

6
constau în inserțiile transpozonilor artificiali P{lacW} și P{EP} în genomul D. melanogaster ,
date obținute din FlyBase .
3. Aspecte teoretice
3.1 Aspecte teoretice referitoare la experimentele de genetică
3.1.1 Drosophila melanogaster – model experimental
Modelul experimental folosit în acest studiu este D. melanogaster , insectă din ordinul
Diptera , familia Drosophilidae , întâlnită în majoritatea regiunilor temperate de pe glob unde
aceasta a fost introdusă de om (GBIF Secretariat, 2019). Genomul ace steia are trei perechi de
autozomi și o pereche de heterozomi, XX pentru femele și XY pentru masculi.
Acest organism a fost instrumental în avansul domeniului geneticii de la începutul
secolului XIX, fiind folosit pentru descoperirea relației dintre cromo zomi și ereditate de către
Thomas Hunt Morgan, pentru care a primit Premiul Nobel în 1933, înainte ca funcționalitatea
ADN -ul să fi fost stabilită. D. melanogaster este folosită ca model experimental datorită
facilității îngrijirii și reproducerii acesteia . Avantajele utilizării acesteia în studierea fenomenelor
genetice sunt multiple:
 Ciclul ei de viață este scurt, de aproximativ zece zile, ceea ce permite studiul multor
generații într -o perdioadă scurtă. În plus, acest interval de timp depinde de condiții le de
mediu, ceea ce permite controlul acestuia;
 O femelă depune în general câte 60 de ouă pe zi, ceea ce permite producerea de suficienți
indivizi într -un experiment pentru ca acesta să fie relevant statistic;
 Mișcarea indivizilor poate fi oprită temporar prin anestezierea acestora cu ajutorul unui
flux de dioxid de carbon. Aspectele fenotipice vizuale ale indivizilor pot fi astfel
inspectate folosind o lupă binoculară fără ca aceștia să moară ;
 Masculii și femelele prezintă dimorfism sexual;
 O gamă largă de aspecte fenotipice vizibile ( marker -i genetici) ce pot fi folosite pentru
recunoașterea indivizilor cu anumite genotipuri care prezină interes;
 Recipientele de stocare și mediul folosit drept hrană sunt ușor de produs și manevrat;

7
 Indivizi mutanți pot f i produși facil prin multiple metode;
 În comparație cu genomurile celorlalte organisme vii, genomul musculiței de fructe este
unul dintre cele mai bine studiate și adnotate genomuri. Multiple variante ale genomului
și multiple alele sunt accesibile în baze de date online .

Figura 2. Femelă și mascul de D. melanogaster (Weigmann et al., 2003) .
3.1.2 Mutageneza cu agenți mutageni biologici
Mutageneza reprezintă procesul de inducere de modificări în secvențele genelor unui
organism prin intermediul unor mecanisme fizice (folosind radiații ionizante sau ultraviolete),
chimice (de exemplu, folosind agentu l intercalant proflavina) sau biologice, din ultima categorie
făcând parte transpozonii (Griffiths et al., 2010) .
Transpozonii sunt elemente mobile ce își pot schimba poziția din cadrul genomului, fie
prin generarea de copii care sunt inserate în locusuri noi (categoria transpozonilor de clasă I), fie
prin excizia acestora dintr -un locus și migrarea acestora într -un altul (categoria transpozonilor de
clasă II).

8
Propagarea transpozonilor are multiple cauze posibile. Inserțiile pot altera reglarea și
expresia genică, aceștia putând fi astfel uneltele naturii pentru ingineria genetică. Abilitatea lor
de a rearanja secven țe genetice reprezintă un mecanism de accelerație evolutivă, un caracter ce ar
avantaja purtătorii prin capabilitatea lor crescută de a se adapta la condiții de mediu noi.
Elementele transpozabile pot fi considerate astfel un fenotip se lectabil prin selecț ie naturală care
ar ajuta propagarea populațiilor de organisme ce dețin această trăsătură. O altă interpretare poate
fi considerarea tra nspozonilor ca secvențe parazit care, prin replicarea acestora în diferite
locusuri, evită mecanismele ce elimină sau in activează secvențele nefolositoare evoluționar
(Kleckner et al., 1981) .
Ceea ce face transpozonii utili în generarea de mutații este abilitatea acestora de a
produce excizii imperfecte. Cauzele propuse pentru exciziile imperfecte sunt multiple. În urma
oricărei excizii este lăsată în locusul acesteia o ruptură dublu -catenară. Dacă excizia are loc după
replicarea ADN -ului și există o cromatidă soră cu același t ranspozon, aceasta este folosită ca
matriță, ceea ce duce la restaurarea locusului la starea de dinaintea exciziei. Dacă o cromatidă
soră nu este disponibilă, repararea foloște cromozomul omolog , care poate sau nu să conțină o
copie a transpozonului (Finnegan, 1992) .
O altă cauză este că în timpu l dintre excizie și reparare, capetele ADN pot fi degradate
(Ou, 2013) . Natura duplicației cauzată de inserția transpozonului poate de asemenea afecta
excizia, dacă nucleotidele duplicate nu su nt eliminate complet la excizie sau dacă ambele copii
ale nucleotidelor duplicate sunt eliminate. În plus, deleția secvenței duplica te se poate extinde
pentru a include nucleotide adiacente acesteia, ce nu fac parte din secvența duplicată (O’Brochta
et al ., 1991) . Astfel de deleții sau nucleotide în surplus lăsate de excizia transpozonului
funcționează ca mutații ce pot genera fenotipuri noi , importante pentru analiza funcții lor genelor.
În organisme care suportă mecanismul transpoziției, acesta poate fi folosit pentru a
efectua mutageneză la scară largă, ce poate facilita adnotarea a întregi genomuri codificatoare
prin gene knockout . Dintre modelele experimentale, mutageneza cu transpozoni a fost folosită
începând cu anii 1990 pentru caracterizarea funcțională a genomurilor la Saccharomyces
cerevisiae, Arabidopsis thaliana și D. melanogaster .

9
La momentul secvențierii complete a drojdiei S. cerevisiae , funcțiile a 60% din gene le
acesteia nu erau cunoscute. Ross -Macdonald et al ., 1999 au folosit transpozoni cu marker -i
fenotipici pentru a obține 11 .000 linii mutante de S. cerevisiae , ceea ce a dus la caracterizarea a
2.000 de gene, o treime din genomul acesteia. Acest experiment a efectuat transpoziția folosind
un intermediar, E. coli conținând gene de S. cerivisiae , iar genele mutante rezultate au fost
transferate în linii de drojdi pentru a observa fenotipurile.
Pentru modelul experimental A. thaliana , a fost folosită mutageneza aleatoare direct în
linia organismului studiat p entru a genera mutații în urma inserțiilor transpozonilor , iar situsurile
au fost identificate ulterior folosind tehnica inverse -PCR (Speulman et al. , 1999) . Urmând
presupunerea că inserțiile sunt omognene în genom, studiul citat anterior a pr odus câte o mutație
per 2 .000 bp .
D. melanogaster este modelul unde mutageneza prin transpozon i a fost utilizată cel mai
extins, de interes fiind proiectul BDGP („Berkeley Drosophila Genome Project”) care a adnotat
40% din genomul insectei, folosind mutageneza aleatoare (Bellen et al. , 2004) .
3.1.3 Transpozonul P
Elementul transpozabil P este unul din tre cei mai studiați transpozoni de la D.
melanogaster . Secvența acestuia are puține polimorfisme, dar variază în dimensiune, din cauza
delețiilor din cadrul acestuia. Elementul P complet are 2 .907 de perechi de baze azotate, conține
două gene pentru transpozază și pentru represia transpoziției, iar capetele acestuia prezintă
repetiții terminal e inversate de câte 31 pb. Dacă o deleție cauzează inactivarea genei pentru
transpozază, elementul P poate fi în continuare mobilizat in trans de transpozaza codificată de
către alt transpozon din genom (Daniels și Chovnick, 1993) .
Elementul P este de tip II sau cut-and-paste . Transpozonii de acest tip sunt mobilizați sub
forma unui AD N dublu -catenar, care este transportat în altă regiu ne genomică. Procesul implică
excizia elementului inserat, urmat ă de repararea cromatidei la locusul ruperii legăturii dublu –
catenare, urmat ă de transportul și inserția transpozonului în altă regiune geno mică sau în același
locus. Repararea cromatidei se efectuează utilizând ca matriță o cromatidă a cromozomul ui
omolog sau cromatida soră, iar dacă transpozonul inserat se regăsește în acceași locație în una

10
din aceste matrițe, situsul afectat de inserția or iginală este restaurat, procesul căpătând astfel
aspectul unei mobilizări de tip I sau copy -and-pate (Daniels și Chovnick, 1993; Ratiu et al. ,
2008) .
3.1.4 Metoda Inverse PCR
Inverse Polymerase Chain Reaction (iPCR) este o metodă ce permite determinarea
locației unui element inserat dintr -un genom, atât timp cât secvența sau o parte din secvența
elementului inserat este cunoscută. Aceasta folosește aceeași reactivi ca metoda PCR și în plus
față de aceasta mai necesită enzime de re stricție. Ampliconii rezultați în urma acestei metode
sunt ulterior secvențiați.
Metoda folosește o secvență ADN cunoscută, de exemplu un transpozon, pentru a -l
amplifica pe acesta și zonele adiacente din genom. Astfel, dacă o zonă adi acentă din genom este
amplificată , poziția acesteia în cadrul genomului poate fi determinată , și odată cu aceasta
coordonata de inserție a transpozonului (Sentry și Kaiser, 1994; Martin și Mohn, 2002) . Metoda
iPCR constă în tăierea cu enz ime de restricție în locații fixe din transpozon (de obicei aproape de
capetele transpozonului) și în locații aleatoare din geno mul liniei ce conține inserția. Fragmentele
astfel rezultate sunt circularizate și amplificate prin tehnica PCR. Folosind doi primeri specifici
pentru secvențe din transpozon asociate ambelor catene (plus și minus), fragmentul este
amplificat în ambele sensuri.
Secvențierea poate parcurge doar secvențe relativ scurte (aproximativ 800 p b – 1.000 pb),
astfel rezultatul final depinde de distanța dintre situsul de restricție din genom și regiunea de
legare a primerilor din transpozon . Dacă distanța este mare, va rezulta un produs de PCR „ideal” ,
ce conține o parte din genom și o parte din transpozon. Dacă distanța este mică, produsul va
conține partea din transpozon din avalul primerului , toată partea de genom din fragmentul
circular și poate include o parte a transpozonului din amonte de primer . Toți produșii PCR
selectați pentru secvențiere au structura ideală, cu un fragment transpozon și un fragment genom,
dar proporțiile dintre aceste două tipuri de secvențe diferă de la amplicon la amplicon, iar aceasta
se poate observa în urma secvențierii (Figura 3).

11

3.1.5 Cromozomii balancer
Un obstacol în calea experimentelor de mutageneză îl reprezintă fenomenul de rearanjare
intracromozom ială sau crossing -over. Acesta are loc în profaza I a meiozei și duce la generarea
de cromozomi rearanjați, cu material genetic originând din ambii membrii ai unei perechi de
cromozomi omologi.
Mecanismul rearanjării constă în interacțiunea a două cromatide non -surori dint r-o
pereche de cromozomi omologi (Figura 4 A). Una sau mai multe rupturi, în coordonate identice
sau apropiate în cele două cromatide, duc la schimbul fragmentelor generate în urma acestor
rupturi între cei doi cromozomi (Hawley și Walker, 2003 ). Dacă perechile de f ragmente rezultate
în urma rupturilor din cele două cromatide nu sunt simila re în dimensiune sau în secvența
genetică, rezultatul este un cromozom deficient care duce la letalitatea zigotului ce moștenește un
astfel de cromozom.
Rearanjarea este probabili stică, aceasta putându -se manifesta aleatoriu în anumiți
descendenți ai unui individ și în regiuni aleatoare ale genomului. Astfel de cromozomi rearanjați
Figura 3. ADN este extras și ligat într -un locus fix din
transpozon și în situsuri aleatoare din genom. Rezultă
fragmente cu un capăt determinat de situsul fix și celălalt
capăt determinat de primul situs aleator din genom din
vecinătatea t ranspozonului, care sunt ligate circular.
PCR folosește doi primeri din transpozon, de pe catene
opuse. Secvențierea poate parcurge ampliconul
incomplet, putându -se opri în partea necunoscută de
genom sau să o depășească pe aceasta și să ajungă din
nou în transpozon. (Adaptat după Potter și Luo, 2010)

12
pot face dificilă urmărirea unei gene de -a lungul generațiilor deoarece aceasta poate fi transferată
într-un cromozom care nu conține marker -i fenotipici necesari identificării prezenței acesteia.
Pentru depășirea acestui obstacol au fost construiți cromozomii balancer , ce previn
crossing -over-ul. Aceștia conțin un set de inversii suprapuse ce suprimă r earanjarea
cromozom ială sau fac produsul rearanjării letal pentru zigot. Majoritatea balancer -ilor conțin
inversii paracentrice mici și mari. Inversiile mici paracentrice suprimă apariția crossing -over-
ului, iar inversiile paracentrice mari duc la produși deficienți.
De exemplu, în Figura 4 B, o inversie mare cauzează orientarea greșită a unui cromozom
față de celălalt, produșii rezultați fiind un o cromatidă orfană și un cromozom cu doi centromeri
și trei brațe. După diviziune, gameții rezultați pot conți ne cromozomii neschimbați, cu originea
în cromatidele ce nu au luat parte la procesul de crossing -over, sau cromozomii deficienți, cu
număr anormal de centromeri, rezultați în urma rearanjării. Aceștia din urmă vor duce la zigoți
neviabili. În Figura 4 C, cromozomii s -au aliniat corect, dar produșii rearanjați conțin regiuni
duplicate mari (regiunile a,b și c în primul și i, h în al doilea) ce sunt de asemenea letali pentru
zigot (Hawley și Walker, 2003 ).
Prezența unui construct de tip cromozom balancer într-un individ poate f i verificată
folosind gene marker , ce produc fenotipuri observabile vi zual. Astfel, folosind doar o lupă
binoculară și dioxid de carbon pen tru a imobiliza musculițele, se pot recunoaște genotipurile
indivizilor relevante pentru experiment.

13

Figura 4. (A) crossing -over și produși meiotici viabili; (B) crossing -over în cromozomi balancer -i cu orientare
inversă unul față de celălalt și produșii meiotici în urma celor două diviziuni; (C) crossing -over în cromozomi
balancer -i cu orientare corectă, dar prod ușii meiotici au regiuni duplicate mari (Adaptat după Hawley și Walker,
2003 ).
3.2 Aspecte teoretice referitoare la bioinformatică
3.2.1 Stocarea datelor biologice
Avansurile în tehnologiile biologice din ultimele decenii au dus la generarea de volume
mari de date de tip „omice” (genomice, transcriptomice, proteomice, etc.). Concomitent cu
acestea a avansat și tehnologia computațională ( hardware și software ) care permite stocarea și
analiza acestor volume de date.
Programele de bioinformatică pot fi clasificate în două familii: ce le cu interfață grafică și
cele rulate din linia de comandă. Programele cu interfață grafică, instalate local, sau bazate pe
internet, sunt de obicei utilizate pentru stocare și vizualizare, cum ar fi baze de date ca NCBI,
programe de aliniere ca BLAST ( Basic Local Alignment Search Tool ) sau vizualizare de proteine
ca PDB. Programele în linie de comandă au funcții variate, printre a cestea regăsindu -se

14
programe ded icate tehniciilor de next-generation -sequencing și limbaje de programare ca
BioPython (Edwards, 2004) .
Bazele de date online facili tează inventarierea și accesarea de date biologice într -un mod
organizat și eficient. Acestea pot fi caracterizate ca baze de date primare sau secundare. Cele
primare conțin rezultate experimentale publicate fără analiza în prealabil a rezultate similare d eja
existente, pricipalele astfel de baze de date fiind NCBI, EMBL (Kanz et al. , 2005) și DDBJ
(Ogasawara et al. , 2020) . Cele secundare conțin informații adnotate și unice, exemple f iind PDB
și RefSeq (o secțiune a bazei de date NCBI).
O pagină cu informații referitoare la un exemplu de informație biologică (ce poate face
parte din multiple categorii: secvențe de nucleotide de gene, elemente inserate, produși
experimentali PCR, struc turi de proteine, etc.) este numită intrare și este identificată printr -un
număr de access sau ID (Diniz și Canduri, 2017) . Fiecare bază de date are un format unic de ID,
de exemplu, gena su bunității β a hemoglobinei umane stocate pe RefSeq are codul de acces
NG_059281.1, iar gena globinei „1” a D. melanogaster din FlyBase are ID -ul FBgn0027657.
Genome ARTIST folosește o bază de date locală pentru a stoca informațiile genetice
folosite, și a nume genomuri de referință și elemente inserabile.
3.2.2 Organizarea și accesarea datelor
Accesarea rapidă a datelor în orice bază de date necesită organizarea acestora într -un mod
care facilitează identificarea lor de către un algoritm. Viteza de căutare a unui algoritm este
definită de complexitatea acestuia, ceea ce poate fi cuantificată în mai multe moduri, unul dintre
cele mai comune fiind clasa O, numită și notație „O” mare. Aceasta definește numărul maxim de
pași pe care un algoritm îi poate parcurge pentru a produce un rezultat (Melorose et al., 2015) .
De exemplu, un algoritm de căutare aparține clasei O(lg n) dacă pentru un set de date cu n valori,
pentru a găsi o valoare x, plasată la sfârșitul setului, acesta trebuie să efectueze lg n pași (unde lg
este logaritmul zecimal).
Cele mai comune moduri de organizare sunt arborii de căutare binari și tabelele de hash .
Arborii de căutare binari organizează datele ordonat (modul de ordonare putând fi de finit în orice
fel), ceea ce permite obținerea rapidă a grupuri de date definite de un interval (de exemplu, toate

15
intrările cu ID -uri între 10 și 20). De asemenea, introducerea oricărei valori noi o va plasa pe
aceasta în ordinea corectă. Căutarea unei va lori necesită însă parcurgerea arborelui până la
locația acelei valori, complexitatea medie a unei căutări fiind O(lg n) (Melorose et al., 2015) .
Tabelele de hash pot folosi o organizare ordonată sau neordonată (cea din urmă
reprezintă date care nu sunt ordonate crescător sau descrescă tor dupa nici un criteriu ). Fiecare
intrare are atașată o valoare hash unică sau îndeajuns de rară, calculată folosind elementele
constitutive ale intrării, ce indică poziția intrării în setul de date. O intrare poate fi accesată fără a
parcurge setul de date, doar prin calculul hash -ului acesteia, ceea ce oferă algoritmului o
complexitate O(1). Din cauza neordonării datelor, pentru a accesa un interval de valori este
necesar ă accesarea fiecărei valori individuale (Melorose et al., 2015) .

Figura 5. (A) Un arbore de căutare binar ce conține șase valori (2,3,5,5,7,8); (B) reprezentarea unui tabel de hash ; în
stânga, mulțimea tuturor valorilor de hash posibile și submulțimea hash -urilor folosite pentru setul de date; în
dreapta, setul de date cu adresa fiecărei intrări indicate de valoarea de hash (Adaptat după Melorose et al., 2015) .
Genome ARTIST organizează datele folosite sub forma de tabele de hash , datele fiind
convertite în acest format în timpul introducerii acestora în baza de date locală a programului.
3.2.3 Analiza bioinformatică
Una dintre cele mai comune metode de analiză bioinformatică este reprezentată de
comparația secvențelor de nucleotide sau de aminoacizi. Comparația implică alinierea
secvențelor și este folosită pentru a determina înrudirea evolutivă între organisme sau între gene
și pentru predicția funcțiilor sau a structurilor.

16
Aliniamentele pot fi simple, între două secvențe, sau multiple, folosind mai multe
secvențe. Aliniamentele simple implică un algoritm de aliniere, cei mai folosiți fiind Nee dleman –
Wunsch și Smith -Waterman, și un tabel de scor, exemple fiind PAM (Point Accepted Mutation)
și BLOSUM (Blocks Substitution Matrix ), folosite pentru aminoacizi (Diniz și Canduri, 2017) .
Algoritmii de aliniament multiplu sunt dezvoltați pe baza aliniamentelor simple, folosind
euristici complexe și variate, cel mai utilizat dintre a ceștia fiind Clustal Omega (Madeira et al. ,
2019) .
Algoritmii de aliniere sunt de asemenea implicați în proceduri de identificare a diverse
tipuri de elemente inserate în genomuri, exemple fiin d virusuri și transpozoni. Printre software –
ele disponibile pentru detecția de virusuri se numără VirusFinder, ce permite identificarea din
secvențe obținute prin NGS a situsuri de inserții virale, chiar dacă secvența virusul ui prezent în
experiment nu este cunoscută (Wang et al ., 2013) . Cu o funcționalitate similară, VirusSeq
folosește atât secvențe genomice cât și transcriptomice pentru a detecta secvențe de virusuri
cunsocute (Chen et al. , 2013) .
Printre software -ele actuale dezvoltate pentru detectarea transpozonilor se numără
LoRTE (Long Read Transposable Element ), specializat în folosirea de secvențe long-read,
obținute din tehnologii de tip Third -generation Sequencing (Disdero și Filée, 2017) și iMGEins,
ce folosește date din multiple read-uri pentru a identifica situsurile de inserție (Bae et al. , 2018) .
Un alt aspect al analizei bioin formice îl reprezintă identificarea motivelor de secvență.
Acestea sunt secvențe parțial cons ervate ce mediază realizarea unor funcții specifice în
interacțiunea acestora cu alte molecule, de exemplu motive reglatorii la care se leagă factori de
transcrier e sau secvențe în care se inseră transpozoni. Pentru analiza acestora există programul
TomTom (Gupta et al. , 2007) care poate alinia diferite motive de secvență sau poate interoga
baze de date pentru a returna motive similare deja existente.

17
4. Materiale și metode
4.1 Materiale și metode utilizate în studiul de genetică
4.1.1 Cromozomii balancer utilizați
Pentru acest studiu am folosit doi cromozomi balancer -i pentru cromozomul 3, numiți
TM3 și TM6 . Cromozomul TM3 (ID FlyBase – FBba0000047) conține cinci inversii cu
coordonatele citologice : 65D2 -3;85F2 -4, 92D1 -E1;100F2 -3, 71B6 ;94D10, 76B1;92F4 și
79F3;100D1 (Figura 6 A) (Miller et al. , 2016) . Marker -ii urmăriți în acest studiu pentru a urmări
prezența cromozomului balancer TM3 sunt alelele dominante Serrate (Ser, ID FlyBase –
FBgn0004197 ), Stubble (Sb, ID FlyBase – FBgn0003319) și alela recesivă ebony (e, ID FlyBase
– FBal0003278).
Cromozomul TM6 (FlyBase ID – FBba0000056) conține inversii le: 63C;72E1 -2,
61A;89CD, 92D1 -E1;100F2 -3, 75C;94A (Figura 6 B). Marker -ii acestuia sunt alelele domina nte
Humerus (Hu, ID FlyBase – FBal0000583), Tubby (Tb, ID FlyBase – FBgn0243586) și alela
recesivă ebony .
Fiecare dintre acești cromozomi este letal în formă homozigotă, dar indivizii ce conțin
ambii balancer -i, de formă TM3 /TM6 sunt viabili și se pot reproduce. Alela ebony se manifestă
fenotipic foarte evident în indivizii TM3/TM6, ceea ce permite selecția facilă a acestora.

Figura 6. Cromozomii TM3 (A) și TM6 (B), cu inversiile notate și centromerii marcați cu cercuri (Adaptat după
Miller et al., 2016) .

18
4.1.2 Transpozonul artificial P{lacW}
Linia folosită pentru acest studiu conține un transpozon artificial P{lacW} (ID FlyBase –
FBtp0000204) , derivat din elementul transpozabil P, inserat în gena CG18135.
Dimensiunea acestuia este de 10 .691 pb și între capetele invers repetate specifice
elementului P conține: la capătul 5’ gena pentru transpozază (nefuncțională) legată d e gena lacZ
(ce codifică β -galactozidază), urmate de gena miniwhite , iar la capătul 3’, o origine de replicare
plasmidială și o genă pentru rezistență la ampicilină. În plus, conține multiple situsuri de
restricție (Bier et al. , 1989) .
Marker -ul folosit pentru a urmări transpozonul P{lacW} este constructul artificial
miniwhite (ID FlyBase – FBal0028610)( w, ID FlyBase – FBgn0003996). Pentru a face vizibil
fenotipul cauzat de acest construct am folosit ca background genetic gena white , localizată în
cromozomul X. Alela defectivă w- a genei white duce la alterarea căii metabolice ce determină
fenotipul normal (ochi roșii), indivizii mutanți w- având în schimb ochi albi. Cu un astfel de
background ochii pot fi pigmentați din nou dacă exi stă în genom o genă asemănătoare genei
white care să redea funcționalitatea metabolismului, aceasta fiind în acest caz constructul
miniwhite , conținut în transpozonul P{lacW} .
Atunci când transpozonul P{lacW} este inserat în formă completă în genomul unei linii
w- , acesta duce la fenotipuri cu ochi colorați. Gena miniwhite are efect cumulativ, iar acest efect
este mai slab decât cel al alelei normale a genei white , dar acest fapt depinde și de locația
inserției (efect de poziție) . Un singur transpozon inserat cu o copie a acestei gene generează de
obicei ochi de culoare mai deschisă decât indivizii wildtype (sălbatici), de obicei o nuanță de
portocaliu. Multiple copii ale transpozonului duc la culori ale ochilor din ce în ce mai în chise
(efect de doză) , acestea putând fi mai întunecate decât cele ale ochilor wildtype , nuanțele putând
fi de vișiniu.
4.1.4 Verificarea mutațiilor
Pentru a obține date despre natura exciziilor, am efectuat un experiment PCR pentru a
identifica excizii imperfecte ce ar putea fi surse pentru fenotipuri noi. Rolul experimentului este

19
de a măsura dimensiunile secvențelor dintre perechi de primeri din jurul locului exciziei pentru a
determina variații în acestea.
Am folosit patru primeri pentru a genera doi ampliconi de PCR: un amplicon scurt,
încadrat de primerii short -F și short -R (short -forward și short -reverse ), cu dimensiunea de 555
pb și un a mplicon lung, încadrat de primerii long-F și long-R, cu dimensiunea de 1 .849 bp.
Ambele secvențe conțin locusul de excizie al transpozonului în cadrul lor. Coordonata locusului
de excizie este 18.996.762, în brațul lung al cromozomului 3, ampliconul scurt se regăsește între
coordonatele 18 .996.450 și 18 .997.005, iar cel lung între 18 .995.728 și 18 .997.577. Un raport cu
detaliile primerilor , generat de software -ul UCSC GenomeBro wer poate fi văzut în Figura 7.
ACTIONS QUERY SCORE START END QSIZE IDENTITY CHROM STRAND START END SPAN
––––––––––––––––––––––––––––––––––-
browser details CG18135-long-f 21 1 21 21 100.0% chr3L + 18995728 18995748 21
browser details CG18135-long-r 22 1 22 22 100.0% chr3L – 18997556 18997577 22
browser details CG18135-short-f 20 1 20 20 100.0% chr3L – 18996986 18997005 20
browser details CG18135-short-r 21 1 21 21 100.0% chr3L + 18996450 18996470 21
Figura 7. Coordonatele capetelor primerilor folosiți (Obținut de la http://www.genome.ucsc.edu/cgi –
bin/hgGateway).
Pentru a măsura dimensiunea ampliconii rezultați, am folosit ca ladder GeneRuler 100bp
Plus (produs de Thermo Fisher Scientific, număr catalog SM0321), cu fragmentele de
dimensiuni: 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1200, 1500, 2000, 3000 .
Pentru extragerea ADN, am folosit Kit INVITROGEN PureLink DNA (Thermo Fisher
Scientific, număr catalog K182001). Am pus câte douăzeci de musculițe din fiecare linie
excizională ( zece masculi și zece femele) în tuburi Eppendorf cu 180 µl Digesion Buffer fiecare
și le-am lăsat la -20șC pentru stocare. După dezghețare, am adăugat 30 µl de proteinază K în
fiecare tub și am mojarat conținuturile, urmat de incubare la 55șC timp de o oră. Am centrifugat
tuburile la 10 .000g timp de trei minute la temperatura camerei, am transferat supernatantul și am
adăugat 200 µl Lysis/Binding Buffer și 200 µl etanol.
Am transferat produsul în colonițe PureLink SPIN și am centrifugat la 10 .000g pentru un
minut. Am schimbat tuburile de colecție, am adăugat 500 µl Wash Buffer 1 preparat cu etanol în
colonițe și am centrifugat din nou. Am repetat procesul folosind Wash Buffer 2 . Am adăugat 55
µl Elution Buffer și am colectat ADN -ul purificat în tuburi de colecție. Am măsurat concentrația
de ADN din fiecare linie excizională folosind spectrofotometru NanoDrop , produs de Thermo

20
Fisher Scientific. Concentrația cea mai mică a fost de 133 µg/µl, iar cea mai mare de 298,5
µg/µl.
Pentru reacția de PCR, am adus mai întâi concentrațiile primerilor la o concentrație stoc
de 10 µM, din care am produs concentrații de 0,3 µM, concentrațiile inițiale pentru aceștia fiind:
long-R – 58,7 M, long-F – 69,8 M, short -R – 57,6 M, short -F – 72,9 M. Am produs două
amestecuri pentru cele două perechi de primeri , unul pentru ampliconul scurt și unul pentru cel
scurt. Pentru fiecare linie excizională am produs două tuburi Eppendorf. Un tub pentru
ampliconul scurt conține 5 µl Buffer PCR (1x); 2,5 µl MgCl 2 (0,0025 µM); 0,5 µl dNTP (0,0002
µM); 0,26 µl Polimerază Taq (1,3V/ µl); 1 µl ADN; 0,75 µl primer short -F (0,3 µM); 0,75
primer short -R (0,3 µM); 14,2 µl H 2O. Un tub pentru ampliconul lung conține același amestec
dar cu primeri diferiți.
Ampliconii produși de reacția PCR au fost măsurați folosind electroforeză cu gel de
agaroză. Gelul a fost preparat folosind 98,5 µl Buffer TAE 1x, 1,5 g agaroză și 6 µl MidoriGreen
(produs de Nippon Genetics, număr catalog MG04).
4.2 Materiale și metode uti lizate în studiul de bioinformatică
4.2.1 Disponibilitatea software -ului
Genome ARTIST a fost dezvoltat ca un produs open -source , sub licența publică GNU
(Free Software Foundation, 2007) , scris în limbajele de programare C++ și Java. Codul sursă al
versiuni 2.0, implementată pentru această lucrare, e ste valabil online pe website -ul GitHub
(‘Ecovoiu et al ., 2020) de unde poate fi compilat pentru a genera un program funcțional.
Compilarea codului de C++ se face prin rularea scriptului makefile din directorul
~/genomeartist/sources_c folosind orice compilator pentru acest limbaj. Comp ilarea codului de
Java necesită programul Apache Ant (Apache Software Foundation, 2020) și rularea script -ului
build.xml din directorul ~/genomeartist/ant_build .
4.2.2 Funcționalitatea programului Genome ARTIST
Datele folosite de Genome ARTIST pentru a funcționa sunt reprezentate de:

21
1) o referință, de obicei un întreg genom, separat în cromozomi; permite de asemenea și
încărcarea de genomuri multiple;
2) secvențe referențiale ale unor elemente care au proprietatea de a se insera (transpozoni
sau virusuri);
3) secvențe de căutare ( queries ) obținute experimental sau din literatura de specialitate;
4) adnotări ale genomului de referință.
Referința și elementele inserabile sunt încărcate în prealabil în program pentru a crea o
bază de date locală în care se vor desfășura căutarile. Secvențele query sunt introduse într -o
fereastră de căutare, fie câte una, fie multiple, sub formă FASTA. Programul efectuează alinieri
succesive a query -ului cu referința și a query -ului cu fiecare element inserabil, folosind o
euristică originală de aliniere ce se bazează pe algoritmul Smith -Waterman. Aceste două alinieri
sunt apoi comparate pentru a determina nucleotida graniță dintre referință și unul dintre capetele
inserate. O secvență query este generată prin secvențierea unui amplicon specific obținut prin
tehnica iPCR.
În versiunea precedentă (1.19), Genome ARTIST oferea utilizatorului doar rezultatul în
formă g rafică a alinierii produsului reacție i iPCR cu genomul și transpozonii selectați.

Figura 8. Rezultatele alinierii pentru multiple queries versus genomul D. melanogaster . Cu roșu este marcată
secvența parțială a transpozonului P{lacW} , iar cu albastru este marcată secvența de ADN genomic. Imagine
generată folosind Genome ARTIST.

22
Pentru fiecare secvență de nucleotide introdusă ca și query (indiferent dacă sunt introduse
una căte una sau multiple cu delimitatori FASTA) programul generează o fereastră cu rezultatele
căutării. În această fereastră sunt dispuse toate rezultatele găsite pentru query -ul respectiv,
ordonate după scorul aliniamentelor (Figura 8). Fiecare rezultat reprezintă aliniamentul a două
secvențe de nucleotide, respectiv cea a query -ului (totală sau parțială) și o subsecvență din
secvența de referință. Aceasta din urm ă conține segmente, numite și intervale, din genomul
referință, colorate cu albastru, și segmente din elementele inserate, colorate cu roșu. Dacă unul
dintre aceste rezultate este selectat, se deschide o nouă fereastră în care pot fi vizualizate cele
două secvențe aliniate în detaliu, la nivel de nucleotidă, iar sub acestea, un tabel, unde pe fiecare
linie este dispus unul dintre intervalele menționate mai sus, aliniat cu un fișier din baza de date,
fie cromozom, fie element inserabil (Figura 9).
Sunt afiș ate coordonatele exacte, iar pentru alinierea versus un cromozom sunt dispuse și
genele din interiorul, avalul și amontele alinierii. Fiecare fereastră este stocată într -un fișier .ga
ce poate fi încărcat într -o sesiune ulterioară a programului pentru a re da fereastra în aceeași
formă ca în sesiunea în care a fost creată.
Figura 9. Detaliile unui rezultat cu două intervale transpozonice (roșu) și unul genomic (albastru), aflat în interiorul
genei Rgl (verde). Imagine generată folosind Genome ARTIST.

23
În cazul ideal, rezultatul conține secvența unei porțiuni a referinței alături de cea a unui
element inserat, caz în care nucleotida graniță este evidentă ca fiind cea dintre cele două intervale
genom și transpozon . Dacă genomul a fost tăiat de enzima de restricție prea aproape de primer –
ul fix din transpozon, rezultatul va conține două intervale din transpozon care îl vor flanc a pe cel
din genom. În acest caz una din joncțiunile transpozon -genom este nucleotida graniță în timp ce
cealaltă reprezintă situs ul de ligare la circularizare din cadrul reacției iPCR. Determinarea
nucleotidei graniță nu era evidențiată de program, ceea ce făcea necesară o cunoaștere detaliată a
tehnicii iPCR și a programului în sine pentru a determina varianta corectă.
5. Rezultate
5.1 Rezultatele studiului de genetică
5.1.1 Gena studiată
Gena studiată, CG18135 este situată în cromozomul 3, brațul lung, în catena antisens și
are cinci variante de splicing alternativ, notate A, B, C, D, E. Două dintre acestea (D și E) conțin
un singur exon, iar trei (A, B, C) conțin exonul primar, un intron în amonte și un al doilea exon
secundar.
Intronul variază în dimensiune pentru cele trei splicing -uri, C având intronu l cel mai
scurt, A mai lung decât C, iar B cel mai lung. Gena poate fi astfel considerată ca având trei
introni și patru exoni. Structura acestei gene a fost vizualizată folosi nd UCSC Genome Browser
(Kent et al. , 2002), cu genomul de referință Aug. 2014 (BDGP Release 6 + ISO1 MT/dm6 ,
(Figura 10). URL -ul pentru generarea imaginii este: https://genome -euro.ucsc.edu/cgi –
bin/hgTracks?db=dm6&lastVirtModeType=default&lastVirtModeExtraState=&virtModeType=
default&virtMod e=0&nonVirtPosition=&position=chr3L%3A18976061%2D19015791&hgsid=
238959176_U2wvtk476m4pyzufEGkZpWb3kjTi

24

Figura 10. Cei cinci transcripți ai Genei CG18135 (sus cu albastru). Ordinea lor de sus este: D, C, B, A, E.
5.1.2 Liniile folosite
Linia de D. melanogaster de la care a pornit experimentul este MZ4CM3 (ID GenBank –
HQ695001.1, ( NCBI, 2018) , pe care am ales să o simbolizăm CG18135Sep1 și care conține alela
inserțională homozigot letală CG18135P{lacW}CG18135.MZ4CM3. O căutare folosind Genome ARTIST
a secvenței asociate liniei MZ4CM3 din baza de date NCBI ca și query și cu transpozonul
P{lacW} ca element inserabil, rezultă în coordonata de inserție 18 .989.855 din brațul stâng al
cromozomului trei, aceasta fiind local izată în primul intron din sensul 3’→5’ al genei CG18135 .
Cromozomul cu inserția studiată era balansat cu un cromozom TM3SbSere . Marker -ii
fenotipici ai acestora sunt Sb, Ser și ochi roșu deschis. A doua linie, balansată cu TM6TbHue,
conține elementul inse rat P{Δ2 -3} (ID FlyBase – FBti0000124) și este numită Δ2-3Sb. Aceasta
deține o sursă de transpozază pentru elementul P, fără a conține transpozonul propriu -zis și mai
deține un marker Sb. După încrucișarea acestor linii au fost culeși indivizii CG18135Sep1/Δ2-3Sb
(Figura 11, F0 și F1). Acești indivizi conțin atât un transpozon cât și transpozază funcțională,
astfel elementul inserat este mobilizat. Aceștia au fost identificați fenotipic după lipsa marker –
ilor balancer -ilor și după ochii mozaicați, efect al transpoziției variate în diferite grupuri de
celule ale ochilor, unele grupuri având o singură copie a transpozonului, altele multiple copii, iar
altele nici una. În mod similar cu celulele ochilor, gameții acestora sunt de asemenea variați în
numărul eve nimentelor de mobilizare.
Indivizii de interes au fost încrucișați cu linia TM3 /TM6 pentru a elimina sursa de
transpozază și pentru a balansa eventualele mutații letale. De obicei transpoziția are loc în
indivizi al căror părinte mascul conține transpozon i activi (tip P) și al căror părinte femelă are

25
genotip normal (tip M) (Daniels și Chovnick, 1993) . Transpozonul artificial și gena pentru
transpozază izolată au permis depășirea acestei limitări.
Astfel, am încrucișat atât câte un mascul mozaicat cu femele TM3 /TM6 , cât și femele
mozaicate cu masculi TM3 /TM6 (Figura 11, F1). Dintre descendenții acestora am observat
indivizii CG18135Sep1/TM3SbSere și CG18135Sep1/TM6TbHue , prin selecția celor ce au marker -ii
caracteristici numai unuia dintre cei doi balancer -i.
Din categoria celor cu părint e mascul mozaicat am obținut două sprezece linii, notate de la
M1 până la M12, iar din al doilea tip, cel cu părinte femelă mozaicat, șase linii, notate de la F1
până la F6 (Figura 11, F2).
Fiecare descendent avea ochii de o singură culoare, aceasta putând fi alb, o nuanță de
portocaliu sa u de roșu. Am numărat acești indivizi după culoarea ochilor și sex (masculi cu ochi
albi, femele cu ochi, masculi cu ochi portocalii, femele cu ochi portocalii, masculi cu ochi roșii,
femele cu ochi roșii) și după cat egoria părintelui mozaicat ( Tabelul 5 din Anexă ).
Pentru a selecta indivizii în al căror genom a avut loc excizia transpozonului, am cules
dintre aceia cu ochi albi. În scopul de a produce linii stabile cu aceste excizii am încrucișat câte
un individ cu ochi albi cu indivizi de sex opus TM3 /TM6 (Figura 11, F2).
Astfel am obținut mai multe linii cu muțatii excizionale, notate după descendentul
mozaicat din două generații precedente, de exemplu M2-Ex (Figura 11, F3). Aceste linii au fost
monitorizate pe parcursul a mai multe luni pentru a iden tifica indivizi homozigoți pentru
cromozomul cu excizie. Exciziile respective s -au dovedit a fi homozigot letale, cu doar câțiva
escaper -i găsiți în liniile M4-Ex și M6-Ex. Dintr -un total de 140 de indivizi inspectați la lupa
binoculară al liniei M4-Ex, au fost găsiți trei escaper -i, iar din cei 58 ai liniei M6-Ex a fost găsit
unul singur . Acești indivizi homozigoți au fost incapabili de reproducere ( Tabelul 6 din Anexă ).

26

Figura 11. Cross -urile efectuate pentru producerea linii lor excizionale.
5.1.3 Interpretarea rezultatelor
Rezultatele experimentului de electroforeză sunt prezentate în Figura 12.
Pentru liniile de control Oregon și pentru cele unde a avut loc excizie completă, rezultatul
preconizat este o bandă de 555 pb pentru coloanele ce au folos it primerii short și 1.849 pentru
coloanele cu primerii long. Deoarece fiecare linie excizională a fost balansată folosind
cromozomi TM3 sau TM6 , reacțiile PCR care folosesc drept matriță ADN provenit din acești
cromozomi a u generat de asemenea ampliconi de aceste dimensiuni. Deleții sau nucleotide în
surplus vor genera benzi suplimentare față de cele de dimensiuni 555 pb sau 1.849 pb, dacă
ampliconul este mai scurt decât poate suporta reacția PCR (aproximatic 3 .000 bp) și dacă ambii
primeri i se pot lega de secvențele lor corespunzătoare . O consecință a acestor benzi de
dimensiuni constante este că pot face difici l de distins benzi apropiate , produse în urma
mutațiilor minore. Figura 1 3 A, prezintă o schemă cu potrivirea unui amplicon long constant în
cadrul genomului.

27

Figura 12. Rezultatele electroforezei la lumină UV, unde Ladder sunt GeneRuler 100bp Plus , coloanele cu
denumiri ce se termină în „-S” au folosit perechea the primeri short , cele ce se termină în „ -L” au folosit primerii
long, iar Oregon este o linie de control, fără excizii. ADN -ul a migrat de sus în jos.
În Figura 12 , în coloanele M2-Ex-L și M11 -Ex-L poate fi distinsă câte o bandă în plus
față de cele constante. Aceste col oane au folosit primerii long, iar benzile suplimentare au mase
mai mari decât cele constante specifice acestor primeri . În Figuria 1 3 B se poate vedea o
propunere a potrivirii acestor ampliconi în cadrul genomului.
Doar două linii excizionale au generat ampliconi în plus, dar toate cele opt au fost
verificate ca fiind homozigot letale. Linia cu inserția originală CG18135Sep1 era de asemenea
letală în formă homozigotă. Astfel, este improbabil ca liniile ce nu au preze ntat ampliconi în plus
la electroforeză să conțină excizii perfecte, din moment ce acestea ar fi prezentat indivizi
homozigoți viabili. Rezultă, deci, că aceste linii prezintă fragmente de nucleotide aparținând
transpozon ului prea mari pentru a fi evidenți ate de reacția PCR sau exciziile au dus la pierderea
uneia sau amândurora secvențelor complementare primerilor .
O ipoteză a cauzei letalității liniilor este interferența cu gene alăturate genei studiate. În
aval de aceasta și suprapusă cu exonul doi al tr anscriptului B al acestei gene se află gena
CG3808 , cu Id FlyBase FBgn0036838 (Figura 6). Inserția transp ozonului se află la o distanță de

28
8.000 pb de CG3808 . Genei vecin e i-au fost identificate alele letale în stadiul embrionic, iar
funcția acesteia a fost identificată ca fiind de metiltransferază (Neely et al. , 2010) . Drept urmare,
este plauzibil ca transpozonul, sau efectele transpoziției acestuia, să interfere cu mecanismele
reglatoare ale genei CG3808 .

Figura 1 3. Schema ampliconilor generate în urma PCR. (A) Excizie completă; primerii long-F și long-R generază
un ampliconi de 1849 bp . (B) Excizie imperfectă; în locul exciziei se găsesc un număr de nucleotide în surplus;
dimensiunea ampliconului generat în acest caz este egală cu suma dintre dimensiunea ampliconului de la excizia
completă și cea a surplusului.
5.2 Rezultatele lucrării de bioinformatică
5.2.1 Identificarea graniței genom -transpozon
Unul dintre update -urile aduse programului Genome ARTIST a fost automatizarea
procesului detectării locusului de inserție în scopul evidențierii nucleotidei graniță. Această
funcție a fost introdusă nu numai pentru cazuri transpozon -genom -transpozon dar și pentru
cazuri de autoinserție transpozon -transpozon și cazuri artefact, de exemplu genom -transpozon –
transpozon.
Algoritmul de identificare a nucleotidei graniță (numită și TGN – terminal genomic
nulceotide ) inspectează marginile intervalelor ( partial alignments ) obținute prin alinierile
secvențelor derivate prin iPCR pentru a căuta capătul 5’ sau 3’ al unui transpozon inserat. Un

29
interval, reprezentat în intefața grafică printr -un segment colorat cu roșu sau albastru, este
caracterizat prin două coordonate nucleotidice pen tru cele două margini ale sale, valorile acestor
coordonate depinzând de cadrul de referință al intervalului. Acesta depinde de fișierul din baza
de date unde se află secvența intervalului.
De exemplu, un interval redat în interfața Genome ARTIST cu culoa rea roșie, notat cu
„P{lacW}” va avea coordonatele în cadrul de referință al transpozonului P{lacW} introdus în
baza de date ca element inserabil. Capătul 5’ terminal are, invariabil, valoarea „1” în cadrul de
referință al transpozonului, dar erori de alin iament sau mutații pot duce la pierderea primelor
câteva nucleotide de la capătul intervalului. In acest caz, algoritmul caută coordonata din
transpozon cu valoarea mai mică sau egală cu „10”. Această valoare a fost aleasă deoarece este
egală cu dimensiune a nucleului folosit de sistemul de aliniere al Genome ARTIST . Dacă un
capăt 5’ nu este găsit, algorimul caută capătul ui 3’ al transpozonului, pentru care este suficient a
găsi marginea transpozonică de valoarea maximă , ce corespunde acestui capăt .

Figura 14. Rezultatele grafice ale unei autoinserții cu capătul 5’ (A), capătul 3’ (B) și un rezultat cu o inserție
genomică în primul grup și un artefact în al doilea grup (C).

30
De exemplu, î n Figura 14 A, rezultatul conține trei intervale: un transpozon c u
coordonate 10.380 și 10.265, un genom cu coordonate 13.913.178 și 13.913.212, și un
transpozon cu coordonate 10.691 și 10.657. Dintre cele două coordonate alăturate celor două
joncțiuni transpozon -genom ale celor doi transpozoni (10.265 și 10.691), nici una nu este mai
mică decât zece (semnificând un capăt 5’ terminal); algoritmul identifică în acest caz capătul 3’
terminal ca fiind coordonata din transpozon cu valoarea cea mai mare, 10.691, care este, de
asemenea, lungimea exactă a transpozonului P{lacW} folosit ca element inserabil.
Coordonata din genom unde transpozonul a fost inserat este cea de lânga această valoare,
și anume, 13.913.212 indicată cu verde. Această coordonată este localizată în cromozomul 3L
(brațul stâng – left al cromozomului 3) din varianta de adnotare Dmel_r5.57 . Pseudocodul din
Figura 1 5, reprezină numai pașii din algoritm pentru a determina nucleotida graniță de la Figura
14 A.

if(grup_de_intervale contine 3 intervale ){

if(interval [1] = transpozon ^ interval [2] = genom ^ interval [3] =
transpozon ){

¬if(coordonata_stanga_interval [3] < 10) {

if(coordonata_dreapta_interval [1] <
coordonata_stanga_interval (3)){
transpozon ← interval [3]
genom ← interval [2]

}
}
}
}
Figura 1 5. Pseudocodul care descrie determinarea graniței din exemplul din Figura 14 A .
Dacă în exportul grafic al unui rezultat de cartare a inserției apar mai multe intervale de
culoare roșie, acesta este un caz de auto -inserție (inserție de transpozon în transpozon). În aceasta
situație, unul din transpozoni are rolul de element inserat, iar celălalt de genom referință în
rezultat. Transpozonul cu rol de element inse rat este dedus prin examinarea coordonatelor
nucleotidice ale celor doi transpozoni într -un mod similar algoritmului descris anterior.

31
În exemplul autoinserției de la Figura 14 B, u n capăt trebuie găsit în oricare dintre
marginile alăturate joncțiunilor, a le tuturor intervalelor corespunzătoare secvențelor
transpozonilor prezentați în rezultat. O margine cu valoarea unu este identificat în primul
interval, semnificând capătul 5’ terminal. Acest prim interval este identificat ca fiind elementul
inserat, care a efectuat transpoziția în al doilea interval transpozonic , la coordonata 2 .101. Al
treilea interval este, deci, un artefact de secvențiere.
În Figura 14 C, nu există nici o coordonată cu valoarea mai mică sau egală cu zece, așa că
algoritmul caută un ca păt 3’ terminal, sub forma coordonatei cu valoarea cea mai mare dintre
cele alăturate joncțiunilor, aceasta fiind 10 .690, iar coordonata de inserție în al doilea transpozon
este 2 .109. Se poate observa faptul că dimensiunea transpozonului P{lacW} este cu u nu mai
mare decât 10 .690, ceea ce sugerează o deleție sau mutație punctiformă.
Dacă apar mai mult de trei intervale în rezultat, cele în plus sunt de cele mai multe ori
artefacte de secvențiere. Acestea trebuie filtrate pentru ca intervalele corecte ce re flectă realitatea
biologică să rămână pentru a fi procesate de algoritmul de identificare a graniței. Filtrarea
funcționează prin plasarea tuturor intervalelor în grupuri, fiecare grup conținând intervale
consecutive ce au distanțele dintr e ele mai mici de cât o limită, numită toleranță , setată de
utilizator . Grupul care conține o graniță între două din intervalele din cadrul acestuia ce
îndeplinește cerințele unui capăt terminal, este selectat ca cel ce conține intervalele biologice
pentru a fi apoi procesat.
De exemplu, în Figura 14 C, sunt două grupuri di stincte, primul conținând un transpozon
și un genom, iar al doilea numai un transpozon. Primul grup conține o joncțiune, ceea ce este o
cerință pentru existența unei nucleotide graniță, așa că acesta este luat ca fiind grupul cu intervale
reale biologic, i ar al doilea grup este un artefact. Pseudocodul din Figura 1 6, conține pașii
esențiali ai algoritmului de filtrare.

32

while(i < numar(intervale )){
set_intervale_aux ← adauga(interval [i]);
i ← i + 1
if(i = numar(intervale )) {
grupuri_intervale ← adauga(set_intervale_aux )
iesire din bucla
}
while(intervale (i).coordonata_stanga – interval [i-1].coordonata_dreapta –
1 ≤ toleranta ){
set_intervale_aux ← adauga(interval [i])
i ← i + 1
if(i = dimensiune_set_date)
iesire din bucla
}
grupuri_intervale ← adauga(set_intervale_aux )
}

for(j de la 0 la numar(grupuri_intervale) ){
valoare_maxima ← 0
for(k de la 0 la numar(grupuri_intervale .grup[j])){
if(grupuri_intervale .grup[j].interval [k].coordonata_dreapta ≤ 10)
return grupuri_intervale .grup[j]
else if(grupuri_intervale .grup[j].interval [k].coordonata_dreapta >
valoare_maxima ){
valoare_maxima ←
grupuri_intervale .grup[j].interval [k].coordonata_dreapta
grup_biologic ← grupuri_intervale .grup[j]

}
return grup_biologic
}
Figura 1 6. Pseudocod pentru filtrarea intervalelor artefact.
Toleranța se aplică și pentru intervalele biologice. Deleții dispuse aproape de locusul
inserției pot produce intervale genom -transpozon care au spații între ele, aceste spații rezultând
în urma unui aliniament imperfect între query și referință. Toleranța permite ignorarea acestor
imperfecțiuni și tratarea acestor rezultatele ca aliniamente corecte, din care se pot identifica
nucleotidele graniță. De exemplu, în Figura 14 C, în query se poate vedea un spațiu de aliniere
imperfectă de o nucleot idă între coo rdonatele 80 și 82. Distanța dintre cele două intervale fiind
mai mică de zece nucleotide, acest spațiu este ignorat, iar joncțiunea este considerată validă
pentru existența unei nucleotide graniță.

33
Un aspect interesant al transpozonilor este duplicația, la locul inserției, a unui grup de
nucleotide din genom. Fiecare tip de transpozon are un motiv de secvență unde se inseră . În
cadrul motivului de secvență (sau identică cu acesta) există o secvență duplicație ( target site
duplication – TSD). În urma inser ției transpozonului, acest TSD din cadrul genomului apare de
două ori, imediat în amonte și în avalul elementului inserat, iar în urma exciziei acestuia, copia
duplicată dispare. De exemplu, pentru transpozonul P al Drosophilei , secvența consens este
ATRGT CCGGACWA, iar TSD este reprezentat de opt nucleotide din mijlocul acesteia,
GTCCGGA (Linheiro și Bergman, 2008) . Inserția se face de o parte sau alta a TSD -ului (Figura
17). O consecință a acestui mecanism este imposibilitatea determinării exactă a situsului
inserției. Deoarece tran spozonul este flancat de secvențe identice, acesta poate să se fi inserat fie
în amontele TSD -ului (situs 5’), fie în aval (situs 3’).

Figura 1 7. În stânga, secvența consens a transpozonului P, unde aceste este inserat în avalul și în amontele secvenței
TSD. În dreapta, rezultatul după transpoziție. În ambele cazuri, rezultatul este identic. (Adaptat după Linheiro și
Bergman, 2008)
5.2.2 Funcții de export
Studiul secvențelor consens corespunzătoare acestor duplicații sunt impor tante pentru a
determina mecanismele exacte de transpoziție. Prin natura inexactă a secvențelor consens,
analiza acestora, inclusiv determinarea secvențelor, necesită volume mari de date. În scopul
facilitării interpretării unor astfel de date, am implementat programului Genome ARTIST,
diferite funcții de export a secvențelor din apropierea locusurilor de inserție, în format FASTA.
Deoarece dimensiunile acestor secvențe variază pentru fiecare tip de tran spozon, utilizatorul
poate seta lungimea secvenței ce urmează a fi exportată pentru toate funcțiile implementate.

34
5.2.2.1 TSD Sequence at Insertion Site
Prima din tre aceste funcții este cea pentru exportul TSD -ului. Acesta reprezintă un grup
de nucleotide din genom, de lungime definită n, aflate în vecinătatea nucleotidei graniță, notată
cu verde în interfața grafică a programului în noua versiune, și cu care începe d e fapt TSD -ul.
Pentru a -l exporta este suficient ca primele n nucleotide de lângă graniță să fie scrise într -un
fișier FASTA. Spațiile ( gap-urile) de aliniere nu sunt numărate, de exemplu, dacă utilizatorul a
setat exportul a opt nucleotide, dar sunt două spații printre acestea, atunci vor fi adăugate mai
multe nucleotide în continuare până când se vor găsi opt nucleotide propriu -zise în secvența
output . Transpozonii se pot insera în genom sub forma a două orientări:
 orientare de tip I – pentru transpozoni, aceasta înseamnă că transpozonul s -a inserat
cu catena sa referință în catena referință a genomului; pentru retrotranspozoni,
înseamnă că ARN -ul inserabil s -a stabilit în catena referință a genomului;
 orientare de tip II – pentru transpozoni, aceștia s -au inserat cu catena lor referință în
catena complementară referinței genomului; pentru retrotranspozoni, aceștia s -au
stabilit în catena complementară referinței genomului.
La export, orientarea transpozonului este corelată cu catena genomului din care est e
extrasă secvența. Dacă orientarea este de tip I, exportul se face din catena referință a genomului,
iar dacă aceasta este de tip II, secvența este extrasă din catena non -referință și este revers –
complementată înainte de a fi adăugată în fișier. Aceasta s e datorează continuității catenelor
transpozonului cu cele ale genomului. Dacă elementul inserat are orientare de tip I, catena
referință a acestuia este în continuarea celei de referință a genomului. Produsul iPCR folosit ca și
query conține în acest caz secvențe din catena referință atât a genomului cât și a transpozonului.
În mod natural, Genome ARTIST găsește acestui query alinieri în catena referință a genomului,
de unde exportă rezultatul. Analog, în orientarea de tip II, query -ul conține secvențe din catena
non-referință din cadrul genomului și cea de referință a transpozonului.
Nucleotidele sunt luate din catena referință a genomului, chiar și în cazul în care Genome
ARTIST arată rezultatele unui aliniament de pe catena non -referință. Funcția permite exportul
unor volume mari de secvențe prin scrierea fiecărui TSD, din rezultatul cel mai bun evidențiat în

35
fiecare fereastră activă în care s -a făcut o căutare (acolo unde algoritmul a reușit cu succes să
identifice o nucleotidă graniță), într -un singur f ișier FASTA.

Figura 18. (A) Nucleotida graniță identificată de Genome ARTIST; (B) TSD de opt nucleotide alăturată acesteia
exportată în format FASTA; (C) aceeași regiune genomică din fișierul .raw în care aceasta se găsește, cu secvența
TSD colorată mov, nucleotida graniță din cadrul acesteia verde și secvența flancatoare galben ; (D) secvența
anterioară exportată în FASTA; (E) regiunea din .raw cu ambele regiuni flancatoare ale TSD colorate cu gal ben; (F)
secvența anterioară exportata în FASTA; (G) o secvență de zece n ucleotide în jurul coordonatei 825.000 din
cromozomul 2, brațul lung al Drosophilei ; (H) setările pentru a genera rezultatul precedent.

36
Numele fiecărei secvențe este dat de titlul fer estrei din care aceasta a provenit și de un
simbol care semnifică de pe care din cele două catene a provenit secvența. Simbolul „plus”
indică inserția transpozonului în orientarea de tip I, iar „minus” indică inserția în orientarea de tip
II. Secvențele TS D-urile sunt captate și exportate în format fasta. Acestea sunt preluate din
catena de referință în cazul inserțiilor de orientare I. Pentru inserțiile în orientarea II secvențele
sunt preluate din catena minus a genomului dar sunt revers -complementate, pe ntru uniformizarea
exportului. Această operație se efectuează deoarece, majoritatea uneltelor bioinformatice și a
bazelor de date conțin secvențe genetice doar din catena de referință. O listă de TSD -uri care ar
conține atât secvențe din referință cât și d in non -referință ar putea produce rezultate eronate sau
confuzii dacă ar fi folosită în această stare . În Figura 18 A este prezentat un exemplu de rezultat
oferit de Genome ARTIST, iar în Figura 18 B fișierul generat de această funcție pentru
respectivul r ezultat.
Determinarea catenei de proveniență necesită luarea în considerare a detaliilor procesului
iPCR care a dus la producerea secvenței query și a modului în care a avut loc transpoziția. Aceste
informații sunt stocate în Genome ARTIST sub forma de săg eți care indică sensul coordonatelor
pentru fiecare interval, săgeata indicând ordinea crescătoare a nucleotidelor, de la 5’ la 3’.
Combinația a două săgeți pentru intervale transpozon -genom determină orientarea elementului
inserat. Detaliile fiecărei comb inații de săgeți se găsesc în Tabelul 1 .
Sensul Săgeților Orientarea relativă a elementului inserat
Orientare Tip I. Când ambele săgeți au același sens și săgeata roșie se află către
exterior, înseamnă că joncțiunea a fost secvențiată la capătul 5’ al
transpozonului. Varianta din stânga semnifică secvențiere cu primer cu sensul
către capătul 5’ al transp ozonului, iar cea din dreapta, cu primerul către situsul
de restricție din transpozon.
Orientare Tip I. Când ambele săgeți au același sens și săgeata albastră se află
către exterior, înseamnă că joncțiunea a fost secvențiată la capătul 3’ al
transpozonului. Varianta din stânga semnifică secvențiere cu primer cu sensul
către capătul 3’ al tra nspozonului, iar cea din dreapta, cu primerul către situsul
de restricție din transpozon.
Orientare Tip II. Când săgețile au sensuri divergente, înseamnă că joncțiunea a
fost secvențiată la capătul 5’ al transpozonului. Varianta din stânga semnifică
secvențiere cu primer cu sensul către capătul 5’ al transpozonului, iar cea din
dreapta, cu primerul către situsul de restricție din transpozon.
Orientare Tip II. Când săgețile au sensuri convergente, înseamnă că joncțiunea
a fost secvențiată la capătul 3’ al transpozonului. Varianta din stânga semnifică
secvențiere cu primer cu sensul către capătul 3’ al transpozonului, iar cea din
dreapta, cu primerul către situsul de restricție din transpozon.
Tabel 1 . Orientarea elementelor inserate, identificate de iPCR. (Adaptat după Ecovoiu et al., 2016)

37
Următoarele funcții de export FASTA prezentate folosesc ca sursă secvențele inventariate
în fișierele .raw. Fiecare fișier .raw corespunde secvenței de referință a unui cromozom sau braț
cromozom ial aparținând genomului încărcat în baza de date. Textul dintr -un fișier .raw nu este
delimitat de rânduri, iar, în funcție de genom, dimensiunea acestuia poate fi îndeajuns de mare
pentru a suprasolicita unele memorii RAM ( random access memory ) ale sistem ului folosit. De
aceea, programul citește fișierele în blocuri de câte 4 .196 octeți, până ajunge la coordonata
dorită. Deoarece coordonata se poate afla la marginea unui bloc și secvențele menite exportului
să continue în blocul alăturat, sunt reținute în memorie blocul precedent și cel succesiv blocului
curent.
i = 4197
while(nu s-a ajuns la capatul fisierului ){
bloc_dreapta ← citesteBloc
bloc_centru ← citesteBloc
bloc_stanga ← citesteBloc
if(i > coordinate – 4196 ^ i ≤ coordinate ) {
bloc_text ← bloc_stanga concatenare bloc_centru concatenare
bloc_dreapta
rezultat ← textBlock .substring( 4196 + nucleotida_granita mod 4196
– lungime_export_stanga , 4196 + nucleotida_granita mod 4196 +
lungime_export_dreapta )
return rezultat ;
}
i ← i + 4196;
}
Figura 1 9. Pseudocod pentru extragerea dintr -un fișier .raw a unei secvențe de dimensiune
lungime_export_stanga + lungime_export_dreapta , centrată în valoarea nucleotida_granita , unde mod este operația
modulo și substring extrage o subsecvență din secvența textBloc între coordonatele indicate de cei doi parametri.
5.2.2.2 Flanking Sequences At Insertion Site
Funcția exportă n nucleotide în amonte și n nucleotide în aval față de graniță. Această
funcție este folositoare în analiza secvenței alăturate TSD -ului în raport cu primerul folosit la
iPCR și orientarea transpozonului, deoarece sunt extrase nucleotidele din partea TSD -ului opusă
sensului capătulu i transpozonului inserat, care a fost folosit la PCR. De exemplu, dacă elementul
inserabil este în orientarea I și a fost secvențiat capătul 3’ al transpozonului, vor fi exportate

38
nucleotidele din partea sensului 5’ al TSD -ului. Dacă orientarea rămâne acee ași, dar este
secvențiat capătul 3’ al transpozonului, sunt extrase nucleotide din sensul 3’ al TSD -ului. Pentru
exemplul de la Figura 18 A, genomul din fișierul .raw este prezentat în Figura 18 C, cu secvența
TSD, cea flancatoare și nucleotida graniță mar cate, iar în Figura 18 D este dispus rezultatul
exportat.
Deoarece genomul este deja sub forma catenei referință în fișierul .raw, operația de
revers -complementație nu mai este necesară decât atunci când rezultatul căutării din Genome
ARTIST provine din catena complementară. Software -ul folosește un sistem de coordonate, în
care fiecare nucleotidă are alocată un număr, începând de la unu. Un sistem de coordonate
alternativ este unul unde spațiile dintre nucleotide sunt numerotate. Astfel, nucleotida unu, se
află între spațiile numerotate zero și unu. Sistemul spațiu -coordonate este avantajos pentru acest
tip de export deoarece granița devine ea însăși o coordonată, față de care pot fi numerotate cele n
nucleotide de extras. În Genome ARTIST, în schimb, est e folosită o nucleotidă ca și coordonată,
față de care granița se poate afla de ambele părți. Dificultăți intervin atunci când trebuie
exportate nucleotide de o parte și de alta a graniței folosind numai TGN ca reper.
Pentru a exemplifica mecanismul acestu i tip de export am folosit, în Tabelele 2 A și 2 B,
o inserție a transpozonului IS630 (Tenzen și Ohtsubo, 1991) , a cărui TSD este o secvență de
două nucleotide „TA”. Pentru extragerea corectă a acestei secvețe n a fost setat la valoarea „2”.
Primul rând al fiecărui tabel conține coordonatele nucleotidice, din cadrele de referință din care
acestea aparțin (cadrul genomului sau al transpozonului). Pentru simplitatea exemplului,
nucleotidele genomului sunt numerot ate de la „1”). Aceste nucleotide sunt din fișierul .raw al
genomului, fișier ce nu conține nici transpozoni nici TSD -urile duplicate.
Obiectivul este extracția TSD -ului și a secvenței alăturate acestuia înainte de inserția
transpozonului. Al doilea rând conține nucleotidele, marcate cu albastru dacă acestea fac parte
din genom, roșu dacă aparțin transpozonului, sau verde pentru TGN. Al treilea rând conține
coordonatele spațiile dintre n ucleotide, numerotate de la „0” . Acest tip de export are două cazuri:

39
1) Cazul nucleotidei cu coordonată minimă lângă TGN (când sensul săgeții genomului este în
sensul opus marginii intervalului corespunzător graniței)
Nucleotida graniță se află în dreapta graniței, ceea ce este echivalent cu faptul că
valoarea acesteia (pe c are o vom nota cu a) este mai mică decât cea a celeilalte
margini a intervalului genomic din query . Pentru extragerea din fișierul .raw a unei
secvențe de 2n în jurul acesteia, sunt selectate caracterele între coordonatele -spații
a – n și a + n – 1. De ex emplu, în Tabelul 2 A, coordonata nucleotidei „T” este egală
cu trei și este mai mică decât „A” egală cu patru și pentru a exporta 2n = 4 nucleotide:
secveța GC și TSD -ul TA, unde a = 3 , sunt exportate caracterele de la spațiile
3 – 2 = 1 până la 3 + 2 – 1 = 4 .

2) Cazul nucleotidei cu coordonată maximă lângă TGN (când sensul săgeții genomului este spre
graniță)
Nucleotida graniței este în stânga graniței, sau valoarea acesteia ( a) este mai mare
decât cea a celuilalt capăt al intervalului. Coordonatele de extracție trebuie decalate
cu o nucleotidă, formulele acestora fiind a – n + 1 și a + n . Pentru exemplul din
Tabelul 3 B, pentru a extrage secvența TAGT, coordonatele sunt 2 – 2 + 1 = 1 și
2 + 2 = 4 .
Coordonate
nucleotide 1 2 … 12
49 12
50
3 4
Nucleotide Sens
5’ G C … G A T A Sens
3’
Coordonate
spații 0 1 2 … – 2 3 4

Coordonate
nucleotide 1 2 12
50
12
49 … 3 4
Nucleotide Sens
5’ T A A G … G T Sens
3’
Coordonate
spații 0 1 2 – … 2 3 4

Tabelul 2 . Celulele corespunzătoare nucleotidelor transpozonului sunt colorate cu roșu, cele ale genomului cu
albastru, iar coordonata nucl eotidei graniță cu verde.

A
B

40
5.2.2.3 Flanking Sequences around Virtual TSD
Funcția este similară cu cea anterioară, prin utilizarea fișierelor .raw pentru a extrage
nucleotide din jurul coordonatei de inserție detectată de algoritm. Dimensiunea secvenței
exportată este 3n, aceasta conținând un segment de n nucleotide, ce reprezintă TSD, și câte un
segment de lungime similară în aval și în amonte de acesta. Această secvență este utilă pentru a
compara nucleotidele de o parte și cealaltă a secvenței de duplicație. Un exemplu este dat în
Figurile 18 E și 18 F pentru secvența sursă din fișierul .raw și cel FASTA generat.
5.2.2.4 Flanking Sequences at Coordinate
Procedura este identică cu a doua funcție, ce exportă două secvențe egale în jurul
coordonatei de inserție, diferența fiind că folosește în locul graniței o coordonată aleasă de
utilizator, într -un cromozom precizat din lista fișierelor cromozomiale .raw. Granița a fost aleasă
ca fiind la stânga nucleotidei selectate, rezultatul având astfel n nucleotide în amon te de aceasta
și n -1 în aval. Această funcție permite vizualizarea facilă a oricărei zone dintr -un genom sau
element inserabil încărcat în baza de date a software -ului. De exemplu în Figura 18 H, programul
este setat pentru a exporta 2n = 10 nucleotide în jurul coordonatei 825 .000, iar rezultatul FASTA
este afișat în Figura 18 G.
5.2.2.5 Export Consensus Sequence
Toate aceste funcții au un modificator ce permite aplicarea unui nou algoritm, numit
Export Consensus Sequence . Acesta preia multiplele secvențele exportate și le transformă într -o
secvență consens, scrisă în notație IUPAC (CBN , 1970) (Tabelul 3) , singura diferență fiind
înlocuirea simbolurilor pentru gap („-” și „.” ) cu „X” pentru o claritate mai bună. Crearea unei
secvențe consens implică identi ficarea nucleotidei sau nucleotidelor cele mai comune pentru
fiecare coordonată dintr -o listă de secvențe de lungimi egale.

41
Cod IUPAC Bază azotată
A Adenină
C Citozină
G Guaninț
T (or U) Timină
R A sau G
Y C sau T
S G sau C
W A sau T
K G sau T
M A sau C
B C sau G sau T
D A sau G sau T
H A sau C sau T
V A sau C sau G
N Orice bază
X gap
Tabel 3. Coduri IUPAC, modifcat cu „X” pentru gap.
Secvențele consens sunt importante în majoritatea interacțiunilor ADN -ARN și ADN –
proteine. Acestea pot facilita identificarea de situsuri de legare ale promotorilor, de tăiere ale
enzimelor de restricție sau de inserție ale transpozonilor (Griffiths et al ., 2010 ). Aceste
consensuri pot fi folosite cu software -ul TomTom pentru a com para similaritățile între multiple
consensuri introduse ca input sau pentru a scana baze de date online în scopul găsirii unora
similare. Algoritmul implementat pentru acest proiect folosește o valoare treshold sau de prag,
setată de utilizator care determ ină frecvența minimă a unei nucleotide pentru a fi adăugată în
secvența consens.
În Figura 20, a fost folosit un treshold de 40%, ceea ce, pentru acest caz, înseamnă că o
nucleotidă este considerată pentru consens doar dacă aceasta apare de cel puțin patr u ori la
aceeași coordonată. În Figura 20 B, în coordonata doi, adenina apare de patru ori, așa că aceasta
este introdusă în secvența consens. În coordonata unu, atât citozina cât și guanina apar de cel
puțin patru ori fiecare, iar algoritmul adaugă simbol ul „S” pe tru această poziție, se mnificând „G”
sau „C” în codul IUPAC .

42

Figura 20 . Sus, fișiere FASTA pentru trei tipuri de export și jos, secvențele consens generate di n acestea. (A) TSD
Sequence at Insertion Site , (B) Flanking Seq. At Insertion Site , (C) Flanking Seq. Around Virtual TSD .
5.2.2.5 Export Aggregate Data to Table
Ultima funcție generează un tabel ce conține diverse tipuri de date pentru fiecare rezultat
din Genome ARTIST. Această procedură permite încapsularea datelor cele mai importante
oferite de program, date ce se regăsesc în multiple ferestre și în diverse for me de prezentare,
variind de la titluri de figuri până la valori de tabel. Astfel de date disparate nu puteau fi
vizualizate de utilizator dintr -o privire, ceea ce ar fi putut fi util pentru a suprinde modele și
corelații din cadrul acestora. Forma tabelar ă nu numai că facilitează vizualizarea, dar permite
procesarea acestora de către alte programe și pot fi transmise altor cercetători care nu sunt
familiari cu operarea software -ului pentru a fi interpretate de către aceștia. Un cercetător poate,
astfel, tr imite utilizatorului de Genome ARTIST o listă de secvențe nucleotidice și să primească
de la acesta rezultatele în formă tabelară.
Datele generate sunt în format .csv (comma -separated -values ) (Shafranovich, 2005) , unul
din cele mai simple formate digita le pentru stocarea datelor tabelare, ce poate fi utilizat prin
intermediul majorității programelor pentru vizualizare de tabele. Fiecare rând reprezintă
rezultatul cu scorul cel mai înalt pentru un query (sau toate rezultatele cu cel mai înalt scor dacă
sunt multiple identice). Acesta conține titlul query -ului, genomul și transpozonul cu care s -a

43
făcut alinierea acestuia, coordonata de inserție în genom, cea a capătului t ranspozonului de lângă
graniță si a genei afectate (dacă există o astfel de adnotare pe ntru respectiva regiune genomică).
Dacă un fișier de adnotare pentru gene a fost introdus în baza de date, sunt indicate
genele din cadrul intervalului genomic aliniat, cea din amontele și din avalul acestuia. În
continuare sunt scorul alinierii, secvența TSD, identică cu cea generată de TSD Sequence at
Insertion Site , coordonata din celălalt capăt al intervalului genomic, o valoare utilă atunci când
programul este folosit pentru căuta simple secvențe în genom. Ultima coloană este un marcaj
care indică fapt ul că rezultatul este un posibil artefact de secvențiere. Acest marcaj este realizat
atunci când există un spațiu de aliniere imperfectă între intervalul corespunzător genomului și cel
particular transpozonului (Tabel 4).
Query Genomic Reference
Sequence Transposon/
Mobile Element Insertion
Coordinate/TGN Transposon
Coordinate Hit
Gene(s)
query_1 Dmel_r5.57_2L P{EP} 6792193 1 nrv2
query_2 Dmel_r5.57_3L P{lacW} 5348435 10691 lama
query_3 Dmel_r5.57_3L P{EP} 16098780 1 IntS9
query_3 Dmel_r5.57_3L P{lacW} 16098780 1 IntS9
autoinsertie_ttk_1 P{lacW} P{lacW} 702 3081
autoinsertie_ttk_1 P{lacW} P{lacW} 702 3081
deletie_octet_1 Dmel_r5.57_2R P{EP} 20655738 1 GstE12
deletie_octet_1 Dmel_r5.57_2R P{lacW} 20655738 1 GstE12
Tabel 4 . Tabel .csv generat de funcția Export Aggregate Data to Table pentru cinci query -uri diferite. Rândurile cu
același titlu de query reprezintă rezultate cu scoruri maxim egale (în aceste cazuri, deoarece au fost folosite două
elemente inserabile, P{lacW} și P{EP} , fiecare cu aliniamentul propriu).
Upstream Gene Downstream
Gene Alignment
Score TSD Outermost Alignment
Coordinate Possible
Artefact
CR43610 nrv1 910 CAAGAGCC(+) 6791842
tRNA:CR32420 tRNA:S7:64D 585 GGACAGAC(+) 5348479
CG5414 CG43295 906 CATTAACC(+) 16098422
CG5414 CG43295 906 CATTAACC(+) 16098422
259 GACCTACT( -) 487
259 ACCTACTT( -) 487
Eps-15 CG3894 605 TGCCGGCG(+) 20655688 *
Eps-15 CG3894 605 TGCCGGCG(+) 20655688 *
Tabel 4. (continuare)

44
5.2.3 Analiza Fourrier a distribuției inserțiilor transpozonilor
Pentru a studia inserțiile transpozonilor dintr -o altă perspectivă, a fost urmărită distrbuția
acestora la nivelul regiunilor cromozom iale . Transpozonii urmăriți au fost P{lacW} și P{EP} ,
pentru c are au fost analizate 5 .560, respectiv 3 .786 inserții din genomul D. melanogaster .
Inserțiile au fost grupate în funcție de cele 20 diviziuni citologice ale cromozom ului X și ale
brațelor cromozomilor 2 și 3. Majoritatea inserțiilor P{lacW} (52,93%) sunt localizate în
cromozomul 2, iar majoritatea celor P{EP} (42,92%) sunt localizate în cromozomul 3.
Ambii transpozoni sunt derivați din același transpozon P și au aceleași secvențe consens
unde se inseră. Pentru a studia dacă acest fapt corel ează cu comportamente de inserție similare,
am comparat distribuțiile celor doi transpozoni pentru fiecare cromozom. Corelațiile Pearson au
oferit rezultate pozitive cu valorile: r = 0 ,5582 și P = 0 ,0105 pentru cromozomul X; r = 0 ,5966 și
P < 0 ,0001 pentru cromozomul 2; r = 0 ,6235 și P < 0 ,0001 pentru cromozomul 3. Un exemplu de
distribuție este prezentată în Figura 21.
Distribuțiile au un caracter periodic, precum poate fi observat din analiza Fourier
prezentată . Aceasta permite generarea unui spectru pent ru orice set de date. Dacă setul de date
are periodicitate, spectrul va conține valori maxime pentru fiecare din frecvențele ce definesc
periodicitatea și valori minime pentru restul acestuia. Dacă setul nu este periodic, spectrul va
conține valori aproxim atic egale. O frecvență este definită ca inversul lungimii de undă sau a
perioadei. Dacă un set de date periodic are valori maxime la fiecare interval de lungime patru pe
axa x, acesta are perioada de valoare patru.
Pentru seturile de date studiate, am fol osit algoritmul Fast Fourier Transform (Cooley și
Tukey, 1965) . Deoarece fiecare set de date al unui cromozom conține doar câte 20 de valori, iar
algoritmul FFT necesită seturi de date relativ mari pentru a funcționa corect, am crescut numărul
de valori la 1 .000 folosind interpolare spline (Ferguson, 1964) . Aceasta a introdus 50 de valori
între fiecare două valori consecutive din set, iar pentru seturle astfel obținute au fost generate
spectrele de frecvență (Figura 2 2).
Pentru a identifica periodicități comune între distribuțiile celor doi transpozoni, au fost
evidențiate în figură frecve nțele caracterizate prin maximele locale (un maxim local este definit

45
ca o valoarea mai mare decât cea din stânga și din dreapta acesteia). În plus au fost marcate acele
maxime ce sunt comune pentru cele două distribuții din fiecare set.
Brațul drept al cr omozomului 3 are cel cu cel mai puternic caracter periodic comun
pentru cele două distribuții, cu perioadele de patru și șapte. Aceasta sugerează că în acest braț
există câte un hotspot de inserție a acestor transpozoni la fiecare patru și la fiecare șapte regiuni
cromozom iale. Rezultatele au fost prezentate în articolul „Insertions of P{lacW} and P{EP}
artificial transposons on the chromosomal divisions of Drosophila melanogaster are not
randomly distributed” (Bologa et al. , 2019 ) depus în baza de date bioRxiv .

Figura 2 1. Inserțiile transpozonilor P{lacW} și P{EP} pentru fiecare regiune a cromozomului X. Axa x conține
regiunile, iar axa y conține numărul de inserții pentru fiecare regiune (Bologa et al., 2019) .

46

Figura 2 2. Spectrele seturilor de date pentru fiecare braț cromozom ial (sau cromozom pentru X). Puncte le roșii
marchează maximele locale, iar frecvențele comune pentru P{lacW} și P{EP} sunt colorate cu verde (Bologa et al.,
2019) .
6. Concluzii
Experimentul de mutageneză a produs o serie polialelică pentru gena CG18135 . Din
analiza rezultatelor experimentului de electroforeză a fost dedus că delețiile sau nucloetidele
lăsate în urma exciziei au dus la letalitatea în formă homozigotă a acestor alele. Experimente

47
succesive de tip long-range PCR sunt necesare pentru a dete rmina dimensiunile exacte ale
mutațiilor produse.
Varianta actualizată a programului Genome ARTIST permite evidențierea automatizată a
TGN. Plecând de la această nouă funcționalitate, au fost implementate funcții pentru exportul
secvențelor din genom, în j urul coordonatei de inserție. Datele exportate, în formate FASTA și
tabelare, permit stocarea unor volume mari de date și procesarea acestora folosind alte programe
bioinformatice.
Analiza distribuțiilor inserțiilor transpozonilor P{lacW} și P{EP} în genom ul D.
melanogaster a arătat că acestea nu sunt dispuse aleator. Există hotspot -uri de inserții ce sunt
distribuite periodic în genom.

7. Anex ă
Linie Culoare
ochi Sex Data
06.08 08.08
M1 Roșu Femele
Masculi
Porto –
caliu Femele 3 4
Masculi 4 4
Alb Femele 3 3
Masculi 4
M2 Roșu Femele
Masculi 1
Porto –
caliu Femele 5 9
Masculi 1 6
Alb Femele 1 9
Masculi 1 10
M3 Roșu Femele 1
Masculi
Porto –
caliu Femele 3 4
Masculi 1
Alb Femele 1 2
Masculi 2 3
M4 Roșu Femele
Masculi
Porto -Femele 1 1 caliu
u Masculi 1
Alb Femele 1
Masculi
M5 Roșu Femele
Masculi
Porto –
caliu Femele 1
Masculi 1
Alb Femele 1
Masculi 1
M6 Roșu Femele
Masculi
Porto –
caliu Femele 1 2
Masculi 1 3
Alb Femele 4
Masculi
M7 Roșu Femele 1
Masculi
Porto –
caliu Femele 3 1
Masculi 3 4
Alb Femele 5 7
Masculi 2 5
M8 Roșu Femele 1

48
Masculi 1
Porto –
caliu Femele 4
Masculi 7
Alb Femele 5
Masculi
M9 Roșu Femele
Masculi
Porto –
caliu Femele 1 5
Masculi 4
Alb Femele 3 4
Masculi 4
M10 Roșu Femele 1
Masculi 3
Porto –
caliu Femele 1
Masculi
Alb Femele 1 2
Masculi 1 1
M11 Roșu Femele
Masculi
Porto –
caliu Femele
Masculi 1
Alb Femele 2
Masculi 3
M12 Roșu Femele
Masculi 1
Porto –
caliu Femele 1
Masculi
Alb Femele 1
Masculi 1
F1 Roșu Femele
Masculi
Porto -Femele 7 1 caliu Masculi 1
Alb Femele 4 1
Masculi 2 4
F2 Roșu Femele
Masculi
Porto –
caliu Femele 3 8
Masculi 1 2
Alb Femele 3 3
Masculi 4
F3 Roșu Femele
Masculi
Porto –
caliu Femele 3
Masculi 1
Alb Femele 2
Masculi 2
F4 Roșu Femele
Masculi
Porto –
caliu Femele 5
Masculi 3 1
Alb Femele 4 2
Masculi 3
F6 Roșu Femele 1
Masculi 2
Porto –
caliu Femele
Masculi
Alb Femele
Masculi

Tabel 5 . Descendenții cross -urilor CG18135Sep1/Δ2-3Sb x TM3SbSere/TM6TbHu. Pentru liniile cu prefixul „M” câte
un mascul cu ochii mozaicați ( CG18135Sep1/Δ2-3Sb) a fost încrucișat cu femele TM3SbSere/TM6TbHue . Pentru
liniile cu prefixul „F” câte o femelă cu ochi mozaicați a fost încrucișată cu masculi cu cromozo mi balancer -i.
Indivizii au fost categorisiți după culoarea ochilor și după sex. Datele sunt din anul 2019.

49
Linie Genotip Sex Data
21.08 23.08 27.08 28.08 29.08 26.09 8.10
M2-
Ex TM3/TM6 Femele 2 3 4 1 1
Masculi 8 4
TM3/CG Femele 5 1
Masculi 1 1 8 1
TM6/CG Femele 8 6 1 2 5 4
Masculi 1 8 1 5 8
CG/CG Femele
Masculi
M4-
Ex TM3/TM6 Femele 1 1 4 2
Masculi 2 1
TM3/CG Femele 4 2 2 6 14
Masculi 3 1 3 3 12
TM6/CG Femele 5 1 1 10 20
Masculi 1 7 10 21
CG/CG Femele 3
Masculi
M6-
Ex TM3/TM6 Femele 2 3 1
Masculi 1
TM3/CG Femele 6 5 8
Masculi 5 1 7 10
TM6/CG Femele 1 5 1
Masculi 1
CG/CG Femele 1
Masculi
M7-
Ex-1 TM3/TM6 Femele 1 3 3
Masculi 5 1 2
TM3/CG Femele 6 2 1
Masculi 1 9 2 2
TM6/CG Femele 3 1 9 7
Masculi 4 1 2 6 15
CG/CG Femele
Masculi
M7-
Ex-2 TM3/TM6 Femele 2 4 3
Masculi 4 2
TM3/CG Femele 12 2 1
Masculi 4 2 4
TM6/CG Femele 3 2 1 10 19
Masculi 1 5 2 8 20
CG/CG Femele
Masculi

50
M8-
Ex TM3/TM6 Femele 2 1 1 1
Masculi 3
TM3/CG Femele 4 2 11 11
Masculi 1 3 5 2 15 16
TM6/CG Femele 3 1 1
Masculi 3 2 2
CG/CG Femele
Masculi
M11 –
Ex TM3/TM6 Femele 4 1
Masculi 7
TM3/CG Femele 4
Masculi 8 1
TM6/CG Femele 8 1 8
Masculi 2 12
CG/CG Femele
Masculi
F4-
Ex TM3/TM6 Femele 4 9
Masculi 3 6
TM3/CG Femele 4 3
Masculi 2 2 1
TM6/CG Femele 1
Masculi 4 4
CG/CG Femele
Masculi
F6-
Ex TM3/TM6 Femele 2 4 1
Masculi 2
TM3/CG Femele 9 1
Masculi 1 6 2
TM6/CG Femele 4 4 16 16
Masculi 5 16 31
CG/CG Femele
Masculi
Tabel 6 . Descendenții cross -urilor CG18135Sep1/TM3SbSere ( sau CG18135Sep1/TM6TbHue) x
TM3SbSere/TM6TbHue . Prefixele „M” și „F” denotă sexul strămoșului cu ochi mozaicați care a participat la
formarea liniei. Indivizii au fost categorisiți după fenotipul dedus din marker -i și după sex. După data de 29.08
liniile au fost stabilizate prin self-cross pentru a el imina apariția indivizilor TM3SbSere/TM6TbHue . Datele sunt din
anul 2019.

Similar Posts