Cuprins ………………………….. ………………………….. ………………………….. …………………………….. [602871]
UNIVERSITATEA „BABEȘ -BOLYAI” CLUJ -NAPOCA
FACULTATEA DE MATEMATICĂ ȘI INFORMATICĂ
PROIECT DE CERCETARE
SIMULAREA PLIERII PROTEINELOR
Îndrumător științific
Prof. univ. dr. BAZIL PÂRV
Doctorand: [anonimizat] 2016
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
2
Cuprins
Cuprins ………………………….. ………………………….. ………………………….. ………………………….. ………….. 2
Introducere ………………………….. ………………………….. ………………………….. ………………………….. ……. 3
1. Problema plierii proteinelor (protein folding problem) ………………………….. …………………………. 4
1.1. Materia vie ………………………….. ………………………….. ………………………….. ……………………. 4
1.2. Aminoacizii (aa) ………………………….. ………………………….. ………………………….. ……………… 5
1.3. Proteinele ………………………….. ………………………….. ………………………….. …………………….. 9
1.4. Funcțiile proteinelor ………………………….. ………………………….. ………………………….. ……… 10
1.5. Structura proteinelor ………………………….. ………………………….. ………………………….. ……. 11
1.6. Sinteza biologică a proteinelor ………………………….. ………………………….. ……………………. 15
1.7. Ciclul de viață al proteinelor ………………………….. ………………………….. ……………………….. 17
1.8. Factorii care influențează plierea proteinelor ………………………….. ………………………….. … 18
1.9. Tehnici pentru determinarea structurii proteinelor ………………………….. …………………….. 21
1.10. Probleme înrudite ………………………….. ………………………….. ………………………….. …….. 21
2. Simularea plierii proteinelor ………………………….. ………………………….. ………………………….. …. 22
2.1. Simularea sintezei proteinelor ………………………….. ………………………….. …………………….. 22
2.2. Importanța simulării plierii proteinelor ………………………….. ………………………….. …………. 22
2.3. Istoricul simulării plierii proteinelor ………………………….. ………………………….. ……………… 23
2.4. Modele propuse pentru simularea plierii proteinelor ………………………….. ………………….. 24
2.5. Tehnici folosite pentru simularea plierii proteinelor ………………………….. ……………………. 27
2.6. Simularea plierii proteinelor ………………………….. ………………………….. ……………………….. 29
3. Dire cții de c ercetare ………………………….. ………………………….. ………………………….. ……………. 33
3.1. Obiective și activități de cercetare propuse ………………………….. ………………………….. …… 33
3.2. Aplicații și raportarea rezultatelor cercetării ………………………….. ………………………….. ….. 36
3.3. Direcții de interes personal ………………………….. ………………………….. ………………………… 36
Concluzii ………………………….. ………………………….. ………………………….. ………………………….. ………. 38
Bibliografie ………………………….. ………………………….. ………………………….. ………………………….. …… 39
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
3
Introducere
Titlul tezei de doctorat este „Simularea plierii proteinelor” , sub îndrumarea prof.
univ. dr. Bazil Pârv.
Domeniul este b ioinformatica , iar d irecția de cercetare este folosirea algoritmilor și a
tehnicilor inteligenței artificiale pentru simularea plierii proteinelor.
Plierea proteinelor este procesul fizic prin care se trece de la structura primară
unidimensională a acestora , prin răsuciri, cutări, îndoiri și împachetă ri, la structura lor terțiară
(sau cuaternară) tridimensională. Fenomenul este important pentru că proteinele sunt active și
își pot manifesta funcțiilor lor biologice doar după ce au fost pliate. Cu alte cuvinte , prin
fenomenul de pliere se trece de la natura chimică a proteinelor la natura lor biologică , utilă
viului . Problema plierii proteinelor se referă la găsirea conformației native (funcționale), a
căii prin care s -a pliat și a modului de pliere, prin orice mijloace (fizice, biochimice,
informatice). Ipoteza termodinamică , stabilită în anii 60 ai sec . trecut, susține că proteinele
se pliază în conformația care are energia potențială minimă. De aici se deduce dogma
Anfinsen , conform căreia structura terțiară depinde numai de structura primară. În ultimii ani
s-a stabilit că această ipoteză e adevărată numai pentru proteinele mici.
Paradoxul Levinthal (1969) se referă la faptul că, deși numărul conformațiilor
posibile chiar și al unei proteine mici este uriaș ș i nu ar ajunge vârsta Universului pentru a se
încheia plierea, totuși, atât in vitro cât și in vivo proteinele se pliază foarte repede (de la
câteva microsecunde la câteva ore).
Biochimiștii, după lungi eforturi, au reușit să stabilească forma pliată nativă pentru
mai puțin de 1% din proteinele cunoscute. Cu toate acestea, modul și căile pe care le urmează
o proteină în timpul plierii deocamdată scapă înțelegerii umane. Prin urmare, bioinformatica a
venit în sprijinul eforturilor biochimiei și a știin țelor clasice, cu speranța că va reuși să ajute
la înțelegerea acestui proces. Dar , după mai bine de 30 de ani, deși au fost obținute rezulate în
cazul unor proteine particulare mici, „soluția generală ” pare a fi de neatins.
Pentru simplificarea problemei simulării plierii proteinelor au fost propuse mai
multe modele. Modelul HP (hidrofob -polar) este poate cel mai cunsocut și mai exploatat
model. Chiar și așa, la modul general problema este NP -hard, iar pentru anumite cazuri
particulare este NP -complete.
După studiul referințelor bibliografice, am observat că au rămas câteva zone
neexplorate încă în ceea ce privește modelul HP 3D. Drept urmare, mi -am stabilit mai multe
direcții de cercetare. Prima direcție este abordarea modelului HP 3D din perspectiva unor
algoritmi care au dat rezultate satisfăcătoare pe modelul 2D. A do ua direcție se îndreaptă
înspre rezolvarea unui model HP extins pe care l -am propus în cadrul acestui document. Iar
paralelizarea unor algoritmi pentru abordarea plierii din perspectiva dina micii moleculare
constituie a treia direcție principală.
În cap 1 am prezentat problema plierii proteinelor, în cap. 2 , simularea plierii
proteinelor și o parte din rezultatele obținute până în prezent, iar cap. 3 conține direcțiile de
cercetare pe care mi le -am propus.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
4
1. Problema plier ii proteinelor (protein folding problem )
1.1. Materia vie
Celula vie este alcătuită din 6 mari categorii de substanțe:
1. Proteine,
2. Glucide,
3. Lipide,
4. Acizi nucleici (ADN, ARN),
5. Săruri minerale (elemente și oligoelemente) și
6. Apa
Fig. 1. Celula
Într-o analogie brută se poate spune că glucidele sunt combustibilul mașinii celulare,
în timp ce proteinele sunt materia din care e construit motorul. Lipidele au roluri multiple,
printre care putem aminti pe acela de „unguent” al „mecanismelor”, dar și de transportor de
informație de comandă și control (hormonii lipidici).
Acizii nucleici (ADN și ARN) sunt substanțele care asigură substratul material a l
funcției ereditare. Altfel spus ele sunt planul după care sunt construite ființele vii și care sunt
sursa primară a funcțiilor biologice. Odată cu descoperirea funcției și a structurii lor, s -a
declanșat dezvoltarea unui întreg câmp de cerecetare. Geneti ca avea să revoluționeze științele
vieții și viața noastră cotidiană, nu doar prin implicațiile de ordin fundamental, ci și prin
aplicațiile sale practice. Genetica nu a lăsat aproape nimic neatins din ceea ce constituie viața
modernă. Rezultatele spectacu loase în ce privește creșterea producției la hectar ar fi fost de
neimaginat în absența soiurilor create de ingineria genetică. Biotehnologiile moderne sunt de
neconceput înafara tehnicilor de manipulare a informației genetice. Industria farmaceutică,
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
5
industria alimentară, producerea de proteine, terapia genică, medicina, zootehnia sunt doar
cîteva din zonele la care genetica a contribuit ( [VLA11] ).
Un câmp și mai vast, cu aplicații în toate domeniile vieții individuale și sociale, de la
biologia moleculară și nanocultură, la medicină și geriartrie, se va face vizibil atunci când
secretele proteinelor vor fi devoalate. Știința proteinelor și genetica vor fi cele două domenii
care vor schimba tot ce știm despre viață și despre modul nostru de trai, iar înțele gerea
esenței viului (BIOS -ului) este unul dintre efectele fundamentale așteptate. Însă nici aspectele
practice nu sunt mai prejos: prelungirea vieții peste barierele biologice, transferul vieții pe alt
tip de suport decât cel biochimic, eradicarea bolilor metabolice, etc.
Dacă lipidele, apa și sărurile minerale sunt substanțe formate din molecule simple,
dacă glucidele se prezintă atât sub formă de molecule simple (monoglucide, diglucide) cât și
polimerice (poliglucide), acizii nucleici și proteinele sunt substanțe polimerice constituite din
molecule extrem de mari comparativ cu moleculele obișnuite, motiv pentru care au primit și
numele de macromolecule. Asemenea tuturor moleculelor polimerice, proteinele sunt
constituite din monomeri, unități mai mici car e se repetă de -a lungul structurii
macromoleculei. Deoarece monomerii proteici (aminoacizii) sunt substanțe de un singur tip,
compoziția chimică a proteinelor rămâne relativ omogenă.
Spre deosebire de celelalte substanțe enumerate mai sus, acizii nucleici și proteinele
se găsesc, natural, numai în celulele organismelor vii. Din cauza complexității lor, abia în sec.
XX, s -a reușit sinteza lor in vitro .
1.2. Aminoacizii (aa)
Aminoacizii (prescurtat aa), după cum s -a amintit mai sus, sunt monomerii
(moleculele simp le) din care sunt formate proteinele. Sunt compuși organici, cu funcțiune
mixtă, având pe catena lor două grupe funcționale diferite și opuse chimic, care, dealtfel, le
dau și numele: grupa amino ( -NH 2), care are caracter bazic, și grupa carboxil ( -COOH), care
are caracter acid ( [MIH11],[DIN06],[BED85] ). Formula generală este:
Fig. 2. Structura generală a aa proteinogeni
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
6
Aminoacizii proteinogeni (aminoacizii care intră în componența proteinelor),
specificați prin codul genetic, sunt în număr de 20, aceiaș i la toate viețuitoarele indiferent de
regn sau de complexitatea speciei pe scara evolutivă, de la bacterie la om ( [DIN06] ). Aproape
toți aminoacizii proteinogeni sunt de tip alfa (ceea ce înseamnă că au gruparea aminică
primară legată la carbonul alfa, carbonul de care se leagă gruparea carboxil), excepție face
prolina care are funcție iminică secundară.
Din cauză că de carb onul primar (alfa) se leagă 4 grupări diferite (gruparea amino,
gruparea carboxil, protonul, H, și radicalul R), acesta prezintă izomerie optică. Altfel spus
fiecare aa se prezintă sub două forme: L și D. Însă în organismele vii se găsesc numai aa de
tip L . Excepție face glicina , singurul aa care nu prezintă activitate optică și cisteina care este
de tip D ( [MIH11] ). Alte excepții apar foarte rar, în peretele celular bacterian sau în cazuri
patogene (celule canceroase, etc) ( [BED85] ). Din formula generală s e observă, cu cele două
excepții de mai sus, că ceea ce -i face diferiți pe cei 20 de aa între ei este numai natura restului
catenar (R). După cum vedem, și la scară monomerică, omogenitatea proteinelor e suficient
de crescută : doar 20 de tipuri de aminoaci zi, aproape toți de tip alfa și aproape toți izomeri L.
Dintre cei 20 de aa, 8 sunt numiți esențiali pentru că nu pot fi sintetizați de organismul
uman și trebuie aduși prin alimentație. Aceștia sunt: valina, leucina, izoleucina, triptofanul,
fenilalanina, metionina, lizina și treonina .
În biochimie aa sunt notați cu trei litere (ex: alanina – Ala), dar pentru ușurința
calculelor și a parcurgerii secvențelor de aa de către programele informatice, în
bioinformatică s -a standardizat notația cu o singură literă (ex: alanina – A). În bazele de date,
proteinele vor fi reprezentate cel mai adesea sub această formă.
Există multe criterii de clasificare ale aa, în special funcție de anumite proprietăți
fizice sau chimice, dar pentru bioinformatică și pentru problema plierii proteinelor,
interesează criteriul de clasificare după restul catenar și după funcțiunea secundară, dacă
există. Deoarece grupările amino și carboxil sunt angajate în legătura peptidică, în proteine se
pot stabili interacțiuni numai între resturile aminoacidice, R. După însușirile acestor resturi
putem avea aa cu R nepolar, hidrofob, H, (resping apa) și aa cu R polar, P, care se dizolvă în
apă. Aa P, la rândul lor se subclasifică în aa cu R fără sarcină electrică, cu R încărcat negativ
(-), respecti v cu R încărcat pozitiv (+). Aceste date sunt stabilite pentru mediu apropiat de pH
neutru. Clasificarea aa după hidrofobicitate ( [MIH11],[DIN06],[BED85] ):
Aminoacizi hidrofobi ( H), nepolari: alanina, valina, leucina, izoleucina, fenilalanina
Aminoacizi hidrofili, polari ( P):
Neutri : serina, treonina, asparagina, glutamina ,
Pozitivi (bazici) : arginină, lizină , histidină ,
Negativi (acizi) : acid aspartic, acid glutamic ,
Excepții:
Glicina este convențional trecut în categoria aa H, deși în cazul ei nu există
nici un rest catenar.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
7
Cisteina, prin convenție e trecut la aa P neutri , uneori la aa H.
Metionina, tirozina și triptofanul se regăsesc în diferite clasificări, sau în
grupa aa H, sau în grupa aa P neutri .
Pentru prolina încă există discuții.
Problema cu această clasificare e că dihotomia H -P e un model convențional, care e
destul de îndepărtat de realitate. În natură aa au grade diferite de hidrofobicitate, respectiv
hidrofilitate, unii, cei din zona centrală, fiind destul de greu de clasifica t de o parte sau de alta
a acestei axe. Iar evaluarea gradului de hidrofobicitate al aa este dificil de realizat. Diferiți
autori, în funcție de solvenții folosiți au stabilit mai multe scări de ierarhizare a caracterului H
– P.
După cum se poate observa î n fig. 3 poziția aa diferă ușor de la o scală la alta.
Fig. 3. 4 scale de hidrofobicitate1
Imaginea de mai jos prezintă cei 20 de aa, cu denumirea, cu prescurtarea biochimică,
din 3 litere, precum și cu prescurtarea bioinformatică, litera corespunzătoare fiecărui aa fiind
plasată într -un cerculeț roșu. Deasemenea este prezentată structura moleculară și clasificarea
din punct de vedere hidrofob.
1 Imagine preluată din *MIH11+.
Scalele sunt stabilite d upă: (1) – Janin; (2) – Wolfenden, et al; (3) – Kyte et al; (4) – Rose et al.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
8
Fig. 4. Structuri le moleculare ale aminoacizilor2
2 După D an Cojocaru, Univ. Toronto, 2009
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
9
1.3. Proteinele
Descoperite de Berzeliuz în 1838, proteinele sunt cei mai importanți constituienți ai
materiei vii, cărămizile de bază care alcătuiesc viul și fără de care, viața, așa cum o
cunoaștem noi, n -ar fi apărut niciodată. Răspândirea lor în materia vie este universală și
obligatorie. Nu se greșește deloc da că se spune că ei sunt constituenții și „purtătorii” viului,
macromolecule informaționale, expresia epigenetică a a genomului celular ( [DIN06] ), cu
secvențe specifice de aa.
Deși proteinele sunt constituite din doar cei 20 de aa prezentați în fig. 4, număr ul
practic infinit al combinațiilor posibile asigură varietatea lor moleculară uriașă în același mod
în care numărul mic de litere din alfabet poate genera dicționare de sute de mii sau milioane
de cuvinte. Suplimentar, fiecare proteină, la rândul ei, prez intă specificitate atât în funcție de
specie, cât și, uneori, inclusiv funcție de organ ( [DIN06] ). Se estimează că într -un singur
organism se găsesc peste un milion de tipuri de proteine diferite, număr imens, care asigură
funcțiile materiei vii, iar număr ul de tipuri din întreaga lume vie este estimat la peste 1000 de
miliarde ( [DIN06] ). Cu toate acestea potențialul de diversitate este departe de a fi atins. Ceea
ce sugerează că e aproape imposibil să existe în toată istoria și imensitatea Universului două
organisme identice. Chiar pentru genotipuri identice, cum e cazul fraților gemeni homozigoți,
datorită proteinelor, cele două organisme vor fi ușor diferite fenotipic. Aceeași proteină, de ex
insulina, care îndeplinește rolul de scădere a glicemiei la toa te animalele superioare, diferă de
la o specie la alta, fiind astfel entități distincte cu mici diferențe de proprietate și masă
moleculară . Spre exemplu, insulina umană, formată din 51 de aa, diferă de insulina de porc
printr -un singur aminoacid situat la capătul unui lanț polipeptidic. La om este treonina, la
porc alanina (date preluate din PDB). Totuși cele două proteine , deși ușor diferite, asigură
aceeași funcție, motiv pentru care insulina de porc este folosită la tratamentul diabetului
uman.
Proteinele se găsesc sub formă de proteine simple (holoproteine – alcătuite numai din
aminoacizi) și proteine complexe ( heteroproteide – conțin o parte proteică și o parte
neproteică, numită grupare prostetică). Unele proteine au formă globulară , altele formă
fibrilară.
Deasemenea proteinele pot fi formate dintr -un singur lanț de aa sau din mai multe
lanțuri care se leagă între ele prin legături covalente, de obicei punți disulfidice.
În proteine numărul de aminoacizi variază de la câteva zeci la câteva z eci de mii, iar
masa moleculară deasemenea variază în limite largi, de la ordinul sutelor, la ordinul
milioanelor.
În funcție de numărul și natura resturilor aminoacidice, unele proteine sunt solubile în
apă, într -o mai mare sau mai mică măsură, în timp ce alte proteine, în special proteinele
membranare sunt complet insolubile, motiv pentru care studierea lor a fost mai dificilă
([BEN79] ).
În tabelul de mai jos sunt prezentate câteva dintre proteinele importante, întocmit pe
baza datelor preluate din ([DIN0 6], [VLA11], [BED85] ).
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
10
Tabel 1. Câteva proteine și rolul lor
Proteina Funcția Număr
aminoacizi Masa
moleculară (Da)
Glucagonul Crește glicemia 29 3482
Insulina Scade glicemia 51 5734 12000
Pepsina Digestia proteinelor 44 34
Actina Contracția musculară 257
Miozina Contracția musculară
STH Hormon de creștere -reglare
Albumina Proteina albușului din ou
Imunoglobuline Rol în apărarea organismului
Cicline ([VLA11]) Reglare ciclu celular
Ciclin -dependent
kinaze Reglare ciclu celular
Factor p53 Inițiere apoptoză
Histone Stabilitate ADN 100-200
1.4. Funcțiile proteinelor
Deoarece proteinele sunt relativ omogene din punct de vedere chimic, marea
diversitate de funcții pe care acestea le asigură celulei vii rezultă din alte considerente decât
cele de ordin pur chimic. Printre acestea, un rol esențial îl au structurile de ord in înalt, terțiar
și secundar. Funcțiile proteinelor, similar pierii lor, sunt determinate de factori chimici, fizici,
biologici și sterici ([DIN06],[BED85] ).
Dintre cele mai cunoscute și importante funcții pot fi amintite:
7. Rol plastic . Principalul rol proteic este acela de a asigura materialul din care sunt
construite toate structurile celulare și materialul intercelular din țesuturi și organe,
asigurând forma tuturor ființelor vii, precum și diferența fenotipică a acestora.
8. Rol enzima tic (cataliză) . Prin funcția catalitică, proteinele determină ca miile de
reacții biochimice care au loc într -o secundă în interiorul celulei, să decurgă pe
alte căi decât căile prin care ar decurge în eprubetă în mod natural. Astfel se
asigură transformăr i specifie organismelor vii, transformări care fac ca materia vie
să fie atât de diferită de materia nevie.
9. Rol de apărare (imunologic). Organismul se apără împotriva corpilor străini, a
virusurilor, a bacteriilor, a microorganismelor prin intermediul unor reacții
imunologice mediate de imunoglobuline, care sunt proteine specializate.
10. Rol de transport material . Proteinele asigură transportul activ al unor ioni,
împotriva gradientului de concentrație, cu consum energetic. Este cunoscută
funcția de transportor de oxigen și bioxid de carbon al hemoglobinei fără de care
nu ar fi posibilă respirația. În același mod anumite substanțe alimentare sunt
absorbite din intestin prin intermediul acelorași mecanisme active în care rolul
esențial revine proteinel or. Proteinele transportoare de ioni prezente în membrana
celulară, fără de care alimentația celulară și asigurarea potențialului de membrană
ar fi imposibil, fac parte, la rândul lor, din categoria tranportorilor materiali.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
11
11. Funcție reglatoare . Organismul viu poate fi văzut ca un extrem de complex sistem
cibernetic în care informația de comandă și control poate fi stocată și transmisă
prin suport energetic (curent electric) sau suport material (hormonii proteici și
lipidici). Dacă hemoglobina transportă mat erie, hormonii transportă informație. În
cadrul acestei funcții sunt incluse toate reglările hormonale și metabolice.
12. Funcția contractilă este cea prin intermediul căreia proteinele (complexul actino –
miozinic din fibra musculară, în cazul organismelor supe rioare) asigură locomoția
(mișcarea).
Pe scurt, proteinele și, probabil apa sub formă coloidală, sunt moleculele care
generează funcțiile „viu” -lui.
1.5. Structura proteinelor
Din punct de vedere chimic, proteinele sunt macromoleculele cu cel mai înalt grad de
complexitate, polimeri liniari (neramificați) ai alfa -aminoacizilor ( [BED85] ) care sunt uniți
între ei prin legături peptidice: -CO-NH-. Legătura peptidică se formează prin reacția dintre
gruparea carboxil ( -COOH) a unui aa cu gruparea amino ( -NH 2) a celui lalt, eliminându -se o
moleculă de apă.
aa 1 aa 2 dipeptid
H2N-CH-COOH + H2N-CH-COOH -> H2N-CH-CO-HN-CH-COOH + H 2O
| | | |
R R R R
Dipeptidul care rezultă, conține la rândul său, la capete, o grupare amino și o grupare
carboxil care pot lega la capete alți aminoacizi. Tripeptidul format are, deasemenea, la cele
două capete grupările amino, respectiv carboxil, care pot forma noi legături cu alți aa. Astfel
lanțul peptidic poate crește până la ordinul a sute sau m ii de aa.
Aceste lanțuri, numite peptide (dipeptide, tripeptide, polipeptide, proteine) sau
secvențe de aa, pentu ușurința reprezentării, în biochimie se notează sub forma unor secvențe
de cuvinte formate din trei litere:
Ala-Cis-Tre-Ala-Ala – un pentapeptid
În bioinformatică , pentru ușurința prelucrării de către programele informatice,
peptidele se reprezintă sub forma secvențelor în care aminoacizii sunt codificați printr -o
literă, mare sau mică. Frecvent apar în bazele de date notate cu li tere mici. Secvența de mai
sus va fi rescrisă sub forma:
ACTAA sau actaa .
Molecula proteică, asemenea majorității macromoleculelor, prezintă mai multe
niveluri de organizare : structura primară , secundară , terțiară și cuaternară . Caracterizarea
nivelului de organizare, inclusiv prin metodele bioinformaticii, este utilă pentru înțelegerea
conformației și a proprietăților fizice, chimice și biologice ( [BED85] ).
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
12
Structura primară prezintă proteinele ca pe niște secvențe de aminoacizi legați între
ei prin legă turi chimice covalente uzuale de tip amidic, numite, așa cum s -a mai spus, legături
peptidice.
Din punct de vedere bioinformatic, la acest nivel, de structură primară, întâlnim prima
caracteristică a proteinelor de importanță majoră: secvența de aa ( [MIH11 ]). Pentru algoritmii
informatici însă, nu prezintă nici un fel de dificultate, nici reprezentarea structurii primare
care se reduce la un string de caractere ASCII, nici generearea acestei structuri plecând de la
informația genetică pe care o găsim reprez entată sub formă de secvențe de baze azotate.
În imensele baze de date, proteinele apar sub forma unor secvențe de litere, fiecare
literă desemnând un aminoacid. Spre exemplu, glucagonul, al doilea hormon pancreatic, cu
rol opus insulinei, format din 29 aa , are următoarea structură primară:
HSQGTFT NDYSKY MDTRRAQDFVQWLM ST – glucagon de pește3,
HSQGTFT SDYSKY LDSRRAQDFVQWLM NT – (1gcn) glucagon sus
scrofa,4,
HSQGTFTSDYSKYLDS RRAQDFVQWLMNT – (1bh0), glucagon uman5
Numerotarea aa se face de la capătul amino către capătul carboxilic. Aceeași structură
primară a glucagonului în reprezentare biochimică:
NH 2-His-Ser-Gln-Gly-Thr-Phe-Thr-Ser-Asp-Tyr-Ser-Lys-Tyr-Leu-Asp-Ser-Arg-Arg-Ala-
Gln-Asp-Phe-Val-Gln-Trp-Leu-Met-Asn-Thr-COOH
Structura secundară . Cât timp numărul de aminoacizi din lanțul peptidic este mic nu
apar proprietăți sau probleme suplimentare celor cunoscute din chimia organică. Însă odată
cu creșterea moleculei și, implicit, a masei moleculare, fâșia polipeptidică începe să se cuteze
sau să se răsucească, for mând spirale, sub influența noilor legături care se formează între
resturi de aminoacizi și, astfel, proteina primește atribute noi. Aceste noi structuri care se
formează din lanțul polipeptidic au fost semnalate de către Corey și Pualing încă din 1943
([MIH11] ).
În câteva cazuri, legăturile nou formate în cadrul structurii secundare sunt legături
covalente obișnuite, dar majoritatea legăturilor noi sunt legături de tip intermolecular,
frecvența cea mai mare având -o legătura de hidrogen (leg H). În ultimii 40 de ani ai secolului
trecut, biochimiștii și specialiștii în biologie moleculară au descifrat secretele acestui nivel de
structurare, azi fiind cunoscute tipurile de structuri care se formează și aminoacizii care le
inițiază sau le încheie. Frecvent, la acest nivel de organizare, se formează o structură spirală,
numită alfa-helix , asemănătoare unui arc elicoidal, fâșii beta , un fel de panglică pliată sau
beta-turn-uri, lanțuri sub forma literei U ([MIH11]). Între segmentele de helix, apar, între
grupările laterale, legături van der Waals, mai slabe decât legăturile de hidrogen. Pentru
comparație, energia de legare a legăturii covalente este de 35 – 212 kcal/mol, cea a legăturii
3 Secvența a fost preluată din PDB
4 Secvență preluată din aplicația UCSF Chimera
5 Secvența a fost preluată din NCBI
https://www.ncbi.nlm.nih.gov/protein/450 3945?from=53&to=81&sat=4&sat_key=136626880
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
13
ionice este de 40 – 110 kcal/mol, legătura de hidrogen are tăria de 2 – 7 kcal/mol, iar
legătura Van der Waals , de 1 – 2 kcal/mol ([BED85]).
În alfa -helix se întâlnesc frecvent aminoacizi hidrofobi ca metionina, alanina, leucina
sau polari încărcați electric precum acidul glutamic și lizina .
Fig. 5 Structu ra primară și secundară a glucagonului uman6
În fig. 5, în care e prezentată structura secundară a glucagonului uman, se observă că
porțiunea centrală este un helix, iar capetele sunt probabil fâșii beta. În fereastra on -top este
afișată structura primară, aminoacizii care aparțin helixului sunt prezentați pe un fond mai
deschis la culoare.
Structura terțiară – plierea proteinelor. Lanțurile polipeptidice ale structurii
primare, unidimensionale și flexibile, se modifică spontan, sub acțiunea atracției chimi ce
dintre anumiți atomi, în forme tridimensionale caracteristice secvențelor de aa. Abia forma
3D finală a proteinei conformate este cea care generează activitatea sa biologică (funcția
specifică din organismele vii). Așadar, funcțiile proteinelor depind d e structura lor terțiară, iar
în unele cazuri (hemoglobina), de structura cuaternară.
Similar structurării secundare, și la acest nivel, organizarea spațială a lanțurilor de aa
are loc prin legături de tip intermolecular, în special legături de hidrogen, a tracții de tip ionic,
polare, (hidrofile) sau interacțiuni de tip dipol -dipol, nepolare (hidrofobe). La aceste
interacțiuni pot participa, pe lângă atomii catenelor laterale ale lanțului, și atomii legăturii
covalente peptidice (=C=O, =N -H) prin electronii liberi de pe ultimul strat ai atomilor de
oxigen și azot. Deseori însă pot fi implicate și legături disulfidice ( [BED85] ).
Structura cuaternară apare atunci când mai multe proteine sau lanțuri peptidice se
unesc în formațiuni și mai mari. Acest tip de suprastructurare nu se întâlnește decât la unele
proteine. Spre exemplu, hemoglobina este o holoproteină în care 4 globine (tetramer) sunt
unite în tre ele. Insulina, în forma circulantă din sînge se prezintă, probabil, sub formă
monomerică, dar în pancreas este depozitată sub forma unui hexamer.
6 Imagine generată în aplicația UCSF Chimera
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
14
Ca exemplu de structură terțiară și cuaternară, în figura de mai jos este prezentată
hemoglobina. Cele patru globine, pliate până la nivel terțiar, sunt colorate diferit: albastru,
roz, verde și maro. Întregul ansamblu este organizat la nivel cuaternar.
Fig. 6. Structura cuaternară a hemoglobinei7
7 Imagine generată cu apliacția Cn3D,
http://www.ncbi.nlm.nih.gov/Structure/icn3d/full.html?complexity=3&buidx=1&showseq=1&mmdbid=29884
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
15
Fig. 7. Structura proteinelor8
În fig. 7 este p rezentată o sinteză a celor 4 tipuri de structură.
1.6. Sinteza biologică a proteinelor
În 1953, același an în care a fost descifrată structura bicatenară a ADN -ului, G. E.
Palade a descoperit ribozomii , niște corpusculi citoplasmatici foarte mici, de ordinul a 20 –
30 nm. ( [CAD13],[CON83] ), Anii următori le -au dezvăluit funcția, accea de „cap de scriere”
a proteinelor în conformitate cu informația genetică stocată în nucleu în ADN -ul
cromozomial. Odată cunoscute acestea, se întrezărea cunoașterea procesului de sinteză a
proteinelor.
Gena se definește convențional drept o secvență de ADN. Definiția e greșită pentru că
în realitate gena nu e o secvență de materie, ci o secvență informațională grefată pe un
substrat material organic, fie el ADN -ul bicatenar sau ARN -ul monocatenar. Esențial este că,
8 Imagine preluată din (*MIH11+)
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
16
în general, această secvență conține informația pentru codificarea unei proteine care la rândul
său asigură o anumită funcție în organism.
Etapele procesului de sinteză sunt transcrierea nucleară , translația ribozomală și
conformarea proteică mediată de chaperoni . Informația genetică a unei gene, stocată în
ADN, care la rândul său se găsește în nucleul celular, este copiată prin complementaritate în
timpul procesului de transcriere (sau transcripție) în ARN mesager (ARNm). ARNm
părăsește nucleul prin porii învelișului nuclear și ajunge în citoplasmă în apropierea
ribozomilor ( [CAD13],[MIH11],[CON83] ). Aici întâlnește ARN de transport (ARNt), care e
format dintr -o catenă mult mai scurtă decât ARNm ( [CON83] ). Fiecare macromol eculă de
ARNt aduce cu sine un anumit aminoacid pe care îl pune la dispoziția ARNm. În ribozom vor
fi uniți aa între ei prin formarea legăturilor peptidice, în ordinea dată de codonii din ARNm.
([MIH11]). Acet proces se numește translație pentru că înformația genetică este tradusă în
informație epigenetică, fenotipică ( [CAD13] ).
Fig. 8. Etapele sintezei proteice
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
17
Fig. 9. Translația ribozomală
După sinteza lanțului proteic intervin o serie de factori care o conformează . Printre
aceștia cei mai importanți sunt chaperonii, macromolecule care mediază conformația proteică
de-a lungul întregului său ciclu de viață. Prin conformare proteică se înțelege: formarea
structurii secundare (răsuciri și cutări ale lanțului de aa), a structurii terția re (plierea
proteinelor în urma cărora apar structuri complexe tridimensionale, globulare sau de alte
forme, alungite, ramificate, fibrilare, etc.) .
În urma acestor procese se ajunge la proteina matură, activată, capabilă să -și exercite
funcția, respectiv funcțiile.
După cum se poate observa, procesul de pliere este doar o etapă din complexul proces
de sinteză.
Prin analogie cu lumea IT, informația din ADN poate fi văzută ca un program de
calculator stocat în memorie, dar abia exprimată această informație s ub formă de proteine
capătă viață, programul se „execută” și „rulează” pe „microprocesorul” celular, care la rândul
său e o mașină creată din proteine. Cercul se închide. Mașina s -a autocreat.
Pe scurt, sinteza proteinelor este o modalitate a celulei vii de a crea și meține ordinea
într-un univers haotic. În absența acestui proces organizatoric, informația nu ar mai fi nici
conservată, nici „executată” epigenetic, iar celula ar fi doar o microsferă în care natura ar da
curs proceselor sale entropice.
1.7. Ciclu l de viață al proteinelor
Așa cum s-a întrezărit î n secțiunea anterioară, o proteină, de -a lungul vieții sale, poate
trece prin mai multe stări posibile, de la starea nepliată, de structură primară, la starea pliată
greșit (lezată), la starea degradată (de obicei în apoptoză dar și în alte cazuri), la starea de
proteină agregată în anumite boli grave, și la starea nativă, capabilă să asigure funcția
biologică. Toate aceste transformări sunt mediate de chaperoni, proteine, care, la rândul lor,
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
18
sunt capabile să ajute alte proteine să se plieze corect, ei fiind factorii cheie care intervin pe
tot parcursul „vieții” proteice . ([MCC05] ,[MUN16] ).
Inputul ciclului de viață este sinteza ribozomală, în timp ce outputul este degradarea
fiziologică (sau patologică). Ch aperonii sunt cei care nu lasă proteina sub formă de structură
primară să se plieze până când nu e încheiată sinteza, apoi, însoțesc toate fenomenele de
conformare (pliere, depliere, misfoldare, repliere) .
Din imaginea de mai jos se poate deduce că anumite forme lezate ar putea să se
găsească într -o stare energetică mai stabilă (energie mai mică) decât proteinele în conformația
nativă. Este dovedit că proteinele sunt capabile să asigure funcția biologică numai în starea
nativă. În orice altă conformație (poate cu mici excepții) ele sunt nocive pentru celulă. Spre
exemplu, proteinele agregate își pierd din proprietățile hidrofile, „câștigă” mai multe
proprietăți hidrofobe și, prin urmare, ajung să fie mai puțin solubile în apă și în mediul
celular, ceea ce le face să se aglomereze sub forme similare precipitatelor, formând amiloizi.
Fig. 10. Ciclul de viață al proteinelor 9
1.8. Factorii care influențează plierea proteinelor
Problema plierii este o problemă complicată pentru că numărul atomilor și legăturilor
care se pot forma între ei este uriaș, iar factorii care intervin în timpul acestui proces sunt
multiplii, la scări și niveluri de integrare diferite. Astfel trebuie luat e în considerare fenomene
care se petrec de la, inclusiv, nivelul subatomic, al învelișului electronic ([MIH11]), trec prin
9 După *MUN16+
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
19
domeniul atomic, al orientării legăturilor sigma și pi, studiate de mecanica cuantică, pentru a
urca la nivelul molecular (aminoacid ic, peptidic ), supramolecular (lanțurile peptidice) și a
ajunge în cazul protei nelor mari , globulare , până la nivelul subcelular, ultra –
electronomicroscopic.
Factori fizici și chimici:
Orientarea norului electronic al atomilor conținuți în interiorul macromoleculei
influențează și este influențat de modul în care proteina se pliază, iar învelișul electronic al
atomilor conținuți în resturile aminoacidice de la suprafața proteinei, influențează unele dintre
proprietă țile (ex : caracterul hidrofobic -polar, punctul izoelectric ) și funcțiile sale (ex: funcția
de transportor de ioni).
Nivelul atomic și molecular , prin succesiunea atomilor în cadrul aminoacizilor,
respectiv ai aa în lanțul polipeptidic, este principalul fac tor de care depinde modul în care
macromolecula se va plia, conforma, împacheta. Această suucesiune este suficientă pentru a
determina ce tipuri de structuri se vor forma la nivel secundar și, chiar dacă deocamdată nu e
evident cum, experimentele care arat ă că o proteină poate fi depliată și pliată din nou în
aceeași conformație( [ANF 61]), ar sugera că și la nivel terțiar structurarea este strict
determinată de substru cturile de până la acest nivel.
Natura legăturilo r interatomice . Cel mai important factor este structura primară .
Ordinea aa din secvența proteică este cea care dictează modul în care se vor forma structurile
secundare, de tip alfa -helix sau fâșiile beta, precum și modul în care aceste structuri se vor
plia pentru a forma structura complexă tri dimensională. Dogma Anfinsen postulează că
structura conformată a proteinelor la nivel terțiar și cuaternar este determinată numai de
structura lor primară ([ANF73 ]). Într-o mare măsură, aceste plieri depind de natura aa din
punct de vedere hidrofob, dar și de natura resturilor monomerilor care pot forma legături Van
der Waals sau legături de Hidrogen cu resturile aa învecinați sau cu atomii legăturii peptidice
din cate nele apropiate (între gruparea carbonil, C=O, și gruparea -NH sau între gruparea
hidroxil –OH și azotul iminic =N -H). Cu toate că leg H. este relativ slabă , datorită numărului
mare și distribuirii aproape uniforme de legături care se formează între catenele laterale,
asigură o proteinei o stabilitate bună ([DIL90]) .
Legăturile di sulfidice, rezistente la hidroliză , sunt cele care conferă proteinelor o
rezistență mecanică mare. Între resturile unora dintre aa polari se pot forma legături ionice
foarte puternice, între resturile aa hidrofobi se formează legături slabe de tip van der Waals,
pe când între aa cu grupări hidroxil pot apărea legături eterice, covalente, foarte puternice.
Între resturile de serină și un radical fosforic se formează legături fo sfodiesterice.
Înafara acestor factori se mai poate aminti con centrația ionilor de H (pH -ul),
temperatura (denaturarea albuminelor – coagularea albușului de ou) ([ROW16] ), ascorbatul,
complexul ascorbat/ hidroascorbat ( [SZA14] ,[BAN03 ]).
Este surprinzător faptul că secvența ADN (dacă se folosesc codoni sinonimi)
influențează structura proteică. Această descoperire care arată că aceeași structură primară
poate plia diferit dacă provine din secvențe diferite de baze azotate vine să infirme dogma
Anfinsen ([SAU10 ]).
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
20
Factori b iologici :
Pentru ca problema să fie și mai complicată, in vivo , înafara factorilor naturali -pasivi,
în cazul unor a dintre proteine intervin anumite mecanisme biologice active care pliază
proteinele celulare într -un mod specific , precum chaperonii, co -factori de legătură, reticulul
endoplasmatic ( [MAN14] ).
Reticulul endoplasmatic (ER) , un organit celular cit oplasmatic care are și rol de
susținere celulară , participă la plierea proteinelor cu destinație extracelular ă. Mai mult, s -a
observat că numai ribozomii atașați ER participă la procesul de sinte ză proteică, în timp ce
ribozomii citoplasmatici liberi nu intervin în nici un fel ( [CON83] ).
Chaperonii . Laureatul premiului Nobel, Christian Anfinsen a fost primul care a
demonstrat că o proteină se repliază în exact aceeași stare nativă după o depliere completă,
chiar dacă la rate mult mai mici decât cele in vi vo ([ROW16] ). Aceasta a fost prima
observație care a condus la ideea că în interiorul celulelor există niște molecule care asistă
procesul de pliere. Ulterior au primit numele de chaperoni .
Pe de altă parte, n u toate proteinele pliază spontan în starea de energie minimă. Există
anumite proteine care au o conformație particulară complicată sau instabilă. Aceste proteine
au dificultăți în a -și atinge conformația nativă ca să -și poată executa funcția. În aceste caz uri
intervin aceiași chaperoni – proteine specializate , poate cei mai importanți factori celulari,
care, așa după cum le spune numele , însoțesc (asistă și mediază) și ajută alte proteine să
plieze corect ( [MCC05] ). Ei intervin în toate procesele ciclului de viață proteic. Chaperonii
sunt cei care în timpul sintezei secvenței de aa nu o lasă să înceapă plierea . După încheierea
sintez ei ei încep să medieze procesul de conformare până la structura terțiară, respectiv
cuaternară . Tot chaperonii intervin în pro cesul de depliere parțială sau totală. Deasemenea
deplierea către starea agregată sau starea misfolding (pliere greșită, conformație lezată ,
toxică ) este influențată de acei ași chaperoni ([MUN16]) .
Prionii. Descoperirea în anii 60 ai secolului trecut a faptului că proteinele ar putea
avea proprietăți infecțioase, a spulberat dogma centrală a biologiei moleculare. Conform
acestei dogme , agenții infecțioși trebuia u să facă parte din categoria moleculelor
informaționale de tip ADN sau ARN . Conceptul de proteine infecțioase , numit e prioni , a fost
propus în urma cercetărilor scrapiei, o boală fatală a ovinelor și caprinelor. În urma
multiplelor studii (rezistența la expunerea radiațiilor ultravioletelor care distrug acizii
nucleici, purificare și secve nțiere, etc.) s-a stabilit că prionii sunt proteine ([DYS16 ]).
Prionii produc o serie de boli neurodegenerative transmisibile la om și animale,
printre care se pot aminti scrapia, insomnia fatală, Kreutzfeldt -Jacob, boala vacii nebune,
kuru, sindromul Alpers ( [DYS16 ]).
Fiind proteine, prionii nu se pot multiplica asemenea acizilor nucleici, mecanismul lor
infecțios bazându -se pe transmiterea conformațiilor lor proteinelor normal conformate din
organism. Astfel, pot fi și prionii considerați un factor care influențează pl ierea „rea” a
proteinelor. Această pliere defectuoasă sugerează însă un tratament care ar putea fi folosit
pentru tratarea tocmai a bolilor cauzate de către prioni. Dar și un tratament împotriva
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
21
îmbătrânirii celulare. În ambele cazuri ar trebui sintetizați prioni „buni” care inoculați în
celulele bolnave ar putea reface, prin același mecanism, proteinele lezate (misfoldate).
Trecerea în revistă a celor mai importanți factori care influențează procesul de
conformare proteică, e suficientă pentru a întrezări problematicile care apar atât în cercetările
de natură biochimică pentru determinarea structurii atât de complexe, cât și pentru predicția
acestei structuri cerută de la simulările computaționale.
1.9. Tehnici pentru determinarea structurii proteinelor
Pentru d eterminarea structurii proteine lor, încă din deceniul 7 al secolului trecut au
fost aplicate metode fizice și fizico -chimice, precum cristalografia cu raze X , rezonanța
magnetică și nucleară (RMN) , metode calorimetrice , etc. ([ROW16]). Pentru că aceste
determinări necesită un timp lung și sunt complicat e, și pentru că necesită aparutură
costisitoare, încă de la începutul descoperirii structurilor proteice de ordin înalt, în ajutorul
tehnicilor cl asice, s -a apelat la metode de simulare comp utaționale pentru predicția structurii
native a proteinelor ([MUN16]) .
1.10. Probleme înrudite
Înafara prob lemei plierii proteinelor, probleme și mai complexe au apărut odată cu
înțelegerea fenome nelor biochimice și celulare.
Problema inversă a simulării plierii proteinelor pleacă de la structura terțiară (sau
cuaternară) și încearcă să deducă structura primară. Problema atinge grade de dificultate mai
mari decât în cazul problemei plierii pentru că, de cele mai multe ori se pleacă de la o func ție
cerută și se încearcă găsir ea de dublete optime de tipul (conformație, secvență aa) ( [RYA16] ).
Aplicațiile rezolvării acestei probleme sunt cerute de ingineria și proiectarea proteinelor, iar
beneficiile sale se regăsesc în proiectarea unor medicamente care să trateze la nivel molec ular
boli incurabile. Aceste medicamente ar putea fi aplicate țintit către organul bolnav și ar fi
personalizate pentru fiecare pacient. Biotehnologia ar putea fi alt domeniu care să beneficieze
de pe urma efortului de rezolvare a acestei probleme. Se vor putea crea bacterii sau ciuperci
care să producă petrol, stopând astfel poluarea generată de arderea combustibilior fosili, sau
să fie puse în practică tehnologii de depoluare a mediului fără costuri pentru acesta.
Problema deplierii (parțiale ), din cât șt iu, nu a fost încă def inită, deși e ușor de
anticipat. Ea presupune simularea procesului de depliere pa rțială și de repliere către
conformații patologice , toxice sau afun cționale . Printre aceste conformații se poate aminti
forma agregată (amiloidă) a proteinelor , precum și forme lezate (misfoldate). Procesele
biochimice care au loc sunt insuficient cunoscute, iar lămuririle pe care le vor aduce
cercetările viitoare vor ajuta la punerea corectă a acestei probleme.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
22
2. Simularea plierii proteinelor
În timpul procesului de pliere a proteinelor intervin e o serie de fenomene și factori
care îl influențează. Per total se poate spune că plierea este constituită dintr -o succesiune de
reacții unimoleculare . Fundamentele proceselor complexe și mu ltiple sunt de ordin fizic,
încadrându -se în categoria fenomenelor de stabilizare a sistemelor în câmp electric.
2.1. Simularea sintezei proteinelor
Plierea este doar o etapă din întregul proces de sinteză și conformare proteică. O
aplicație pentru simularea întregului pro ces de sinteză și de conformare a structurii
tridimensionale a proteinelor trebuie să simuleze toate etapele sale: transcrierea nucleară prin
complementaritate a informației ADN în ARNm, translația ribozomică în care, pe baza
informației din ARNm, se formează secvența peptidică ( [CAD13] ), plierea (formarea
structurii secundare, terțiare și cuaternare unde e cazul) asistată de către chaperoni, deplierea
proteinelor către starea de misfolding sau de p roteină agregată și deplierea totală în care
proteina este desfăcută până la structura primară , procese asistate de aceiași chaperoni
([MUN16]) .
Prin urmare, simularea plierii proteinelor este doar o etapă din simularea sintezei
proteinelor, în același fel în care aceasta din urmă ar fi doar un modul din cadrul unei aplicații
complexe de simulare celulară. La rândul ei, problema plierii proteinelor este formată din alte
trei probleme: codul de pliere (the folding code) , PSP (protein structure prediction) și
paradoxul Levinthal (viteza de pliere), probleme de care trebuie ținut cont în simulările
computaționale și pe care acestea ar trebui să le rezolve ([DIL07] ).
2.2. Importanța simu lării plierii proteinelor
Orice conformare într -o altă stare decât cea nativă sau orice pliere greșită va cauza
pierderea funcției proteice ([TUR 16]). Drept urmare vor apărea boli grave precum
Alzheimer, Parkinson , anumite tipuri de cancere , șamd . Deasemenea, agregarea proteinelor ,
cu acumularea de amiloizi ([ ENG07 ]) în creier, cauzată de către prioni , generează boli foarte
grave cu degenerescență lentă precum scrapia la oi, boala vacii nebune, Creutzfeldt -Jacob sau
kuru la om ([DYS16 ]).
Stabilirea conformației native a proteinelor și a plierii acestora pe cale clasică, prin
mijloace fi zice și biochimice, necesită eforturi financiare mari și timp îndelungat. Ca urmare,
până la ora actuală nu sunt cunoscute decât aprox. 1% din structurile proteice de ordin înalt
([DUB16] ). În cazul în care simularea pe calculator a conformării proteice ar da rezultate
bune pentru conformații cunoscute, sunt șanse mari ca pe această cale, care ar fi foarte rapidă
și mult mai ieftină, să se determine structura și modul de pliere în cazul proteinelor
necunoscute. Și, prin aceasta, ar fi posibilă identificarea funcției biologice a acestora, precum
și, poate marea speranță aștepatată de la in silico , descoperirea unor funcții noi, necunoscute
încă. Gradul în care funcția proteinei simulate este asemănătoare funcției proteinei biologice,
poate constitui o măsură a reușitei simulării plierii.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
23
Înțelegerea apoptozei și a necrozei (a modului în care sunt degradate proteinele, acizii
nucleici și ceilalți constituenți celulari) este un alt vis al cercetătorilor științei vieții.
Chiar și în cazul proteinelor a căror conformație și funcție este cunoscută, efortul
depus pentru simulare nu este inutil, pentru că acesta este un pas important pentru realizarea
simulării celulare.
Nu în ultimă instanță, posibilitatea simulării celulare va declanșa o revoluție în
științele vieții nemaiîntâlnită în într eaga istorie a omenirii.
2.3. Istoricul simulării plierii proteinelor
Ipoteza termodinamică a fost introdusă de Anfinsen în 1961 ( [ANF61 ]), dezvoltată
ulterior de alți cercetători, iar în 1973, același Anfinsen definește problema plierii proteinelor
în ([ANF6 3]). El dovedește că cele mai multe proteine ating conformația nativă și in vitro,
însă timpul de pliere este considerabil mai lung comparativ cu plierea in vivo , câteva ore față
de cele câteva microsecunde sau milisecunde. Observă în același timp că viteza de pliere
depinde de temperatură, dar că temperatura nu schimbă calea de pliere. Deasemenea reușete
să deplieze total o proteină și să o replieze din nou. Observă că de fiecare dată proteinele se
conformează natural în starea lor nativă. Aceste fapte îl fac să avanseze ipoteza
termodinamică (numită mai târziu dogma Anfinsen) , conform căreia în timpul plierii ,
proteinele caută conformația cea mai stabilă, caracterizată de energia potențială minimă.
Această ipot eză a schimbat perspectiva problemei de la nivel calitativ la nivel cantitativ,
permițând tehnicilor matematice și informatice să o abordeze sub aspecte calculabile.
Paradoxul Levinthal ([LEV69] ) se referă la faptul că, deși numărul tuturor
conformațiilor posibile ale unei proteine este imens, o proteină se împachetează în câteva
micro sau milisecunde. Pentru o proteină relativ mică, de doar 101 aa, numărul conformațiilor
posibile este de 3200 (adică aprox. 1095). Chiar la rate foarte mici de pliere, de ord inul
picosecundelor, întreaga vârstă a Universului (de aprox. 1029 ps) nu ar ajunge pentru a se
încheia procesul. Pentru insulină, care are 51 aa, există 3100 (1047) conformații posibile, deci
nici un algoritm nu ar avea timp să parcurgă întregul spațiu al soluțiilor. De aici, e simplu de
dedus, că natura abordează în alt mod procesul de pliere, că probabil începe cu câteva centre
locale care, paralel, se extind până „invadează” în treaga proteină. Cu toate acetsea modul în
care natura reușește să rezolve aș a de simplu și de elegant această problemă rîmâne încă
învăluit în mister.
Deasemenea Levinthal sugerează, contrar ipotezei termodinamice, că starea nativă a
unei proteine ar putea să fie stabilizată la o energie mai înaltă în cazul în care energia minimă
nu a putut fi atinsă din motive cinetice.
Conoscute aceste rezultate ale biochimiei și ale biologiei moleculare, imediat a urma t
e explozie în domeniul bioinfo rmaticii, care nu întâmplător apare în anii anii 70 ai sec trecut.
Au fost propuse mai multe mode le pentru rezolvarea acestei probleme, modele care au fost
luate cu asalt de informaticieni din toate ungiurile algoritmicii. Cu toate acestea, deși s -au
obținut rezultate pentru cazuri particulare de proteine mici, încă nu există o rezolvare
generală pentru orice tip de protein ă.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
24
2.4. Modele propuse pentru simularea plierii proteinelor
Deoarece fenomenul de pliere al proteinelor este greu de surprins în toată
complexitatea sa, de -a lungul timpului au fost propuse modele, mai mult sau mai puțin
simplificatoare, în așa fel încât să poată fi abordate prin persp ectiva algoritmilor informatici .
În general, în modelele propuse, pentru construirea funcție i scop s -a ales minimizarea
energiei libere. În acest fel, algoritmii vor genera o mulțime de conformații din mulțimea
colosală de conformații posibile, și vor selecta conformația cu valoarea minimă a funcției
energie.
Modelele de tip latice sunt mode le de rezoluție scăzută care au în comun o serie de
ipoteze simplificatoare: fiecare monomer (aa) este reprezentat printr -un singur punct, pozițiile
aa sunt restricționate la poziții în latice, toți aa se consideră că au mărimi egale, legăturile
chimice au lungimi egale, iar funcțiile energie utilizate sunt simple ([BAC06] ). Aceste
modele simple surprind doar unele aspecte structurale și energetice ale fenomenului de pliere ,
dar în general sunt mai ușor de abordat pentru calculul structurii optime.
1. Modelul H P. Ken Dill și Lau propun în ([DIL85], [LAU89] ) un model de tip latice ,
pe care îl numesc hidrofobic -polar (HP). În acest model cei 20 de aa sunt clasificați în doar 2
grupe: aa hidrofobi (nepolari), notați cu litera H și aa hidrofili (polari), notați cu litera P.
Alfabetul acestui model este {H,P}.
Aa hidrofobi resping apa , în timp ce aa hidrofili au afinitate p entru moleculele de apă.
Deoarece viul e un mediu acvatic , iar proteinele își petrec existența , scufundate, în acest
mediu , aa hidrof obi, în stare nativă tridimensională , tind să se aglomereze înspre interiorul
proteinelor globulare. Plecând de la această observație, pentru ca acele conformații simulate ,
în care aa H sunt aglomera ți, să fie preferate, autorii modelului H P au construit funcția
energie prin acordarea unui punctaj negativ ( -1) oricăror 2 aa H vecini dar care nu s unt legați
direct prin legătura peptidică în secvența proteică. Pentru celelalte 3 variante posibile nu se
acordă nimic (punctaj = 0). Funcția energie este suma tuturor conexiunilor H -H pentru o
conformație dată. În acest fel, cu cât sunt mai strâns grupați aa H, conformația respectivă va
avea o funcție energie mai mică.
În tabelul 2 este prezentat ă funcția energie a modelului HP ( punctajul pentru fiecare
tip de conexiune care poate apărea între cele două tipuri de aa ).
Tabel 2 . Funcția energie a modelului HP
Tip aa H P
H -1 0
P 0 0
Modelul H -P poate fi aplicat în variantă bidimensională sau tridimensională. În prima
variantă, aa sunt plasați într-o latice 2D și, evident, în a doua variantă a modelului, aa sunt
plasați în latice 3D, cubice sau alte forme paralelipi pedice , etc . În fig. 11 este prezentat
rezultatul unei simulări pe o latice bidimensională pătrată, iar în fig. 12, rezultatul simulării
pe o latice cubică.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
25
Fig. 11. Latice 2D (pătrată) Fig. 12 . Latice 3D (cubică)10
În ciuda simplității sale, acest model, pentru latici pătrate , în varianta în varianta 2D ,
respectiv cubice, în varianta 3D, s -a dovedit că este o problemă NP -complete. Pentru latici
generale, cum ar fi cel triangular sau cubic cu fețe centrate, problema este NP -hard
([KIR84],[ TES10 ],[TEG09 ]).
Critici aduse modelului H -P. Simplificarea pe care o aduce modelul prin clasificarea
aa în doar două grupe este prea drastic, și, prin urmare, funcția energie este prea îndepărtat ă
de realitate. După cum a fost prezentat mai sus, aa nu au grade de hidrofobicitate egală, unii
aa sunt g reu de clasificat de o parte sau alta, iar aa polari, la rândul lor pot fi pozitivi, negativi
sau neutri. Toate aceste posibile interacțiuni sunt ignorate de acest model. Deoarece există
anumite proteine ( proteinele mari ) în care conformația nativă nu se găsește în starea
energetică minimă, aceasta fiind frecvent ocupată de starea precipitată (agregă în amiloizi – o
stare anormală) ( [ENG07 ]), minimizarea funcției energie nu este abordarea cea mai bună.
Această funcție ar trebui îmbunătățită prin găsirea al tor criterii decât simpla conexiune dintre
resturile aminoacidice.
2. Backofen ș i Will, în ( [BAC06] ) propun modelul FCC (cubic cu fețe centrate), în
care modelului H -P îi aplică două latici tridimensionale, laticea cubică similară modelului
simplu și laticea cubică cu fețe centrate.
3. Modelul HPNX este o extensie a modelului HP, prin care alfabetul este extins de la
2 litere la 4 litere, altfel spus cei 20 de aa sunt clasificați în 4 grupe: H – hidrofobi, P – polari
pozitivi, N – polari negativi și X – polari neutri. ([BAC99 ],[MAN14] ). Astfel, atât funcția
energie se complică, cât și complexitatea simulărilor. Alfabetul este {H,P,N,X }.
Valoarea conexiunilor dintre litere (aa) rămâne la arbitrariul diferiților autori. Cea mai
frecventă funcție energie este reprezentată în fig de mai jos ([HOQ09]) .
10 Imagini preluate din [SHM05]
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
26
Tabel 3 . Funcția energie a modelului HPNX
aa H P N X
H – 4 0 0 0
P 0 1 – 1 0
N 0 – 1 1 0
X 0 0 0 0
În viziunea biologilo r și a biochimiștilor modelul H P este mult prea sărac pentru a fi
capabil să ofere rezultate bune în lumea reală, spun ei, dincolo de exercițiile sterile ale
informaticienilor. Din acest motiv au fost propuse diverse extensii ale sale, printre care poate
fi amintit modeul HP -SC – hidrof obic po lar side chanel model – (catenă laterală) , mult mai
puțin studiat decâ t modelul clasic . Acest model a fost propus în 2002 de cercetătorii Li,
Klimov și Thirumalai ([LIM02]) . Simulările pe acest model sunt mult mai realiste , dar în
același timp crește și complexitatea problemei ([BEN10 ]). În acest model , suplimentar față de
modelul HP, apare o catenă laterală ( coloana proteică – backbone) pe care se inserează
aminoacizii , formată din legăturile peptidice, care în figura de mai jos reprezentată în nuanțe
de gri.
Fig 13. Reprezentare în modelul HP -SC11
4. Dinamica moleculară (MD) este un instrument de rezoluție mare , în care este pusă
în aplicare o vedere mecanică asupra problemei plierii . În acest model atomii sunt cei care se
reprez intă prin puncte, astfel se respectă mărimea aminoacizilor și lungimea legăturilor
chimice , iar elementele modelului ( atomii și aa) nu sunt restricționați la anumite poziții
spațiale ([COM13] ). Pentru r ezolvarea sa se face apel la diferite variante de integrare
numerică.
Deoarece încorporează legile fizice din spatele fenomenului de pliere, rezultatele
obținute cu acest model sunt cele mai apropiate de realitate. Mai mult, simulările găsesc și
căile de pliere, nu doar conformațiile corecte. Marea prob lemă însă, este costul computațional
imens , motiv pentru care nu e fezabil pentru proteine medii și mari. Pentru simularea acestor
11 Imagine preluată din ( [BEN10] )
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
27
secvențe se apelează și în acest caz la simplificări și aproximări , care micșorează costurile de
calcul, dar și calitatea simulărilor.
5. Modele o ff-latice . Modelele de tip off -latice se ocupă mai mult cu tendința lanțului
de aa de a avea o coloană formată din legături peptidice, în care se ține cont de distațele
dintre a tomii de carbon alfa sau de cele două unghiuri dintre aa ( [LU03] ).
6. Modeul steric . Calculul unor traiectorii permise folosind date geometrice similar
calculelor din teoria mecanismelor.
7. Modelul liniilor de câmp . Un neajuns al acestui model e faptul că o să se ajungă la
celebra problemă a celor n corpuri, cunoscută din mecanica cerească.
2.5. Tehnici folosite pentru simularea plierii proteinelor
Încă din anii 80 ai sec XX au fost utilizate diverse tehnici prin care s -a încercat
rezolvarea problemei plierii proteinelor prin simularea
Algoritmii genetici (GA) , propuși de Holland în 1975 ( [HOL75] ), sunt tehnici
stocastice de căutare euristică și optimizare care se inspiră de la o metaforă biologic ă și
anume aceea a principiilor genetice ș i a evoluț iei naturale biologice. Prin analogie cu selecția
naturală, GA se aplică de -a lungul mai multor generați i. Ei caută într -o populație de soluții
posibile (spațiul soluțiilor) și aplică principiul supraviețuirii celui mai bine adaptat pentru a
produce soluții tot mai bune de la o generație la alta. Soluția se apropie de optim cu cât
soluțiile strămoș au fost m ai bune de -a lungul generațiilor anterioare. Sunt algoritmi care se
apropie de soluția optimă, însă nu e obligatoriu să găsească optimul.
Spre deosebire de realitatea biologică, GA se aplică pe indivizi al căror genom este
format dintr -un singur cromozom. Informatic, populația este reprezentată sub forma unor
șiruri binare (pentru algoritmii genetici hibrizi pot fi vectori de valori reale) , iar asupra
acestor șiruri se aplică un set de operatori inspirați din natura fenomenelor biologice.
Recombinarea ( încrucișarea ) este operatorul principal, iar mutația este operator secundar.
Acești operatori modifică șirurile binare care apoi se evaluează în conformitate cu o funcție
obiectiv care poate fi asemănată presiunii selective a mediului .
Frecvent, GA sunt folosi ți pentru rezolvarea unor probleme de optimizare, de
planificare sau pentru probleme de căutare. Deoarece simularea plierii proteinelor este o
problemă de optimizare combinatorială, iar algoritmii genetici sunt potriviți pentru acest gen
de probleme, nu e de mirare faptul că au fost aplicați încă din anii 90 ai secolului trecut
pentru rezolvarea acestei probleme.
Principiul de bază al alg genetici, ca de altfel și a celorlalte tehnici ale inteligenței
artificiale, este de a dezvolta sisteme complexe pornind de la reguli simple.
Etapele implememntării unui GA: modul de configurare , funcția de adecvare
(problemele de optimizare sunt reformulate ca probleme de maximizare), stabilirea
dimensiunii populației , inițializarea populației , mecanismul de selecție (dete rmină din cadrul
populației existente indivizii și părinții indivizilor care vor face parte din generația
următoare), mecanismul de încrucișare (combină informațiile părinților pentru generarea
urmașilor), mecanismul de mutație (pentru creșterea diversităț ii valoarea unor gene este
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
28
alterată), supraviețuirea (sunt selectați indivizii cei mai buni pentru a intra în generația
următoare), criteriul de oprire (drept criteriu poate fi ales un anumit număr de
generații/iterații sau gradul de diversitate a populați ei).
Modul de configurare : în GA standard cromozomii au lungime fixă, caz în care pentru
stocarea informației vor fi folosite tablouri, iar în GA hibrizi listele înlănțuite vor reprezenta
cromozomii de lungime variabilă.
Schema logică generală a algoritmil or genetici este redată în fig de mai jos
([HUA10])
Fig. 14
În general, în cazul simulării plierii proteinelor pentru modelul H -P, indivizii
populației sunt reprezentați de lanțuri de aa în diferite conformații posibile. De -a lungul
simulării populația rămâne fixă, fitness -ul este energia liberă a lanțului proteic care trebuie să
fie cât mai mic, iar condiția de stop este un anumit număr de iterații sau rămânerea constantă
a celui mai mic fitness un număr suficient de generații ( [HUA10 ]).
Rețele neuronal e (NN) . Ramură a inteligenței artificiale, rețelele neuronale artificiale
(RNA) sunt rețele de elemente de procesare puternic interconectate, care au capacitatea de a
învăța și care operează în paralel pentru rezolvarea unei sau unor probleme încercând să imite
modul de lucru al rețelelor neuronale biologice. Prin urmare, sunt compuse din neuroni
artificiali legați între ei prin interconexiuni prin care se propagă informația numerică.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
29
Corespondențe dintre rețele neuronale artificiale și cele biologice: Intr ările corespund
dendritelor, ieșirile, axonilor, corpul neuronal reprezintă nodul rețelei, sinapasa este
reprezentată de conexiunea ponderată, iar funcția de activare corespunde activării biologice.
Deși urmează paradigma funcționării creierului uman, rețe lele neuronale artificiale sunt net
inferioare acestuia.
Se pretează pentru rezolvarea problemelor care se pot reprezenta sub formă de perechi
(valoare -atribut). Este aplicabilă atât problemelor cu valori reale (continue) cât și celor cu
valori discrete.
Printre dezavantajele lor poate fi amintit timpul lung de învățare, faptul că nu poate
clasifica decât date liniar separabile (poate rezolva funcțiile or și and, dar nu și xor -ul).
Homology Modeling . Este o metodă care îmbină tehnici clasice și tehnici
computaționale (alinierea secvențelor de aa, instrumente de modelare ca Swiss -Model,
PyMOL, etc) pentru a prezice structura tridimensională, bazându -se pe asemănările dintre
proteinele unor specii înrudite ( [BIS11], [CHA14] ).
Alți algoritmi utilizați pentru s imularea plierii proteinelor:
Modelul coloniei de furnici (ACO)
Membrane Computing (P -systems)
Machine learning
Simula re Monte carlo
Programare logică/ constrângeri (DOV11)
Autom ate celulare
2.6. Simularea plierii proteinelor
Cum era de așteptat, pentru rezolvarea sa, problema plierii proteinelor, in silico , a fost
abordată din perspectiva tuturor modele lor cunoscute . Pentru simularea plierii proteinelor au
fost aplicate o vastă paletă de algoritmi, pornind de la brute -force și metode Monte Carlo și
până la tehnici de inteligență artificială, precum algoritmii genetici, ACO, rețele neuronale,
șamd.
Cel mai exploatat mo del, încă de la propunerea sa în anii 80 ai secolului trecut, poate
și pentru simplitatea sa, a fost m odelul HP . O serie de abordări, dintre cele mai diverse au
excitat luma bioinformaticii, fiind aplicați, pentru rezolvarea acestui model cam toți
algoritmii cunoscuți.
Algoritmii genetici au fost printre primii aplicați pentru escaladarea problemei plierii,
cunoscând abordări în forma lor simplă sau în variante hibride dintre cele mai diverse. Cu
toată istoria de peste 25 de ani, variante de GA sunt aplicate și în prezent .
Unger și Moult au fost pri ntre primii care au aplicat GA, atât pe modelul HP
bidimensional ( [UNG93 a]) cât și pe modelul tridimensional ([UNG93b ],[CUS04] ). Ei au
aplicat crossover pentru unghiuri de 0, 90 și 270 grade. În schimb, a utorii din ([PAT95] )
extind GA utilizați anterior cu reprezentarea coordonate lor bazată pe direcții relative și aplică
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
30
anumite penalizări funcției energie , iar alți autori au experimentează elastic net algorithm cu
metoda că utării locale (local search) ([GUO06] ).
Krasnogor și colab. în ([ KRA99 ]) analizează un mix de operatori: încrucișare, mutație
și micromutație, pentru a afla combinația optimă în cazul simulării plierii proteinelor.
Deasemenea pe lângă matricea pătrată introduc o latice triangulară , reformulează funcția
energie și experimentează pe ambele variante ale modelului H P (2D și 3D) . În urma
experimentelor aplicate pe 5 polimeri mai mici de 50 aa, constată că cea mai bună combinație
pentru parametrii algoritmilor genetici este formată dintr -o probabilitate mică de crossover și
o probabilitate mare de mutație și micromutație.
O abordare interesantă găsim în ([HUA10] ) unde autorii pornesc de la structuri
secundare optime și aplică algori tmi genetici asupra modelului H P 2D clasic . În acest fel
spațiul soluțiilor este micșorat considerabil, iar simularea este mai apropiată de realitate.
În aceste lucrări, autorii au ob ținut rezultate bune pentru proteine mici, însă algoritmii
nu sunt foarte rapizi, iar pentru lanțuri lungi de proteine nu a fost găsită soluția optimă. Și,
desigur, cu creșterea numărului de aa, complexitatea problemei crește exponențial, iar acești
algoritmi nu mai sunt fezabili.
Cercetări recente au abordat problema simulării plierii proteinelor prin aplicarea unor
algoritm i genet ici hibridizați cu căutarea locală asupra modelului de tip latice, HP 2D
([TUR 16]), cu rezultate bune pentru secvențe de până la 85 aa. Algoritmii genetici combinați
cu căutarea tabu au fost aplicați în ( [JIA03]), combinaț i cu DFS (depth -first search) în
([HOQ08 ]). În prima lucrare căutarea tabu a fost folosită pentru efectuarea operației de
crossover. Un algoritm evoluționar Monte Carlo care a încorporat GA și călirea simulată a
fost aplicat în ( [LIA01] ), iar autorii ([RAM97]) au propus simularea Monte Ca rlo dinamică
pentru soluționarea problemei plierii. Toate aceste experimente au fost făcute pe modelul HP
clasic 2D.
Pentru modelul HP 3D, a fost aplicat GA hibridizat cu PSO (particle swarm
optimization) pe 7 secvențe de până la 60 aa în ([LIN11 ]).
Un algoritm hibrid îmbunătățit de căutare , o combinație de fapt dintre PSO ( particle
swarm optimizer ) și căutarea tabu (TS) este folosit pentru predicția structur ii proteinelor
pentru laticea H P 3D în ( [ZHO13] ), iar în ([COT09]) găsim un algoritm evoluțio nar
hibridizat cu backtracking.
Rețelele neuronale au fost aplicate în diverse moduri. În ([TEG09]) sunt utilizate
rețele neuronale 2d -recursive (2D -NN – 2D-Recursive Neural Network ) pentru prezicerea
contactelor dintre rezidurile (resturile) de aa, precum și pentru prezicerea contactelor dintre
resturile din beta -sheet -uri, iar autorii ( [SAN13]) folosesc structuri pe care le numesc
„automate celulare neurale” pentru rezolvare a tridimensională a modelului H P clasic .
Shmygelska și Hoos aplică algoritmul ACO pentru modelul H -P 2D ( [SHM03 ]), iar în
([SHM05]) prezintă o versiune îmbunătățită atât pentru modelul 2D și 3D. Și, tot grupul
Shmygelska, aplica algoritmul REMC (Replica Exchange Monte Carlo), cu rezultate
promițătoare, pe lanțuri de până la 100 aa, incl usiv, atât pe latice 2D cât și 3D ([THA07] ).
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
31
Nici sistemele multi -agent nu au rămas neexplorate pentru rezolvarea acestui tip de
simulare. În ([BEL09]) autorii au folosit 3 tipuri de agenți: agentul generator de secvențe HP,
agentul generator de conformații 2D/3D și agentul genetic, realizând și o aplicație GUI pentru
experimentare.
Cu rezultate net superioare abordărilor secvențiale a fost aplicat un algoritm genetic
paralel de tip master -slave (PGA) asupra modelului H -P 3D cu catenă laterală (si de chain)
([BEN09],[BEN10] ).
Alm și Baker aplică un model mecanic statistic ([ALM99]), pentru ca Levitt î n
([LEV83 ]) să discute problema conformării proteinelor din perspectiva dinamicii moleculare
(MD) și a recoacerii dinamice simulate , aplicând minimizarea unei funcții energie de
legătură. Deasemenea aici sunt introduse mai multe variante de analiză a conformațiilor prin
compararea coordonatelor atomice, a celor două unghiuri de torsiune ( ϕ, ψ), a legăturilor de
Hidrogen, șamd.
Autorii din ([LU0 3]) abordează pproblema predicției plierii proteinelor din cu totul alt
unghi. Ei aplică o funcție entropie relativă asupra unui modelul off-latice. Ei țin cont de
distanța dintre atomii de C alfa din legăturile peptidice și o formă generalizată pentru
potențialul de contact al celor 20 de aa, iar funcția entropie folosită este o îmbunătățire a
minimizării energiei. Rezulatele, pentru 8 proteine reale s -au apropiat relativ bine de
proteinele reale, chiar dacă nu s -a ținut c ont de interacțiunile Van der Waals.
Simulările de dinamic ă moleculară , poate mai puține ca număr decât alte metode și
tehnici , au fost efectuate în diferite simplificări, încă din anii 80 ai sec XX ([CHO14 ],
[ZHA16] ), iar studiile de b iochimie apeleaz ă frecvent la analiz a MD și la diferite aplicații și
servere construite în acest scop ( [POR16] ).
În ([COM13 ]), autorii se arată nemulțumiți de viabilitatea abordărilor teoretice și
experimentale ale simulărilor efectuate, re și fac o trecere în revistă a modelelor propuse în
cei peste 40 de ani de când a fost identificată problema plierii proteinelor.
Autorii ([BAH11]), observ ă că au fost realizate o sumedemie de experimente, în
special pe modelul de tip latice H P care a fost puternic exploatat, că s -a sta bilit faptul că
plierea este o problemă NP -hard la modul general, dar că toți autorii până la ei au presupus că
simularea plierii este un proces previzibil , deși nimeni nu a dovedit acest lucru . Ei consideră
că e rezonabil să se stabilească dacă procesul e haotic sau mai puțin haotic pentru a putea ști
dacă prin tehnicile IT se poate prezice structura tridimensională a proteinelor. Deasemenea
arată că, folosind rețele neuronale, nu e exclusă posibilitatea prezicerii structurii proteinelor
chiar și în cazul în care plierea lor ar fi haotică. Ei desch id astfel, un larg câmp de cercetări în
ceea ce privește aplicarea tehnicilor IA asupra fenomenelor haotice și a posibilităților
acestora de predicție.
Tehnici de învățare automată au fost aplicați relativ recent în lucrările ce rcetătorilor
clujeni, în care au abordat problema din perspectiva Reinforcement Learning și
Reinforcement Learning distribuit ([CZI11a], [CZI11b], [CZI11c], [CZI11d], [CZI11e],
[BOC13] ). În aceste lucrări ca date de test au fost folosite do uă secvențe de 4, respectiv 20 aa,
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
32
pentru care se cunoaște minimul funcției energetice. Un model evoluționar cu operatorul
genetic hill-climbing pentru același model HP 2D se regăsește în ([CHI10]) .
Metode de tip ab initio au fost aplicate începâ nd din ani i 90. Acestea constau în
prezicerea structurii tridimensioanle a proteinelor plecând de la struct ura primară, dar ținând
cont, înafara hidrofobicității, de legăturile disulfidice, Van der Waals și de alți factori care
diferă de la un autor la altul. În ([ISH99]) , autorii studiază 18 molecule proteice mici prelaute
din PDB, de până la 31 aa, prin utiliz area unui algoritmului Geocore . În ([HOQ09] ) prezintă
ab initio problema predicției proteinelor ca pe o problemă de căutare a conformațiilor într -un
model la rezoluție mică utilizând alg genetici , iar recent, în ([DUB16] ), au fost folosiți
algoritmi paralel GPU computing pentru prezicerea, ab initio , pe modelul H P cu latice
triangulară 2D .
O recentă trecere în revistă a evoluției, a metodelor și a re zultatelor obținute în
ultimele decade se găsește în ( [MUN16] ).
Nici problema originii plierii macromoleculelor, în general, și a proteinelor, în
special, de -a lungul eonilor în care a evoluat viața pe Terra, nu a scăpat sudiilor științifice
([GUS 16]). În această lucrare se înceară găsirea unei explicații prin care, în mod spontan s -a
trecut de la procesele cimice la cele biologice, fiind abordată inclusiv sinteza proteinelor,
sinteză catalizată la început, probabil de alte proteine mai simple.
Fezabili tatea ( [OTA99] ) și a simularea problemei inverse a plierii proteinelor au fost,
la rândul lor studiate în diverse lucrări printre care în ([RYA16]) problema e abordată din
perspectiva programării pătratice .
Totuși, studiul bibliografic, relevă faptul că a rămas neexplorat ă rezolvarea modelului
H-P 3D prin Q -learning, prin algoritmi genetici hibrizi precum și prin alți algoritmi de IA.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
33
3. Dire cții de cercetare
3.1. Obiective și activități de cercetare propuse
Problema atât de complexă a conformării proteice, generată de cicl ul de viață al
proteinelor după cum s -a văzut în cele expuse mai sus, poate fi subîmpărțită în trei probleme
majore: problema plierii proteinelor , problema inversă a plierii proteinelor și problema
deplierii proteinelor . Fiecare problemă po ate fi abordată din direcții diferite, cu mijloace și
tehnici din cele mai diverse, de la cele biochimice și biologice, in vitro sau in vivo , până la
tehnici informatice numite generic in silico .
De la simulările pe calculator se așteaptă rezultate spectac uloase, de ordin
fundamental, care să dezvăluie înțelesul profund al viului sau să găsească noi funcții
biologice necunoscute încă, dar și aplicații mai pragmatice, precum proiectarea unor proteine
care să fie utilizate în medicină sau în biotehnologie.
Studiul referințelor bibliografice relevă faptul că în acest domeniu s -a lucrat și se
lucrează intens . Cu toate acestea, în fiecare zi cercetările biochimice aduc la lumină noi date
care pot fi (și trebuie) abordate prin lumina bioinformaticii. În primul r ând, aceste noutăți
impun revizuirea m odelelor existente sau găsirea unor modele noi , urmate de re -aplicarea
algoritmilor cunoscuți, dar și elaborarea unor noi algoritmi . Deasemenea, încă nu a fost
epuiza t întregul potențial algoritmic pentru rezolvarea modelelor existente . Acest fapt e
explicabil, deoarece, dacă problema plierii proteinelor are deja 55 de ani de la definirea sa de
către Anfinsen ( [ANF61] ), problema inversă a plierii este mult mai recentă, iar problema
deplierii, din cât știu , a fost definită pentru prima dată aici.
În cele ce urmează, ne propunem să ne orientăm cercetările către abordarea celor trei
probleme discutate mai sus.
În cazul simulării plierii :
1. Aplicarea algoritmilor genetici (GA) hibridizați cu căutarea locală (LS)
([TUR16] ) (a), a Machine Learning -ului (b), a algoritmului EMC – Evolutionary
Monte Carlo ([LIA01]) (c), a GA bazat pe structuri secundare optime ([HUA10 ])
(d) pe modelul HP cu latice 3D, cubică, cubică cu fețe centrate și dodecaedrică. În
cazul Machine Learning, i ntenția este de a continua munca începută de autorii
([CZI11a],[CZI11b],[CZI11c],[CZI11d] ,[CZI11e],[BOC13] ) prin aplicarea RL
asupra laticilor tridimensionale . Aceste simulări vor fi rulate cu date de test
cunoscute din literatură, iar rezultatele vor fi analizate și comparate prin met ode
statistice. În cazul unor rezultate pozitive, eventual prin rafinarea algoritmilor, se
vor simula secvențe de aa ale unor pr oteine reale, plecând de la proteine mici care
conțin câteva zeci de aa (glucagon, insulina, etc .) și până la proteine medii și mari
precum pepsina, peroxidaza, hemoglobina sau chiar hemocianina.
2. Se știe că în multe cazuri conformația nativă a proteinelor nu se găsește în starea
energetică minimă. Aceasta atrage după sine necesitatea îmbunătățirii funcției
energie (scop) a modelului HP în așa fel încât să modeleze mai bine fenomenul de
pliere. În cazul găsirii unei astfel de funcții, experimentele anterioare vor fi
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
34
reluate , iar calitatea rezultatelor obținute va fi folosită pentru evaluarea acestei
funcții și pentru compararea sa cu funcția folosită în prezent.
3. Elaborarea modelului H P extins . După cum s -a precizat în secțiunea 2.4, modelul
H-P, unul din modelele pe care s -au încercat simulări în ultimii 2 5 de ani, este un
model mult prea simplificat. Cu toate acestea , încă nici una dintre simulă rile
aplicate pe acest model nu au dat rezultate pe pro teine mari și complexe. Totuși,
chiar în ipoteza simulării în timp rezonabil pentru orice mărime de polipeptidă, e
de așteptat ca rezultatul să difere de proteina reală deoarece în acest model se
ignoră o multitudine de factori care au o pondere mare în ti mpul procesului de
pliere. În această lucrare propunem folosirea a două model e pe care l e-am numit
modelul H-P extins , respectiv HP-SC extins , în cadrul căr ora, fiecărui aa i se
alocă o anumită „culoare” (o valoare cuprinsă între 0 și 1 sau 0 și 100) în funcție
de hidrofobicitatea sa. Spre deosebire de modelul Lau -Dill, compus din doar două
litere (H și P) și din 4 conexiuni posibile, aici vom avea un alfabet format din 20
de litere și 210 conexiuni. Prin convenție se poate stabili ca valoarea 0 să
coresp undă celui mai polar ( P) aa, care va fi respins către exteriorul proteinei, iar
valoarea maximă va corespunde celui mai hidrofob ( H) aminoacid. Acesta va avea
prioritatea cea mai mare pentru a ocupa centrul proteic, îndepărtându -se atât de
apa din exteriorul proteinei cât și de aminoacizii cu polaritate mare (coeficient de
hidrofobicitate mic). Pentru fiecare scală de hidrofobicitate se va elabora un model
propriu. Cele patru modele corespunzătoare celor patru scale vor fi comparate și
analizate pen tru extragerea informațiilor referitoare la asemănări și deosebiri.
Folosindu -se acest model se pot realiza o multitudine de simulări, plecând de la
simularea unor lanțuri peptidice scurte sau proteine mici a căror conformație e
cunoscută din literatura șt iințifică și, în funcție de rezultate , se poate trece la
proteine din ce în ce mai mari.
4. Identificarea și implementarea algoritmilor potriviți sau dezvoltarea unor algoritmi
specifici pentru soluționarea modelului H -P extins este un alt deziderat.
Dificultatea rezolvării plierii în cazul acestui model este sporită față de cazul
modelului simplu (Lau -Dill), deoarece aa, funcție de gradul de hidrofobicitate, au
priorități diferite pentru ocuparea centrul proteic, pe când în modelul simplu, aa
hidrofobi au prioritate egală . Reiterarea simulărilor de la modelul H -P, cu aceleași
date pentru toate cele patru modele H -P extinse și compararea rezultatelor atât
între ele cât și cu datele din mod elul H -P simplu. În urma acestei analize se va
putea observa dacă modelul H -P extins, propus aici, este mai avantajos decât
modelul simplu în ceea ce privește rezultatele, iar pe baza acestei observații se
poate lua decizia dacă merită efortul computaționa l suplimentar (memorie sau
timp) sau dacă modelul nu aduce nici un plus față de modelul clasic.
5. Pentru o bună comparare a rezultatelor simulate în cadrul modelului HP extins cu
datele reale, se are în vedere crearea unui algoritm pentru translatarea datelo r de
ieșire în care aa sunt reprezentați prin cele 20 de litere ( puncte ) în model atomic în
care, pentru fiecare aa este reprezentată structura sa completă, iar, prin creșterea
rezoluției, atomii ajung să fie reprezentați prin puncte .
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
35
6. Pentru că în fișierele PDB ([PDB] ) sau NCBI ([NCB]) structura terțiară a
proteinelor este reprezentată prin stocarea celor 3 coordonate spațiale pentru
fiecare atom, cea mai simplă metodă pentru compararea datelor simulării pe
model HP extins 3D cu cele al e conformațiilor reale se poate face folosind
distanța euclidiană dintre atomii omologi. Ca indicator sintetic al calității simulării
poate fi folosită suma modulelor acestor distanțe. Cu cât această valoare este mai
mare și mai îndepărtată de zero cu atât rezultatele simulate sunt mai slabe și mai
îndepărtate de conformația nativă. Deasemenea se pot imagina și alți indicatori,
mai analitici, care să evidențieze mai bine asemănările dintre conformația nativă și
cea simulată.
7. Utilizarea Grafurilor Motiff pentru identificarea secvențelor similare din cadrul
aceleiași proteine sau din proteine diferite. Aceasta ar putea veni în sprijinul
predicției structurii proteinelor (PSP) deoarece există premise că secvențe
similare, se pilază în mod similar.
8. Abordarea MD (dinamică moleculară) prin paralelizarea algoritmilor .
În tabelul de mai jos sunt sumarizate obiectivele și activitățile pe care ne propunem să
le realizăm pe parcursul programului de cercetare.
Tabel 4. Obiective și activități
An Obiective Activități
2016 1. Extinderea cunoștințelor
despre cercetări referitoare
la simularea plierii
proteinelor 1.1. Continuarea studiului bibliografic început în anul
universitar 2015 -2016
2. Simularea plierii
proteinelor folosind
modelul H P 3D 2.1. Aplicarea mai multor clase de algoritmi pe modelul
H-P 3D
2.2. Evaluarea rezultatelor obținute și compararea cu
rezultatele altor abordări și cu structurile terțiare reale
cunoscute
3. Simularea plierii
proteinelor folosind
modelul H -P 3D, folosind
funcții scop îmbunătățite 3.1. Îmbunătățirea funcției energie scop pentru a
modela cât mai aproape de realitate fenomenul de
pliere a proteinelor
3.2. Aplicarea algoritmilor de la pct 2.1 folosind funcția
energie îmbunătățită.
3.3. Evaluarea rezultatelor obținute și compararea cu
rezultatele de la pct 2 precum și cu structurile terțiare
reale cunoscute
2017 4. Modelarea problemei de
pliere a proteinelor prin
extinderea modelului HP . 4.1. Dezvoltarea unui model teoretic care să extindă
modelul H -P prin acordarea unui punctaj fiecărui aa în
funcție de hidrofobicitatea sa.
5. Evaluarea modelului
propus prin compararea 5.1. Dezvoltarea și implementarea unor algoritmi
pentru simularea plierii proteinelor în cadrul noului
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
36
rezultatelor sale cu cele ale
altor modele consacrate model propus și compararea rezultatelor cu cele
obținute pe modelul Lau -Dill.
5.2. Extinderea algoritmilor dezvoltați anterior pentru
îmbunătățirea timpului de calcul.
5.3. Evaluarea și compararea rezultatelor obținute cu
rezultatele modelului H -P, precum și cu structurile
terțiare cunoscute ale unor proteine reale
2018 6. Abordarea simulării
plierii proteinelor bazat pe
modelul MD (dinamică
moleculară) 6.1. Documentare
6.2. Simularea plierii proteinelor prin aplicarea
algoritmilor paraleli la modelul MD
6.3. Evaluarea rezultatelor
9. Definitivarea tezei de
doctorat Finalizarea tezei
3.2. Aplicații și raportarea rezultatelor cercetării
Problemele legate de conformarea proteinelor au o deosebită importanță cu o largă
aplicabilitate în domeniul medicinii, al gerontologiei și biologiei celulare și moleculare.
Ne propunem să realizăm o aplicație web pentru simularea plierii proteinelor în care
să fie incluși algoritmii care au dat rezultate le cele mai apropiate de datele reale . Datele reale
vor fi preluate automat din băncile de proteine, prin utilizarea librăriilor de cod și a
interfețelor de programare disponibile pe aceste servere (ex NCBI). În acest mod, compararea
rezultatelor simulării se va putea face în mod automat cu datele reale actualizate la zi.
Deasemenea urmărim să realizăm un toolkit Phyton în care să fie incluș i algoritmii de
mai sus .
Rezultatele cercetării vor fi prezentate în cele două rapoarte de cercetare , iar
diseminarea lor în cadrul comunității științifice se va face prin definitivarea tezei de doctorat,
prin pu blicarea rezultatelor la simpoz ioane și reuniuni științifice, precum și prin publicarea
lor în reviste de specialitate.
3.3. Direcții de interes personal
1. Extinderea simulărilor pe modele de tip off -latice prin includerea interacțiunilor Van der
Waals ([LU03]).
2. Abordarea andocării proteinelor . Odată rezolvată problema plierii proteinelor, în ordine
cronologică, la un nivel superior, va fi necesară simularea andocării a două sau mai multe
proteine pentru generarea structurilor macroproteice, a virusurilor, a complexelor
intracelulare, etc. ([HEN99 ]).
3. Abordarea problemei inverse a plierii proteinelor , problemă al cărei scop este să găsească
structura primară a secvenței de aa plecând de la o funcție cerută și de la o conformație
dată. Această problemă poate fi abordată prin tehnic i clasice de optimizare (programarea
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
37
pătratică ) dar și prin algoritmi IA. Eventual se poate încerca simplificarea sa pentru a se
ajunge la o problemă de optimizare liniară.
4. Abordarea problemei deplierii proteinelor , problemă care, din câte știm, nu a fost încă
definită până acum și în care ținta este să se găsească structura proteinei lezate,
misfoldate sau agregate precum și a unor intermediari dintre aceste stări. Probl ema
prezintă interes teoretic prin posibilitatea descif rării mecanismelor prin care
conformațiile proteice sunt schimbate dintr -o stare nativă (sănătoasă) către stări
denaturate ca re apar în boli, toxicitate, venin, apoptoză sau bătrânețe.
5. Simularea întregului proces de sinteză a proteinelor
6. Realizarea unui simulator celular cu evenimente discrete.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
38
Concluzii
Conformarea proteinelor se bazează pe legăturile slabe, necovalente, dintre
componenetele lanțului polipeptidic. Deasemenea, aranjarea sub o anumită formă
tridimensională este influențată și de factori externi precum pH -ul, metalele, solvenții,
liganzii organici, secvența ADN, etc.
Înțelegerea structurii și, implicit, a funcțiilor protei ce necesită cunoașterea chimiei
anorganice, a chimiei cuantice, a termodinamicii chimice, a chimiei organice, a biochimiei , a
stereochimiei și a mecanismelor studiate de biologia m oleculară. Iar studierea acestora
folosind tehnica IT (sinteză, structură, pliere , condensare merică, generarea funțiilor
biologice) , necesită baleierea unor domenii vaste ale informaticii (de la structuri și baze de
date la algoritmi, tehnici de programare și inteligență artificială) și ale matematicii , care oferă
instrumente le necesare formalizării și modelării cu scopul de a extrage esențele și a dezbrăcă
problema de aspectel e chimice , biochimice sau biologice.
Rezolvarea problemei plierii proteinelor, a stabilirii structurii terțiare și cuaternare, va
constitui cel mai important pas către marele deziderat al bioinformaticii, simularea celulei vii
și înțelegerea esenței viului .
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
39
Bibliografie
[ALM99] Alm, E., Baker, D., Prediction of protein -folding mechanisms from free -energy
landscapes derived from native structures . Proc. Natl. Acad. Sci. U.S.A. Vol.
96, 1999 , pp. 11305 –11310 .
[ANF61] Anfinsen, C. B. , Haber, E., Sela, M. F ., White, H. Jr. , The kinetics of formation
of native ribonuclease during oxidation of the reduced polypeptide chain ,
PNAS , Vol. 47, Nr. 9, 1961, pp. 1309 –1314 .
[ANF73] Anfinsen , C. B., Principles that govern the folding of protein chains , Science ,
Vol. 181, Nr. 4096, 1973, pp. 223–230.
[BAC99] Backofen, R., Will, S., Bornberg -Bauer, E., Application of constraint
programming techniques for structure prediction of lattice proteins with
extended alphabets , Bioinformatics , Vol. 15(3), 1999, pp. 234 -242.
[BAC06] Backofen, R., Will, S., A constraint -based approach to fast and exact structure
prediction in three -dimensional protein models , Constraints , Vol. 11(1), 2006,
pp. 5 -30.
[BAH 11] Bahi, J.M., Cot e, N., Guyeux, C ., Chaos of Protein Folding , Neural Networks
(IJCNN), 2011, pp. 1948 -1954.
[BAN03] Banhegyi, G., Csala, M., Szarka, A., Varsanyi , M., Benedetti , A., Mand , J.,
Role of ascorbate in oxidative protein folding , BioFactors, Vol. 17, 2003, pp.
37-46.
[BED85] Bedeleanu, D. D., Manta I., Biochimie medicală & farmaceutică, vol.I
Biochimie structurală , Ed. Dacia, Cluj -Napoca, 1985 .
[BEL09] Beltran, I. H., Rojo, A., Multi -agent systems applied in the modeling and
simulation of biological problems: A case study in protein folding , World
Academy of Science, Engineering and Technology 58, 2009, pp. 463 -472.
[BEN79] Benga, Gh., Biologia moleculară a membranelor cu aplicații medicale , Ed.
Dacia, Cluj -Napoca, 1979 .
[BEN09] Benitez , C.M.V., Lopes , H.S., A parallel genetic algorithm for protein folding
prediction using 3D -HP side chain model. IEEE Congress on Evolutionary
Computation, 1297, Trondheim, 2009 .
[BEN10] Benitez , C.M.V., Lopes , H.S., Protein structure prediction with the 3D -HP
side-chain model using a master –slave parallel genetic algorithm . J Braz
Comput Soc, Vol. 16, 2010, pp. 69–78.
[BIS11 ] Özlem Tastan Bishop, O. T., Kroon , M., Study of protein complexes via
homology modeling, applied to cysteine proteases and their protein inhibitors
J Mol Model , Vol. 17, Nr. 12, 2011 , pp. 3163 -3172.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
40
[BOC13] Bocicor, M. I., Machine Learning Models for Solving Problems in
Bioinformatics , PhD Thesis Abstract, Cluj -Napoca, 2013 .
[CAD13] Cadar,M.E., Celula vie , Ed. AcademicPres, Cluj -Napoca, 2013 .
[CHA14] Chai, H. H., Lim, D., Lee, S. W., Chai, H. Y., Jung , E., Homology Modeling
Study of Bovine μ -Calpain Inhibitor -Binding Domains , Int. J. Mol. Sci , Vol.
15, 2014 , pp. 7897 -7938.
[CHI10] Chira, C., Hill-climbing search in evolutionary models for protein folding
simulation , Studia, Vol. LV, 2010, pp. 29 -40.
[CHO14] Chong , S.H., Ham , S., Protein Folding Thermodynamics: A New
Computational Approach , J. Phys . Chem . B, Vol. 118, 2014, pp. 5017 -5025.
[COM13] Compiani, M., Capriotti, E., Computational and Theoretical Methods for
Protein Folding , Biochemistry, Vol. 52, 2013, pp. 8601 -8624.
[CON83] Constantinescu D. Gr., Hațieganu E., Biologia moleculară a celulei vegetale ,
Ed. Medicală, București, 1983 .
[COT09] Cotta, C., Protein Structure Prediction Using Evolutionary Algorithms
Hybridized with Ba cktracking , Proceedings of the 7th International Work –
Conference on Artificial and Natural Neural Networks: Part II: Artificial
Neural Nets Problem Solving Methods, 2009, pp. 321 -328.
[CUS04] Custódio, F.L., Barbosa, H.J.C ., Dardenne, L.E., Investigation of the
threedimensional lattice HP protein folding model using a genetic algorithm.
Genet. Mol. Biol. 27, 2004 , pp. 611–615.
[CZI11 a] Czibula, G., Bocicor, M.I., Czibula, I.G., A Distributed Reinforcement
Learning Approach for Solving Optimi zation Problems , Recent Researches in
Communications and IT, Proceedings of the 5th International Conference on
Communications and Information Technology (CIT '11), Greece, 2011, pp. 25 –
30.
[CZI11b] Czibula , I-G., Czibula., G., Bocicor , M-I., A software framework for solving
combinatorial optimization tasks , Studia Univ Inform atica, Vol. LVI, Nr. 3,
pp. 3 -8.
[CZI11c] Czibula., G., Bocicor , M-I., Czibula, I -G., An experiment on protein structure
prediction using Reinforcement Learning , Studia Univ. Informa tica, Vol. LVI,
Nr. 1, pp. 25 -34.
[CZI11d] Czibula, G., Bocicor, M. I., Czibula, I.G., A reinforcement learning model for
solving the protein problem , Int. J. Comp. Tech., Vol. 2, Nr. 1, 2011 , pp. 171 –
182.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
41
[CZI11e] Czibula, G., Bocicor, M. I., Czibula, I.G., Solving the protein folding problem
using a distributed Q -Learning approach , Int. J. Comp. Tech., Vol. 5, Nr. 3,
2011, pp. 404 -413.
[DIL85] Dill, K.A., Theory for the Folding and Stability of Globular Proteins .
Biochemistry, Vol. 24, 1985, pp. 1501 -1509.
[DIL90] Dill, K.A ., Dominant Forces in Protein Folding Biochemistry, Vol. 29, Nr. 31,
1990, pp. 7133 -7155.
[DIL07] Dill, K.A., Ozkan, S.B., Weik, T.R, , Chodera, J.D., Voelz , V.A., The protein
folding problem: when will it be solved? Current Opinion in Structural
Biology, Vol. 17, 2007, pp. 342 –346.
[DIN06] Dinu, V., Truția E., Popa -Cristea E., Popescu A., Biochimie medicală – mic
tratat , Ed. Medicală, București, 2006 .
[DOV11] Dovier, A ., Recent constraint/logic programming based advances in the
solution of the protein folding problem, Intelligenza Artificiale , Vol. 5, Nr . 1,
2011 , pp. 113 -117.
[DUB16] Dubey, S. P., Kini. N. G., Kumar, M. S., Balaji, S., Ab initio protein structure
prediction using GPU computing , Perspectives in Science Vol.8, 2016 pp.
645-647.
[DYS16] Dyson F. , Originile vie ții Ed Humanitas, București, 2016 .
[ENG0 7] Englader, S. W., Mayne, L., Krishna, M. M. G ., Protein folding and
misfolding: mechanism and princilpes , Quarterly Reviews of Biophysics, Vol.
40, Nr. 4, 200 7, pp. 287 -326.
[GUO06] Guo, Y.Z., Feng, E.M., Wang, Y., Exploration of two -dimensional
hydrophobic -polar lattice model by combining local se arch with elastic net
algorithm , J Chem Phys , Vol. 125, Nr. 15, 2006, pp. 154102 -1 – 6.
[GUS16] Guseva, E. A., Zuckermann, R. N., Dill, K.A., How did prebiotic polymers
become informational foldamers? Protein Science, Vol. 8, 2016 , pp. 716 -721.
[TUR 16] Turabieh, H ., A Hybrid Genetic Algorithm for 2DP rotein Folding Simulations ,
International Journal . of Computer Applications , Vol. 139 (3) , 2016, pp. 38 –
43.
[HEN99] Hendrix, D. K., Klein, T. E., Kuntz I. D., Macromolecular docking of a three –
body system: The recognition of human growtn hormone by its receptor,
Protein Science, Vol. 8, 1999, pp. 1010 -1022.
[HOL75] Holland, J.H ., Adaptation in Natural and Artificial Systems . University of
Michigan Press, Ann Arbor , 1975.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
42
[HOQ 08] Hoque, M. T., Chetty , M., Lewis, A., Sattar, A., BFS based partial pathways
in GA for protein stucture prediction, Proceedings, Vol. 5265, 2008, pp. 41 -53
[HOQ09] Hoque, M. T., Chetty , Sattar, A., Genetic algorithm in Ab Initio protein
structure prediction using low resolu tion model: A Review , Biomedica Data
and Applications, Vol. 224, 2009, pp. 317 -342.
[HUA10] Huang, C., Yang, X., He, Z., Protein folding simulations of 2D HP model by
the genetic algorithm based on optimal secondary structures , Computational
Biology and Chemistry, 34(3), 2010, pp. 137 -142.
[ISH99] Ishikawa, K., Yue, K., Dill, K.A., Predicting the structures of 18 peptides
using Geocore , Protein Science, Vol. 8, 1999, pp. 716 -721.
[JIA03] Jiang, T.Z., Hua, Q., Cui, Shi, G.H., Ma, S.D ., Protein folding simulations of
the hydrophobic -hydrophilic model by combining tabu search with genetic
algorithms , J. Chem. Phys., Vol. 119, Nr. 8 , 2003, pp. 4592 -4596 .
[KIR84] S. Kirkpatrick. Optimization by simulated annealing: Quantitative studies.
Journal of Statistical Physics, Vol. 34, Nr. 5, 1984 , pp. 975 –986.
[KRA99] Krasnogor, N., Hart, W.E., Smith J., Pelt a, D. A., Protein structure prediction
with evolutionary algorithm, In W. Banzhaf et al., editors, Proceedings of the
GECCO’99, San Mateo CA, 1999, pp. 1596 -1601 .
[LAU8 9] Lau K.F., Dill K.A., A lattice statistical mechanics model of the conformation
and sequence space of proteins, Macromolecules, Vol. 22, 198 9, pp. 3986 –
3997.
[LEV69] Levinthal, C., How to fold graciously , Mössbaun Spectroscopy in Biological
Systems Proceedings, Univ of Ilinois Bulletin, 1969, pp. 22 -24.
[LEV83] Levitt, M., Protein folding by restrained energy minimization and molecular
dynamics . J. Mol. Biol. 170, 1983, pp 723–764.
[LIA01] Liang, F.M., Won g, Hung W.H., Evolutionary Monte Carlo for protein folding
simulations , J. Chem. Phys. , 115 (7), 2001, pp. 3374 -3380.
[LIM02] Li M.S., Klimov D.K., Thirumalai D ., Folding in lattice models with side
chains. Comput Phys Commun ications, Vol. 147, Nr. 1, 2002 , pp. 625–628.
[LIN11] Lin, C. J., Su, S.C., Protein 3D HP model folding simulation using a hybrid of
genetic algorithm and particle swarm optimization , International Journal of
Fuzzy Systems, Vol. 13, Nr.2, 2011, pp.140 -147.
[LU03] Lu, B.Z., Wang, B.H ., Chen , W.Z., Wang , C.X., A new computational
approach for real protein folding prediction , Protein Engineering , Vol. 16 , Nr.
9, 2003, pp. 659 -663.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
43
[MAN14] Mann, M., Backofen, R., Exact methods for lattice protein models, Bio-
Algoritms and Med -Systems, Vol. 10, Nr. 4, 2014, pp. 216 -227.
[MCC05] Amie J. McClellan, Stephen Tam, Daniel Kaganovich and Judith Frydman ,
Protein quality control: chaperones culling corrupt conformations , Nature
Cell Biology , Vol 7, Nr. 8, 2005 , pp. 736-741.
[MIH11] Mihalaș, Gh -I., Tudor, A., Paralescu, S., Bioinformatica , Ed. Victor Babeș,
Timișoara, 2011 .
[MUN16] Munoz, V., Cerminara, M., When fast is better: protein folding f undamentals
and mechanisms from ultrafast approacher , Biochem. J., Vol. 473, 2016, pp.
2545 -2559.
[OTA99] Ota, M., Nishikawa, K., Feasibility in the inverse protein folding protocol,
Protein Scien ce, Vol. 8, 1999, pp. 1001 -1009.
[PAT95] Patton, W., Punch, W., Goldman, E., A standard genetic algorithm approach
to native protein conformation prediction, In Proceedings of 6th International
Conference on Geneti c Algorithms, 1995, pp. 574 –581.
[POR16 ] Porebski, B. T. , et al. Smoothing a rugged protein folding landscape by
sequence -based redesign . Sci. Rep. 6, Nr. Art. 33958; 2016.
[RAM97] Ramakrishnan, R., Rama chandran, B., Pekny, J. F., , A dynamic Monte Carlo
algorithm for exploration of dense conformational spaces in heteropolymers. ,
J. Chem. Phys., 106(6), 1997, pp. 2418 -2425.
[ROW16] Rowland S. E., Structure and function of the group III chaperonins, a unique
clade of protein folding nanomachines . Dissertation – abstract, 2016.
[RYA 16] Ryazanov, A., Karasikov, M., Inverse protein folding problem via quadratic
programming , preprint sept 2016 .
[SAN 13] Santos, J., Villot, P., Dieguez, M., Protein Folding with Cellular Automata in
the 3D HP Model , Proceedings of the GECCO 13, 2013, pp. 1595 -1602 .
[SHM03] Shmygelska, A., Holger, H., An Improved Ant Colony Optimisation Algorithm
for the 2D HP Protein Folding Problem, In Springer Verlag, editor, In
Proceedings of the 16th Canadian Conference on Artificial Intelligence, 2003,
pp. 400-417.
[SHM05] Shmygelska, A., Holger, H., An ant colony optimisation algorithm for the 2D
and 3D hydrophobic polar protein folding problem, BMC Bioinformatics,
2005, Vol. 6, Nr. 30 .
[SZA14] Szarka, A. , Lőrincz , T., The role of ascorbate in protein folding. Protoplasma ,
Vol 251, Nr 3, 2014 , pp. 489 -497.
Universitatea Babeș -Bolyai Facultatea de Matematică și Informatică
44
[TEG09] Tegge, A. N., Wang, Z., Eickholt, J., Cheng , J., NNcon: Im -proved Protein
Contact Map Prediction Using 2D -Recursive Neural Networks. Nucleic Acids
Research, Vol. 37, 2009 , pp.515 -518.
[TES 10] Teso, S., Risio, C., Passerini, A.,Battiti, R., An On/Off Lattice Approach to
Protein Structure Prediction from Contact Maps , Pattern Recognition in
Bioinformatics , Vol 6282, în seria Lecture Notes in Computer Science , 2010,
pp 368 -379.
[THA07] Thachuk, C., Shmygelska, A., Hoos, H.H., A replica exchange Monte Carlo
algorithm for protein folding in the HP model , BMC Bioinformatics , Vol 8,
2007 .
[UNG93a] Unger, R., Moult, J., Genetic algorithms for protein folding simulations .
Journal of Mo lecular Biology, 231, 1993, pp. 75 -81.
[UNG93b] Unger, R., Moult, J., A genetic algorithm for three dimensional protein folding
simulations , In Proc of the 5th International Conference on Genetic
Algorithms, Morgan Kaufmann Publishers,1993, pp. 581 -588.
[VLA11] Vlaic, A., Genetică animală , Ed. AcademicPres, Cluj -Napoca, 2011 .
[ZHA16] Zhang, Y., Weber, J. K., Zhou, R., Folding and Stabilization of Native –
Sequence -Reversed Proteins , Scientific Reports, Vol. 6, Nr. Art. 25138, 2016,
7 p.
[ZHO13] Zhou, C., Hou, C., Zhang Q., Wei, X., Enhanced hybrid search algorithm for
protein structure prediction using the 3D -HP lattice model , J of Molecular
Modeling, 2013, Vol. 19, Nr. 9, pp 3883 –3891 .
Resurse web
[NCB] http://www.ncbi.nlm.nih.gov/
[PDB a] http://www.wwpdb.org/
[PDB s] http://www.rcsb.org/pdb/home/home.do – SUA
[PDB e] http://www.ebi.ac.uk/pdbe/ – Europa
[PDB j] http://pdbj.org/ – Japonia
[PDB b] http://www.ebi.ac.uk/thornton -srv/databases/cgi –
bin/pdbsum/GetPage.pl?pdbcode=index.html
[UniProt ] http://www.uniprot.org/
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Cuprins ………………………….. ………………………….. ………………………….. …………………………….. [602871] (ID: 602871)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
