Bioinformatica. Predictia Structurii Si Functiei Proteinelor

Cuprins

=== l ===

Cuprins

Capitolul 1

Bioinformatica

Bioinformatica este un domeniu care se situează la intersecția dintre biologie, tehnologia informației, informatică și ingineria genetică, fiind folosită extensiv în laboratoarele de cercetare, spitale, corporații farmaceutice și agrotehnice. Bioinformatica este știința organizării și analizei datelor biologice complexe, reprezentate de proteine și secvențe de ADN [4]. Bioinformatica combină biologia moleculară și genetica cu tehnologia de calcul pentru a înțelege rețeaua complexă de interacțiuni dintre componentele individuale ale celulei vii și a le integra în comportamentul întregului organism. Biologia computațională și bioinformatica deschid noi drumuri în procesul de diagnosticare a bolilor și în stabilirea de noi strategii terapeutice.

Bioinformatica tinde să dezvolte baze de date și algoritmi mai puternici în scopul accelerării și intensificării cercetării biologice. Utilitatea bioinformaticii se observă mai ales în Proiectul Genomului Uman, care are drept scop identificarea celor 30.000 de gene din ADN-ul uman [23].

Disponibilitatea bazelor de date moleculare și a instrumentelor bioinformatice au schimbat natura biologiei. Experimente care în trecut puteau fi efectuate doar într-un laborator, în urma efortului depus de-a lungul anilor, pot fi realizate cu ajutorul unui calculator personal și o conexiune la internet [27].

Odată cu finalizarea proiectului secvențializării genomului uman și completarea secvențializării genoamelor diferitelor organisme, principala provocare pentru bioinformatician este să analizeze și să interpreteze informația rezultată. Următoarele probleme sunt de o importanță deosebită:

Asamblarea produselor rezultate din secvențializarea genomului

Nota explicativă

Modelarea comparativă și atribuirea împăturirii proteinelor

Predicția structurii, dinamica și termodinamica

Aplicații biotehnologice avansate: designul medicamentelor, terapia genică

Modelarea sistemelor

Aplicațiile din ziua de azi ale bioinformaticii sunt diverse. Ele variază de la studii ale evoluției vieții pe Pământ la designul medicamentelor. Analiza secvențelor se concentrează pe descoperirea de noi gene, analiza structurii genei pentru a-i determina funcția și corelarea legăturii dintre structura alterată a genei și boală. Studiile de modelare moleculară încearcă să stabilească relația topografiei tridimensionale a proteinei cu funcția sa. Alte aplicații complexe includ modelarea semnalelor celulei și a căilor metabolice, studierea interacțiunilor proteice, înțelegerea mecanismelor evoluției familiilor de proteine și cartografierea tiparului de expresie a excesului de gene din diferite celule și țesuturi.

Din perspectiva internațională, bioinformatica progresează cu o rată uimitoare. Ariile de implicare majoră par a fi achiziția de noi secvențe, încorporarea lor sub forma bazelor de date clasificate, integrarea informațiilor oferite de secvențe cu cele oferite de structuri, dezvoltarea instrumentelor pentru data mining și dezvoltarea unei platforme comune pentru folosirea resurselor. În acest ultim domeniu, rezultatul a fost crearea a International Nucleotide Sequence Database Collaboration (INSDC), care include cele trei baze de date genomice majore din lume, GenBank, EMBL și DDBJ. INSDC cuprinde:

Proiectul taxonomic – pentru folosirea unei taxonomii unice în toate bazele de date;

Tabelul de particularitate – ce oferă reguli comune permițând bazelor de date a celor trei organizații să comunice între ele;

Calificativul db_xref – referință specifică a secvenței în baza de date;

Calificativul de țară – țara de origine a secvenței.

Pentru a îndeplini multitudinea de obiective la nivel global, a fost încurajată creșterea numărului bazelor de date din domeniul public. În prezent putem obține o cantitate inimaginabilă de informații despre orice aspect al biologiei celulare prin intermediul Internetului, informații care pot fi bibliografice, genomice, structurale sau funcționale. Domeniul public, în afară de oferirea unor informații fundamentale, oferă utilitățile necesare analizei și interpretării datelor. Aceste instrumente variază de la aliniamentul multiplu al secvențelor la studiile de expresie virtuală a genelor, PCR electronic și altele. Câteva servere majore de biologie moleculară care funcționează în lume sunt:

National Centre for Biotechnology Information: http://www.ncbi.nlm.nih.gov

European Bioinformatics Institute:

http://www.ebi.ac.uk

DNA DataBank of Japan:

http://www.ddbj.nig.ac.jp

ExPAsy Molecular Biology Server:

http://www.expasy.ch

Australian National Genome Information Service: http://morgan.angis.su.oz.au

The Protein Data Bank:

http://www.rcsb.org/pdb

Disponibilitatea informației genomice oferă bioinformaticianului un nou set de provocări. În prezent, ariile predominante ale analizei datelor bioinformatice includ:

Aliniamentul secvențelor;

Predicția structurii proteinelor

Studiile de aliniament a secvențelor sunt în mare de două tipuri: unul de aliniament al secvențelor în pereche realizat cu ajutorul programului BLAST [2] și unul de aliniament multiplu al secvențelor realizat cu programe de tipul CLUSTAL [5]. În ambele cazuri ideea este de a găsi similaritățile sau diferențele dintre un set de secvențe. Analiza secvenței reprezintă un instrument foarte important în studiul relațiilor de evoluție în genoame, duplicarea genelor, îmbinarea genelor etc.

Predicția structurii proteice din informația oferită de secvență este una din ariile de interes ale bioinformaticii. Principiul acestui proces constă în atribuirea unui model de împăturire și domenii structurii primare a unei proteine, prin aceasta dezvoltând un model acceptabil al structurii terțiare și cuaternare. Pentru a realiza acest deziderat sunt disponibile câteva metode, de exemplu modelarea comparativă, metodele de „filetare”, metoda ab initio și utilizarea algoritmilor genetici.

Câteva din domeniile de interes vizate de cercetările bioinformatice includ:

Identificarea genelor

Descoperirea de noi medicamente

Filogenomica

Detectarea markerilor genomici și polimorfismului

Înțelegerea profilelor de expresie genică

Explorarea de noi căi metabolice și de reglare

Înțelegerea interacțiunilor interproteice

Ca urmare a creșterii exponențiale a informației genomice și datorită necesității de a îndeplini analize rapide, calculele seriale au devenit ineficiente. Date fiind dimensiunile mari ale genoamelor cunoscute, o operație de tipul comparării întregului genom ar dura un timp inacceptabil de mare. Această constrângere a dus la evoluția conceptului de calcul paralel.

Datele generate de Proiectul Genomul Uman sunt depozitate în bănci de date a genelor, care stochează secvențe de ADN. În prezent sunt disponibile bănci de date pentru secvențele și structurile proteice. Una din operațiile de bază din bioinformatică constă în căutarea similarității (omologiei) dintre un fragment de ADN nou secvențializat și secvențe de ADN provenite de la diferite organisme. Găsirea unei potriviri apropiate permite predicția tipului de proteină codată de noua secvență. Deși nu este posibilă deocamdată predicția completă a funcției sau structurii unei proteine de novo pornind de la secvența sa, pot fi trase niște concluzii folositoare în legătură cu structura și funcția proteinei, în special prin compararea secvenței proteinei cu structură și funcție necunoscută cu secvențe proteice a căror structuri și funcții se cunosc. Prin compararea secvențelor proteice echivalente de la diferite specii animale, se pot trage concluzii asupra evoluției acestor specii dintr-un strămoș comun.

Un program popular de comparare a secvențelor de ADN este BLAST (Basic Local Alignment Search Tool) [2]. BLAST face parte dintr-un pachet de programe destinat căutării de secvențe proteice, accesibil în diverse forme la diferiți furnizori, sau prin intermediul NCBI (National Centre for Biotechnology Information). NCBI mai oferă și Entrez, un instrument de meta-căutare care acoperă mare parte a bazelor de date de la NCBI, inclusiv cele care găzduiesc structuri tridimensionale a proteinelor, genoamele complete ale organismelor și trimiteri la jurnale științifice care însoțesc intrările din bazele de date.

Asocierea dezvoltărilor tehnologiei de calcul și moleculare deschide noi oportunități cercetărilor genetice. Folosirea combinată a informației oferită de secvențe, a instrumentelor de calcul, a bazelor de date și a biologiei tradiționale crește speranța înțelegerii funcției și reglajelor tuturor genelor și proteinelor, precum și a descifrării funcțiilor celulei [19].

Figura 1: schema etapelor urmate de la secvențializarea ADN-ului la aplicații în bioinformatică

Proiectul Genomul Uman

Început în 1990, Proiectul Genomul Uman este un efort de 13 ani coordonat de Departamentul Energiei și Institutul Național de Sănătate. Inițial a fost plănuit pe o durată de 15 ani, dar accesul la resurse și progresele tehnologice au accelerat procesul, iar proiectul a fost finalizat în 2003. Obiectivele proiectului au fost:

Identificarea celor aproximativ 30.000 de gene din ADN-ul uman;

Determinarea secvențelor celor 3 miliarde de perechi de baze care formează ADN-ul uman;

Înregistrarea informației obținută în baze de date;

Îmbunătățirea instrumentelor de analiză a datelor;

Transferul tehnologiilor către sectorul privat;

Dezbaterea problemelor etice, legale și sociale care pot să apară.

Proiectul Genomul Uman a fost finalizat în 2003 prin completarea secvenței genomice umane. Un proiect de lucru având ca obiect întreaga secvență genomică umană a fost anunțat în Iunie 2000, iar rezultatele au fost publicate în februarie 2001. O caracteristică importantă a acestui proiect este consacrarea îndelungată a guvernului federal pentru transferul tehnologiei în sectorul privat. Prin licențierea tehnologiilor către companiile private și acordarea de facilități pentru cercetări inovatoare, proiectul catalizează industria biotehnologică americană și stimulează dezvoltarea de noi aplicații medicale [14].

Capitolul 2

Baze de date și instrumente de căutare folosite în bioinformatică

Creșterea exponențială a datelor biologice din ultimele decade a condus la elucidarea multor ambiguități, numeroase procese biologice putând fi explicate folosind legile de bază fizice și chimice.

Simpla oferire a datelor biomedicale nu garantează faptul că utilizatorul poate găsi informația cerută într-un timp rezonabil. Numărul mare de resurse diferite, heterogenitatea și complexitatea acestora, produc adesea frustrări în rândul cercetătorilor care doresc să ajungă rapid la informația de interes, dar „se pierd” adesea în labirintul legăturilor hipertext.

Înțelegerea datelor care implică rețele complexe alcătuite din numeroase gene, necesită o accesare în timp rezonabil a unor informații concise, bine organizate. Pentru realizarea acestor deziderate sunt imperios necesare resurse inteligente, orientate spre folosul utilizatorului, care să ofere informații integrate și bine organizate.

Centrul Național de Informație Biotehnologică (NCBI: The National Centre for Biotechnology Information) din Statele Unite ale Americii și Institutul European de Bioinformatică (EBI: European Bioinformatics Institute) din Marea Britanie sunt principalele servere științifice care mențin aceste imense baze de date precum și instrumentele de software analitic necesare analizei datelor conținute.

Serviciile oferite de aceste servere sunt posibile datorită computerelor ultraperformante cu viteză de procesare mare care pot realiza prelucrările analitice ale datelor și datorită Internetului care facilitează eforturile de comunicare electronică.

Colaborarea dintre informaticieni, medici cercetători, biologi, matematicieni și biochimiști le-a permis acestora studiul bazei moleculare a unei boli cu ajutorul instrumentelor matematice și a tehnicii de calcul prin:

Analiza secvenței unei gene sau a produsului genei de interes;

Înțelegerea mai bună a organizării genelor analizate;

Predicția structurii moleculelor analizate (proteine).

NCBI

În continuare sunt prezentate tipurile bazelor de date suportate de NCBI:

Baze de date cu secvențe ale proteinelor:

Proteine secvențializate experimental

Secvențe de polipeptide/proteine obținute prin translația secvențelor de nucleotide din librăriile de nucleotide

Baze de date redundante, ca de exemplu baza de date PIR [38]

Baze de date non-redundante sau mai puțin redundante, cum sunt NR, SWISS-PROT și PDB [3]

Baze de date ale secvențelor nucleotidice (ADN și ARN)

Acestea conțin secvențe ADN și ARN derivate din proiecte de secvențializare mai puțin automatizate (de exemplu GenBank) sau automatizate (dbEST).

Baze de date redundante, un exemplu fiind dbEST

Baze de date non-redundante sau mai puțin redundante cum este GenBank

În bazele de date biologice redundanța este un subiect controversat și complicat. Întrebări dacă două alele aflate pe același locus ar trebui considerate una singură, dacă enzimele identice funcțional (izoenzimele) din același organism ar trebui considerate doar una sau întrebări despre specificitatea tisulară a proteinelor și relația cu omologii lor din alte țesuturi impun ca fiecare bază de date să aibă propria definiție a secvenței redundante.

Majoritatea bazelor de date folosesc măsuri automate pentru calculul redundanței, în special în proiectele de anvergură. Această metodă este mai puțin senzitivă din punct de vedere calitativ decât intervenția manuală, dar are avantajul vitezei de procesare.

Cele mai frecvent utilizate baze de date proteice la NCBI sunt:

E. Coli: bază de date ce conține proteinele traduse ale secvențelor din genomul E. Coli;

Kabat: conține secvențe de interes imunologic;

NR: bază de date a tuturor translațiilor non-redundante ale înregistrărilor din GenBank, PDB, SWISS-PROT și PIR. În această bază de date proteinele cu secvențe unice sunt înregistrate într-un singur fișier;

PDB: conține secvențe proteice cu structură tridimensională cunoscută;

SWISS-PROT: este una dintre cele mai informative librării de secvențe proteice accesibilă prin Internet;

Yeast: această bază de date înmagazinează secvențele proteice fungice.

Cele mai folosite baze de date nucleotidice accesibile la NCBI:

dbSTS: bază de date non-redundantă a înregistrărilor din GenBank, EMBL și DDBJ STS;

E. Coli: conține secvențe ale nucleotidelor din genomul E. Coli;

EPD (Eukariotic Promotor Database): conține o listă a tuturor secvențelor promotorilor eucariotici existente în librăriile domeniului public;

HTGS (High-Throughput Genomic Sequences): înmagazinează secvențe genomice;

Mito: conține în special secvențe mitocondriale;

Vector: subsetul de vectori din GenBank;

NR: bază de date redundantă ce conține înregistrările de secvențe nucleotidice din GenBank, EMBL și DDBJ și exclude secvențele înregistrate în EST, STS, GSS și HTGS.

Serverul NCBI suportă următoarele șapte baze de date principale și uneltele de analiză ale lor:

PubMed (Public MEDLINE) – bază de date din literatură

BLAST: Basic Local Alignment Search Tool

ENTREZ

Bank It

OMIM (Online Mendelian Inheritance in Man)

Taxonomy

Structure

PubMed permite utilizatorului accesul la peste 9 milioane citiri din Medline și pre-Medline, la jurnale on-line, informațiile pertinente fiind obținute rapid și eficient.

BLAST [2] – Instrumentul de căutare a aliniamentului local de bază, este un set de programe de căutare a similarităților, creat pentru identificarea clasificării și a omologilor potențiali pentru o secvență dată.

Entrez – Pentru prevenirea sau minimalizarea redundanței în materialele publicate, oamenii de știință trebuie să se asigure că descoperirile lor sunt originale. Acest proces nu este ușor, însă este facilitat de elaborarea unor instrumente de căutare cu accesibilitate la bazele de date relevante. Unul din cele mai populare motoare de căutare, foarte eficient, având acces la toate bazele de date relevante, cu informații la zi, este ENTREZ, accesibil la adresa http://www.ncbi.nlm.nih.gov. Informațiile referitoare la secvențele de proteine sunt extrase din bazele de date SWISS-PROT, PDB, PIR și PRF. Proteinele a căror structuri sunt cunoscute sunt regăsite în PDB și sunt încorporate în baza de date de modelare moleculară, MMDB. Entrez are de asemenea acces la datele genomice și cartografierea cromozomială. Entrez oferă o varietate de criterii de căutare: cuvinte cheie, numere de acces, numele autorului, titlul jurnalului, data publicării citației, simbolul genei, identificatorul secvenței (SeqId), cuvinte din text sau din titlu, etc.

BankIt permite utilizatorului transmiterea către GenBank a unor secvențe noi via Internet.

OMIM – această bază de date a genelor umane și a bolilor genetice este menținută de dr. Victor Mc Kusick și colegii săi de la John Hopkins University, și de alți autori. Această bază de date este folosită în special de medici și cercetători geneticieni care studiază bolile genetice.

Taxonomy – Pagina web a taxonomiei conține bazele de date ale organismelor cu nume științifice și comune, pentru care sunt cunoscute anumite informații despre secvențe.

Structure – acest modul accesibil la NCBI suportă baza de date de modelare moleculară (MMDB) precum și o varietate de software util pentru analiza structurală.

EBI (Institutul European de Bioinformatică)

EBI-ul face parte din Laboratorul European de Biologie Moleculară (EMBL – European Molecular Biology Laboratory) aflat în Hinxton, Anglia. EMBL este suportat de 14 țări europene și de Israel.

Scopul principal al EBI-ului este de a conduce cercetări și a furniza informații bioinformatice întregii comunități științifice mondiale.

EBI-ul este comparabil cu NCBI-ul din Statele Unite și găzduiește principalul server de Bioinformatică pentru comunitatea europeană, accesibil la adresa http://www.ebi.ac.uk. Scopurile și sarcinile sale sunt similare cu cele ale NCBI-ului, cum ar fi:

Tehnologia bioinformaticii

Cercetarea și dezvoltarea programelor de bioinformatică

Pregătirea și suportul tehnic al utilizatorilor

Servicii bioinformatice relevante

Cercetarea efectuată în cadrul EBI este orientată spre dezvoltarea unor algoritmi de comparare mai robuști, crearea unor sisteme informatice în rețea mai elaborate, proiectarea unor baze de date mai eficiente.

Baze de date pentru secvențe nucleotidice, EMBL

Aceasta este o bază de date comprehensivă a secvențelor de nucleotide (ADN și ARN) și reprezintă colaborarea dintre baza de date americană GenBank din cadrul NCBI și baza de date din Japonia (DDBJ).

Fișierele din această bază de date conțin informații despre secvența nucleotidică, o scurtă descriere, sursa (organisme) de la care a fost obținută, informații bibliografice și citații ale publicațiilor, localizarea regiunilor codante din secvență (de exemplu, secvența semnal, lanțul alfa, beta), situsurile semnificative din punct de vedere biologic.

Baza de date SWISS-PROT

Această bază de date conținând secvențe de proteine este menținută prin colaborarea Universității din Geneva cu Institutul European de Bioinformatică. Secvențele ADN traduse în secvențe de aminoacizi sunt transmise direct de la Laboratorul European de Biologie Moleculară (EMBL) la baza de date SWISS-PROT, care este o adaptare a bazei de date PIR (Protein Identification Resource). SWISS-PROT este o bază de date non-redundantă, cu trimiteri la alte baze de date relevante, de exemplu referințele la baza de date EMBL permit accesul utilizatorului la secvențele nucleotidice.

Baza de date TrEMBL

Este o bază de date ce conține translațiile tuturor secvențelor nucleotidice codante stocate în EMBL, care nu sunt încă încorporate în baza de date SWISS-PROT. Baza de date TrEMBL este împărțită în două secțiuni: SP-TrEMBL și REM-TrEMBL.

SP-TrEMBL (SWISS-PROT TrEMBL) conține înregistrări care ar urma să fie incluse în baza de date SWISS-PROT iar REM-TrEMBL (Remaining TrEMBL) conține secvențe care nu sunt de dorit în baza SWISS-PROT.

La ora actuală sunt aproximativ 152.040 înregistrări de secvențe în baza de date SWISS-PROT în timp ce TrEMBL conține aproximativ 1.063.425 de secvențe.

Baza de date PDB

Înregistrările din baza de date PDB sunt proteine, proteine în complex cu metale, proteine în complex cu inhibitori sau proteine legate de secvențe nucleotidice (de exemplu ADN), structurile tridimensionale ale acestora fiind determinate în principal prin cristalografii X și rezonanță magnetică nucleară (RMN). În tehnica RMN structura moleculei este determinată în soluție, ceea ce oferă multe informații despre dinamica moleculară și comportamentul proteinei în mediul apos (starea sa naturală).

Cristalografia oferă o imagine tridimensională statică a moleculei. Structura proteinei este determinată în forma sa cristalizată, de aceea în această tehnică lipsesc datele dinamice și nu cunoaștem comportamentul acesteia în soluție, starea sa naturală.

Un fișier din PDB conține următoarele informații:

Coordonatele atomice determinate prin RMN sau cristalografie

Citații bibliografice

Informații despre structura primară (de ex. secvența de aminoacizi)

Informații cu privire la structura secundară (de ex. helix alfa, foaie pliată beta)

Factori ai structurii cristalografice și datele experimentale RMN

Genome Net – Servere Japoneze de Bioinformatică

Genome Net este o rețea japoneză de baze de date și servicii computerizate pentru cercetarea genomului și a altor domenii înrudite din biologia moleculară și celulară. Această rețea a fost stabilită în 1991 în cadrul programului Human Genome Project, putând fi accesată la adresa http://www.genome.ad.jp. În continuare sunt enumerate câteva din serviciile oferite de Genome Net:

DBGET/Link DB – sistemul integrat de regăsire a datelor

KEGG: Kyoto Encyclopedia of Genes and Genomes

Din cuprinsul acesteia fac parte: genoamele complete, baza de date chimice LIGAND pentru reacții enzimatice, BRITE (Biomolecular relations in information transmision and expression), recomandări pentru nomenclatura IUPAC/IUBMB.

Instrumente de interpretare a secvențelor:

BLAST: căutarea similarităților secvențelor

FASTA: căutarea similarităților secvențelor

MOTIF: căutarea motivelor secvențelor

CLUSTALW: aliniament multiplu al secvențelor

PSORT: predicția semnalelor proteice

TFSEARCH: căutarea situsului de legare a factorului de transcripție

SOSUI: predicția segmentelor transmembranare

TSEG: predicția proteinelor membranare

Programul GRAIL (Gene Recognition and Assembly Inernet Link) este folosit pentru identificarea genelor noi din fragmentele ADN recent secvențializate pentru care nu sunt cunoscute date biologice. Prezența genelor funcționale poate fi indicată de patterne sau motive specifice de ADN (secvențe scurte de 10-15 perechi de baze), având în vedere faptul că genele au anumite structuri care permit controlul lor (de ex. factori de transcripție).

Genele eucariote conțin regiuni codante (exoni) și regiuni non-codante (introni). Numai secvențele ADN din exoni sunt traduse în secvențe de aminoacizi, fiind astfel relevante pentru interpretarea și prezicerea structurii și funcțiilor proteinei asociate. Pentru prezicerea acestor funcții pot fi folosite programe ca PSORT (prediction of protein sorting signals) și SOSUI (prediction of transmembrane segments).

Chiar dacă majoritatea informațiilor din bazele de date bioinformatice se referă la secvențe nucleotidice și de aminoacizi, numărul structurilor tridimensionale ale proteinelor este în continuă creștere. Acest lucru este important din punct de vedere evoluționist, deoarece structura proteinelor este mai bine conservată (fiind expresia fenotipică) decât secvența de aminoacizi și ADN corespunzătoare. Programul de vizualizare a proteinelor, PDB highlight, este folosit pentru compararea structurilor disponibile.

KEGG este o bază de date structurală, conținând informații despre căile metabolice din multe microorganisme care au secvența genomului completă, precum și din speciile pentru care genomul nu a fost complet secvențializat. KEGG (Kyoto Encyclopedia of Genes and Genomes) face parte din rețeaua bazelor de date Genome Net și este în legătură cu toate celelalte baze de date accesibile publicului prin două motoare de căutare: LIGAND și BRITE.

LIGAND este o bază de date chimice ce permite căutarea unei combinații de enzime și componente metabolice. Această bază de date este menținută de către Institutul de Cercetare Chimică din cadrul Universității Kyoto și conținea 31.747 înregistrări în mai 2004: 4.327 pentru enzime (bază de date pentru reacțiile enzimatice) și 27.420 pentru componentele metabolice (baza de date a componentelor chimice).

BRITE (Biomolecular Relations Informations Transmission and Expression database) este o bază de date pentru transmiterea și expresia informațiilor despre relațiile biomoleculare ce conținea 278 înregistrări în 1999, și poate fi accesată la adresa http://www.genome.ad.jp/dbget-bin/www_bfind?brite. Legătura „search and compute with KEGG of genes and genomes” din pagina Internet a Enciclopediei Kyoto aduce în prim plan o pagină de instrumente de căutare pentru hărțile căilor metabolice, cartografiile genomului, instrumente de predicție și de căutare a similarităților secvențelor. Aceste legături sunt utile numai dacă se cunoaște exact ceea ce se caută, ca de exemplu nomenclatura, identificatorul enzimei de interes, numărul componentei chimice, etc. Pentru o căutare mai generală sau când se cunoaște doar numele parțial al unor enzime este preferat motorul de căutare LIGAND. Enciclopedia Kyoto mai conține și un catalog al metaboliților clasificați conform claselor funcționale ca de exemplu: fosfolipide, neurotransmițători, acizi grași. Această legătură oferă cele mai bune și inteligibile rezultate când se urmărește aflarea similarităților unor clase de molecule cum ar fi aminoacizii sau diverse hexoze.

Instrumente de căutare a similarităților secvențelor în rețeaua Internet

Cele mai populare instrumente de căutare a similarităților secvențelor sunt programele BLAST [2], menținute pe serverul NCBI din Statele Unite și FASTA aflate pe serverul EBI din Marea Britanie.

Pentru a înțelege mai bine programele BLAST, trebuie cunoscute aspectele de bază ale aliniamentelor secvențelor. Acestea sunt folosite în special pentru găsirea potențialilor omologi ce vor fi folosiți ulterior pentru prezicerea posibilelor funcții ale secvenței necunoscute sau pentru modelarea structurii sale tridimensionale.

Aliniamentul global este cel mai bun aliniament, pe întreaga lungime a secvențelor specificate. Introducerea spațiilor (gaps) în secvențele respective permite alinierea lor pe întreaga lungime. Principalul avantaj al aliniamentului global este optimizarea sa pentru secvențele care au un grad înalt de similaritate, fiind astfel folositor în etapa de aliniere a secvențelor din procesul de modelare a structurii tridimensionale (bazat pe secvențele omologe cu structură tridimensională cunoscută).

Metodele de căutare ale aliniamentului local găsesc aliniamentul optim între subregiuni sau regiuni locale ale secvențelor specificate. Aliniamentul local este cel mai potrivit pentru secvențe care au regiuni localizate de similarități. Un program de căutare a aliniamentului local este folosit de exemplu pentru găsirea motivelor, domeniilor și altor unități repetitive din secvențele respective, precum și pentru găsirea secvențelor similare pentru secvența necunoscută într-o bază de date. Pe scurt, un program de căutare al aliniamentului local este cel mai bine folosit pentru identificarea unor regiuni secvențiale mai scurte, cu un grad foarte mare de similaritate.

Toți algoritmii de comparare a secvențelor se bazează pe anumite scheme de calcul a scorului aliniamentului. Scorul aliniamentului este suma scorurilor mai mici, atribuite pentru fiecare din perechile sale de aminoacizi sau nucleotide.

Majoritatea acestor algoritmi folosesc o matrice de scor pentru calcularea unui scor total fiecărui aliniament. Criteriile care diferențiază matricele de scor depind de tipul scorului pe care se bazează:

Schemă a scorului bazată pe „identitate”:

Conform acestei scheme, perechile de aminoacizi identici sau nucleotide identice primesc un scor pozitiv, în timp ce perechile non-identice primesc scorul 0. În general scorul pozitiv atribuit perechilor identice este egal cu 1. Scorul identității globale este apoi convertit simplu (identitate procentuală).

Avantaje: această schemă de calcul este simplă și non-heuristică. Este bună în cazul secvențelor cu grad înalt de similaritate.

Dezavantaje: schema este în general inferioară acelora care încorporează cunoștințele suplimentare, datorită în special inegalităților perechilor non-identice. De exemplu o pereche alanină-valină este mai acceptată din punct de vedere biologic decât o pereche alanină-acid aspartic. Această schemă este mai puțin efectivă în detectarea secvențelor sau a regiunilor secvențiale cu un grad redus de similaritate.

Procentul identității raportat de acest aliniament nu este întotdeauna un indicator de acuratețe a gradului de omologie prezent, în special datorită dependenței acestui scor de lungime a secvenței.

Schemă de calcul a scorului bazată pe „similaritate chimică”

Această schemă a fost concepută pentru a depăși limitările asociate cu schema bazată pe „identități” și evaluează perechile de aminoacizi în funcție de caracteristicile lor chimice și structurale.

Schemele folosite de McLachlan și Feng încorporează în calcularea scorului proprietățile aminoacizilor cum ar fi polaritate, sarcină, mărime și caracteristici structurale.

Avantaje: introduce proprietățile aminoacizilor în calcularea scorului, lucru important deoarece anumite mutații care realizează o schimbare drastică în caracteristicile AA implicați au un impact mult mai mare asupra funcțiilor proteinelor decât altele. Aceste mutații, de exemplu schimbarea unui aminoacid polar cu unul non-polar, alterează mult mai mult structura și funcția proteinei respective decât o mutație implicând aminoacizi cu proprietăți similare.

Dezavantaje: mutațiile observate în natură nu sunt întotdeauna explicate prin schemele simple de calculare a scorului.

Schema de calcul bazată pe „codul genetic”

Această metodă ia în considerare numărul minim de schimbări de baze la nivel genomic, necesar pentru convertirea unui aminoacid în altul.

Schema de calcul bazată pe „mutații observate”

Această metodă de calcul a scorului unui aliniament, se bazează pe frecvența mutațiilor observate în secvențele aliniate.

Schemele bazate pe mutațiile observate reprezintă mai bine fenomenele naturale decât acelea care încearcă să explice relațiile dintre secvențe folosind matrice de calcul bazate pe similaritate chimică, identitate și cod genetic.

Algoritmii de căutare a similarităților secvențelor aliniate se bazează pe cele 210 perechi posibile de aminoacizi care sunt reprezentate de o matrice 20×20 de calcul a scorului. Numărul total de perechi posibile de aminoacizi este egal cu 210, „alfabetul” proteinelor fiind alcătuit din 20 AA. Perechile de aminoacizi identici primesc cel mai înalt scor în matrice, urmate de perechile de aminoacizi care au un anumit grad de similaritate (de ex. Leucină și Izoleucină) și în final de acei aminoacizi care nu prezintă similarități (de ex. Leucină și Arginină).

BLAST: Basic Local Alignment Search Tool

Teoria statistică folosită în programele BLAST a fost creată de Samuel Karlin și Steven Altschul [2].

Toate programele BLAST folosesc o matrice de substituție, atât în etapa de scanare a bazelor de date cât și în procesul de aliniere a secvențelor.

Schemele de substituție sunt considerate a fi cele mai bune metode de calcul al scorului aliniamentelor și se bazează pe analiza frecvenței cu care un aminoacid observat este înlocuit de un alt aminoacid în proteinele ale căror secvențe sunt aliniate.

Matricele PAM

Unele dintre primele matrice de substituție folosite pentru compararea secvențelor proteinelor în termeni filogenetici au fost dezvoltate de către Margaret Dayhoff și colaboratorii săi, fiind cunoscute ca matricele Dayhoff sau PAM [6] (Percentage of Acceptable Point Mutations).

Aceste matrice ale probabilităților mutațiilor, derivate din aliniamentele globale ale secvențelor strâns înrudite, dau probabilitatea ca un aminoacid să fie înlocuit de altul într-o anumită perioadă de evoluție.

Numerele care însoțesc aceste matrice (de exemplu PAM 40, PAM 100) corespund distanței evolutive relative dintre secvențele respective. De exemplu, dacă scorurile aliniamentelor au fost calculate folosind PAM 40 și PAM 250, matricea cu număr mai mic va recunoaște aliniamente scurte ale secvențelor cu grad înalt de similaritate, mai puțin distante din punct de vedere evolutiv, în timp ce matricea cu număr mai mare va găsi aliniamente locale mai slabe ale secvențelor, între care există o distanță evolutivă mai mare .

Matricele BLOSUM

În contrast cu matricele de substituție PAM care se bazează pe aliniamentele globale ale secvențelor foarte similare, strâns înrudite, matricele BLOSUM [11] dezvoltate de Steve Henikoff și colaboratorii săi sunt derivate din aliniamentele locale multiple ale secvențelor mai îndepărtate din punct de vedere evolutiv.

În vederea dezvoltării matricelor BLOSUM a fost creată o bază de date conținând aliniamentele multiple (fără gap-uri) ale regiunilor scurte de secvențe înrudite. Aceste secvențe au fost grupate în „blocuri”, în funcție de similaritățile lor la o anumită valoare prag a identității procentuale.

Matricele de substituție a „blocurilor” [BLOSUM=Blocks Substitution Matrices] au fost derivate pornind de la frecvențele de substituție pentru toate perechile de aminoacizi dintr-un grup (bloc). Numerele care însoțesc matricele BLOSUM (de ex. BLOSUM 62) se referă la minimul procentului de identitate folosit pentru construirea matricei. De aceea numerele mai mici corespund blocurilor care sunt mai îndepărtate din punct de vedere evolutiv.

Un interes actual îl reprezintă dezvoltarea matricelor pentru scor bazate pe aliniamentele derivate din structurile tridimensionale. Un astfel de exemplu îl constituie matricele Johnson și Overington (matricele JO). Acești investigatori au aliniat structurile tridimensionale a 65 seturi de proteine omologe. Din aceste structuri au fost tabelate 207.795 substituții de aminoacizi. Proteinele din fiecare set de omologi au avut o identitate secvențială de 15-40% astfel încât matricea de substituție ar trebui să fie o metodă senzitivă pentru calcularea scorului aliniamentelor.

Când se realizează un aliniament al secvențelor trebuie selectat algoritmul de aliniere, matricea de calcul a scorului aliniamentului și penalitățile introduse de spațiile (gap-urile) din secvențe. Alegerea matricelor de scor se face în funcție de aliniamentele care vor fi realizate: locale sau globale. Matricele PAM sunt de preferat în cazul căutării similarităților globale în timp ce matricele BLOSUM sunt mai bune pentru găsirea regiunilor de similarități locale. Un avantaj al aliniamentelor locale este faptul că nu presupun că secvența proteinei necunoscute și secvența din baza de date au lungime similară.

Programele BLAST – folosesc un algoritm heuristic care identifică aliniamentele locale, găsind omologii cu secvențele cele mai apropiate, într-un timp eficient.

Serverul BLAST suportă o varietate de programe analitice care sunt fie accesate prin rețeaua Internet, fie instalate în rețele locale pentru a mări viteza de analiză. Programul BLAST bazal nu permite introducerea gap-urilor în aliniamentele sale ceea ce va reduce senzitivitatea căutării. Cu toate acestea, datele de ieșire din program oferă aliniamente regionale multiple, care pot fi folosite pentru a anticipa gap-urile din secvența de interes și cea din baza de date. În continuare sunt enumerate programele BLAST și utilizarea lor.

BLASTp: acest program permite utilizatorului să caute similaritățile dintre secvența unei proteine necunoscute și secvențele proteinelor dintr-o bază de date.

BLASTx: permite compararea secvențelor traduse în aminoacizi ale nucleotidelor cu secvențele proteinelor din bazele de date.

Secvența nucleotidică de interes este tradusă inițial în toate cele 6 catene de citire (Open Reading Frame, ORF) posibile. Acest program este folositor în special pentru găsirea erorilor de secvențializare a nucleotidelor, prin compararea secvenței de nucleotide tradusă în aminoacizii săi proteici potențiali dintr-o bază de date cu secvențe proteice.

BLASTn: cu ajutorul acestui program se compară o secvență nucleotidică de interes cu secvențele din bazele de date nucleotidice.

tBLASTn: permite căutarea similarităților dintre o secvență proteică și secvențele traduse (translatate) ale nucleotidelor dintr-o bază de date.

Secvențele nucleotidice dintr-o bază de date sunt traduse inițial în fiecare din cele 6 catene de citire posibile și sunt apoi comparate cu secvența proteinei de interes. Acest program este util pentru găsirea erorilor de secvențializare în proteine prin compararea secvenței proteinei respective cu omologii săi potențiali obținuți prin traducerea secvențelor nucleotidice dintr-o bază de date.

tBLASTx: se compară cele 6 traduceri ale catenelor de citire ale secvenței nucleotidice chestionabile cu cele 6 catene de citire traduse ale secvențelor nucleotidice dintr-o bază.

Noul pachet de programe BLAST este menținut pe serverul BLAST 2.0 capabil să optimizeze viteza de procesare și senzitivitatea metodelor, adăugând pe de altă parte noi capacități ce permit rularea noilor programe PSI-BLAST și GAPPED-BLAST.

GAPPED BLAST – algoritmul Gapped-BLAST permite introducerea gap-urilor în aliniamentele obținute cu ajutorul programului BLAST simplu.

Introducerea gap-urilor (input) previne segmentarea regiunilor similare ale secvențelor.

Datele de intrare ale algoritmului heuristic permit reflectarea relațiilor biologice asociate aliniamentului, în special situsurile active și situsurile de legătură care au tendințe să fie mai conservate de-a lungul evoluției. Introducerea gap-urilor previne scindarea acestor regiuni în fragmente de secvențe mai puțin semnificative.

PSI-BLAST (position – specific iterated BLAST) rulează inițial programul Gapped-BLAST și folosește aliniamentul de ieșire din acesta ca input pentru PSI-BLAST. Programul construiește o matrice de calculare a scorului care înlocuiește secvența originală și este folosită pentru găsirea profilelor (secvențelor omologe) în următoarele iterații de căutare în baza de date.

Utilizatorul ar trebui să efectueze următoarele etape generale pentru rularea cu succes a programelor BLAST:

Secvența de interes trebuie introdusă în format corect (de exemplu formatul FASTA);

Secvența astfel formulată va fi apoi copiată în fereastra „input sequence” a interfeței programului BLAST;

În funcție de tipul secvenței analizate se selectează programul BLAST potrivit (de exemplu BLASTp pentru secvențele de proteine);

În final trebuie selectată baza de date corespunzătoare. De exemplu, dacă utilizatorul este interesat numai în găsirea secvențelor omologe cu structură cunoscută trebuie selectată o bază de date ce conține structuri tridimensionale, cum ar fi PDB. Secvența de interes este transmisă serverului BLAST, iar rezultatele căutării în baza de date sunt obținute fie prin e-mail, fie văzute interactiv pe interfața Internet a programului BLAST.

Valoarea așteptată, E, din datele de ieșire ale programului BLAST reprezintă numărul de potriviri, „perechi” găsite aleatoriu într-o bază de date. O valoare E=0 semnifică faptul că pentru anumite baze de date probabilitatea de a găsi o pereche în mod aleatoriu este 0. Această valoare descrește exponențial cu creșterea valorilor scorului S. O valoare E egală cu 1 indică probabilitatea ca identificarea similarităților secvenței să fie aleatoare.

În concluzie căutarea în bazele de date ale secvențelor are următoarele obiective:

Găsirea secvențelor omologe pentru a se deduce identitatea secvențelor de interes.

Identificarea potențialilor omologi cu structuri tridimensionale cunoscute pentru predicția structurii tridimensionale a secvenței necunoscute și deducerea caracteristicilor sale funcționale.

Instrumente de recunoaștere a pattern-ului

Prosite [13] este una dintre cele mai frecvent folosite baze de date ce conține patterne biologice: situsuri funcționale și patterne secvențiale găsite în multe proteine.

În baza de date Prosite, patternele descrise sunt bine documentate pentru a minimaliza redundanța. Prosite are unelte de căutare a patternelor, cum ar fi programul PROMOT, folosit pentru compararea similarităților unei secvențe cu modelele existente în baza de date PROSITE. Acest program este folosit de asemenea pentru potrivirea secvenței de interes într-un set de patterne predefinite.

ProSearch [16] este un alt program de căutare rapidă a patternelor secvențelor de proteine din bazele de date SWISS-PROT și TrEMBL.

Modele Markov Ascunse

Se constată că profilele secvențelor sunt un caz particular al unei aproximări matematice mai generale, numită Modele Markov Ascunse (HMMs – Hidden Markov Models). Aceste metode au fost folosite inițial în programele de recunoaștere a vocii înainte de a fi introduse în analiza secvențelor biologice. Există un formalism clar care sprijină înțelegerea teoretică a rezultatului așteptat când se practică analiza secvenței. Există un avantaj important în folosirea HMMs în locul profilelor secvenței; baza teoretică este mult mai solidă. De asemenea, statisticile Bayesiene sunt folosite în câteva perspective ale metodei.

Un proces Markov este un proces fizic al unei categorii speciale, dar comune. Ideea de bază este că avem un sistem fizic care trece treptat printr-o formă de schimbare. O caracteristică esențială a unui proces Markov este că schimbarea este dependentă de condiția actuală.

Există un proces ascuns care generează o secvență de aminoacizi, în care șansa (bazată pe probabilitățile specifice) joacă un rol esențial în determinarea exactă a secvenței ce urmează a fi produsă. Această aproximație poate fi aplicată în căutarea motivelor secvențelor. Se poate construi un HMM specific pentru o familie de domenii folosind metode statistice în aliniamentul multiplu al acestora. Probabilitățile necesare sunt estimate din frecvențele în aliniament coroborate cu alte date. Acest HMM poate fi folosit apoi pentru a verifica apartenența altor secvențe la această familie. HMM-urile pot fi organizate astfel încât inserțiile, delețiile și substituțiile pot fi manipulate ușor, iar probabilitățile lor estimate corect.

Planul unui HMM determină care probabilități trebuie estimate, și ce tip de potriviri sunt permise. De exemplu, este posibilă proiectarea unui plan HMM care interzice strict inserțiile și delețiile [30].

Capitolul 3

Noțiuni de biologie moleculară și genetică

Structura și organizarea ADN-ului

Descoperirea rolului genetic la ADN a concentrat atenția cercetătorilor asupra structurii sale, fiind singura cale pentru înțelegerea funcționalității genelor.

În 1953, J. Watson și F. Crick au imaginat și demonstrat modelul structurii spațiale al ADN ca moleculă bicatenară, helicoidală, formată din înșiruiri de nucleotide.

ADN-ul este un macropolimer format din secvențializări de dezoxiribonucleotide. Lungimea și greutatea moleculară sunt uriașe, permițându-se astfel stocarea unei impresionante informații ereditare. Cantitatea de ADN variază de la o specie la alta, dar este constantă în celulele aceleiași specii.

Cea mai mare cantitate de ADN (aproximativ 98%) se găsește în nucleu, respectiv în cromozomi. Un procent de aproximativ 2% îl reprezintă ADN-ul mitocondrial din citoplasmă.

ADN-ul prezintă patru nivele de structură [35].

Structura primară

Structura primară este reprezentată de secvențializările nucleotidice. Fiecare nucleotid din cele patru tipuri constituie o unitate structurală și este format dintr-o bază purinică A (adenină) sau G (guanină), sau pirimidinică C (citozină), respectiv T (timină), o dezoxiriboză și un rest de acid fosforic.

Baza azotată împreună cu dezoxiriboza de care este legată, formează un nucleozid. Polimerizarea celor patru tipuri de nucleotide este asigurată prin legături fosforice.

Secvențializarea bazelor azotate este strict specifică și reprezintă ereditatea codificată. În schimb, axul fosfo-glucidic are structură variabilă, el constituie scheletul moleculei, fiind așezat înspre exteriorul catenelor.

Structura secundară

Structura secundară este reprezentată de configurația spațială bicatenară, dublu helicoidală, formată prin asamblarea co-axială, antiparalelă și complementară a celor două catene polinucleotidice (conform modelului descris de Watson și Crick, 1953).

Complementaritatea catenelor este asigurată prin împerecherea riguros specifică a bazelor azotate, adenina și timina (A=T), legate prin două legături de hidrogen, iar citozina și guanina prin trei legături de hidrogen (C≡G). Cele două catene sunt antiparalele una față de cealaltă, prin orientarea în sens diferit a legăturilor fosforice; astfel, pe o catenă acestea sunt 3’-5’, iar pe cealaltă 5’-3’. Existența acestui paralelism face ca în timpul transcripției să fie copiată doar una din catene, niciodată amândouă.

Cele două catene sunt înfășurate în jurul unui ax, în chip helicoidal dextrogir, în care o spirală a helixului cuprinde zece perechi de nucleotide. În condiții fiziologice catenele au stabilitate bună. Experimental însă, la temperaturi peste 90˚, sau la modificări ale pH-ului, ADN-ul se denaturează, devenind monocatenar. Asemenea denaturări se folosesc în cadrul tehnicilor de inginerie genetică, în formarea de hibrizi ADN/ARN etc.

Prin folosirea difracției cu raze X s-a evidențiat existența în celulele eucariotelor, în unele zone pe cromozomi, a unui ADN bicatenar denumit ADN-Z, care prezintă câteva proprietăți diferite. Astfel, la ADN-Z spiralarea catenelor este spre stânga, pașii unei spirale cuprind câte 12 perechi de nucleotide, iar bazele azotate ale acestora se găsesc spre exterior, fiind deci mai expuse factorilor de mediu (factorilor mutageni).

În celule umane, ADN-Z se află în cantitate mică, localizat numai în anumite zone pe cromozomi și anume în zonele fragile „fragile sites” și întotdeauna în vecinătatea oncogenelor. Datorită acestui fapt s-a crezut inițial că ADN-Z ar avea implicații în procesul oncogen.

În urma mai multor cercetări s-a stabilit însă că ADN-Z se găsește în mod normal la om și de asemenea, la alte specii animale, nefiind confirmat un eventual rol jucat în carcinogeneză.

ADN-ul mitocondrial este o moleculă bicatenară, circulară, situată în mitocondrii. Rolul său genetic nu este pe deplin elucidat. Genele care conțin ADN mitocondrial sunt transmise întotdeauna pe linie maternă.

Structura terțiară

Organizarea moleculelor de ADN în celule este specifică, fiind diferită la eucariote față de procariote. La eucariote ADN-ul este organizat heterogen, existând sub forma a două tipuri: ADN nerepetitiv (cu secvențe unice) în proporție de 60-70% și ADN repetitiv (în mai multe copii) care se clasifică la rândul lui în ADN moderat repetitiv și ADN înalt repetitiv.

ADN-ul nerepetitiv este reprezentat de molecule a căror secvențe nucleotidice nu se mai găsesc în alte molecule de ADN ale aceleiași garnituri haploide. El intră în constituția celor aproximativ 50.000-100.000 de gene structurale transcriptibile. În cromozomi se găsește în zonele eucromatice.

ADN-ul moderat repetitiv cuprinde molecule de ADN a căror secvențe se regăsesc în multiple exemplare (sute de exemplare în același nucleu). El intră în componența zonelor necodante din gene, a genelor histogene (care specifică histonele) și a genelor care specifică ARN ribozomal și ARN-uri transportoare.

ADN-ul înalt repetitiv mai poartă denumirea de ADN satelit. El este format din secvențe foarte lungi de nucleotide, repetate de sute de mii de ori în același genom. În cromozomi este localizat în zonele heterocromatice, mai ales din jurul centromerului și a telomerelor.

Structura cuaternară

Molecule de ADN prezintă multiple înfășurări (încolăciri) formând un superhelix pliat, aceasta fiind datorată spațiului restrâns din nucleu. În același timp, moleculele de ADN se află legate de histone și alte proteine nehistonice formând nucleosomi.

Structura ARN

Acizii ribonucleici (ARN) sunt molecule poliribonucleotidice, rezultate din polimerizarea a patru tipuri de ribonucleotide, în care bazele azotate sunt A, U, C, G. Fiecare ribonucleotid conține o pentoză – riboza, o bază azotată și legături fosforice. În timpul sintezei ARN, încatenarea ribonucleotidelor se face cu ajutorul ARN-polimerazei.

Se disting două categorii de ARN, celulare și virale. ARN-urile celulare nu codifică informație genetică, dar sunt implicate în transcrierea și translația mesajelor genetice; ARN-urile virale însă, reprezintă substratul ereditar, codificat al ribovirusurilor.

Moleculelor de ARN li se descriu: structură primară, monocatenară, reprezentată de secvențializarea nucleotidelor și stabilizată prin punți fosfodiesterice; structură secundară, parțial bicatenară în unele zone în care bazele A-U și C-G sunt legate complementar, intracatenar; structură terțiară, rezultată prin așezarea într-o configurație tridimensională a catenei ribonucleotidice.

Tipuri de ARN

ARN-urile celulare se clasifică în: ARN mesager (ARN-m), ARN de transport (ARN-t) și ARN ribosomal (ARN-r).

ARN-m este un poliribonucleotid monocatenar, sintetizat în nucleu după modelul unei catene a ADN-ului în mod complementar. Prin sinteza lui conform codonilor din genă, preia informația genetică, fiind în același timp și purtător al mesajului genetic până în citoplasmă, la nivelul ribozomilor, în vederea sintezei de proteine.

Deoarece sinteza ARN-m reprezintă de fapt mecanismul transcripției genice, structura ARN-m este heterogenă, dictată de structura genei de pe care s-a sintetizat; lungimea moleculelor de ARN-m variază de asemenea, în funcție de mărimea mesajului genic transcris din ADN.

Inițial se sintetizează fragmente de ARN-m care copiază mesajul din exoni și introni. Apoi urmează un proces de prelucrare post-transcripțională, de asamblare, în care sunt excizate porțiunile sintetizate de la nivelul intronilor, iar cele de pe exoni se sudează cap la cap. În felul acesta rezultă ARN-m matur, care migrează în citoplasmă la nivelul ribozomilor, unde va avea loc procesul decodificării mesajului genetic.

ARN-t prin funcția pe care o îndeplinește mai este numit și ARN adaptator sau acceptor de aminoacizi. Fiecare moleculă este formată dintr-o catenă poliribonucleotidică, formată prin înșiruirea a 70-95 ribonucleotide (structura primară). ARN-t prezintă și structură secundară, respectiv terțiară, catena fiind înfășurată tridimensional în forma unei frunze de trifoi. Din această configurație rezultă câteva regiuni: o regiune denumită acceptoare, formată întotdeauna din secvențele CCA și care reprezintă locul de atașare și transport al unui aminoacid activat; o regiune ce reprezintă situsul de recunoaștere al ribozomilor și de legare a ARN-t de ribozomi; o regiune variabilă numită „ciot”; o regiune formată din 7 nucleotide, din care cele 3 baze azotate centrale formează un „anticodon”; o regiune care reprezintă locul de recunoaștere și legare a enzimei amino-acil-sintetază de ARN-t.

ARN-r este format prin secvențializarea unui număr mare de ribonucleotide (structura primară). În molecula de ARN-r alternează zone monocatenare cu zone bicatenare (structură secundară), molecula prezentând și o configurație tridimensională caracteristică (structura terțiară). ARN-r este întotdeauna legat de proteine ribozomale împreună cu care formează scheletul structural al ribozomilor.

Replicarea ADN-ului

Conservarea fidelă a mesajului genetic din ADN în procesul de perpetuare a celulelor are la bază proprietatea moleculelor de ADN de a se replica semiconservativ, încât fiecare catenă a ADN-ului va funcționa în timpul replicării ca matriță, încorporându-se în același timp în cele două molecule nou sintetizate.

Esența replicării semiconservative a ADN-ului constă în copierea exactă a secvențializărilor nucleotidice, prin așezarea nucleotidelor corespunzătoare conform complementarității; acest proces este „supravegheat” de mai multe enzime printre care rol principal îl au ADN-polimeraza, exonucleaza și ADN-primaza.

Pentru desfășurarea replicării, moleculele de ADN suferă o despiralizare prin intervenția enzimei helicaza și topoizomeraza, apoi catenele se desfac în mai multe zone deodată, zone denumite „repliconi”. În dreptul fiecărei catene vor fi așezate conform complementarității nucleotide noi, astfel încât în dreptul fiecărei catene vechi se constituie o catenă nouă.

Procesul replicării ADN-ului poate fi perturbat, sub acțiunea nocivă a factorilor mutageni sintetizându-se porțiuni „greșite”. Asemenea greșeli sunt reparate prin acțiunea mai multor tipuri de enzime nucleare și prin care are loc replicarea reparatorie a ADN-ului. În esență, repararea se face prin recunoașterea și excizia fragmentului „greșit” de către endonuclează, îndepărtarea acestuia sub intervenția exonucleazelor și apoi, prin inserare de nucleotide corespunzătoare, de către replicaze; în final, va avea loc încatenarea prin intervenția ligazei și a ADN-polimerazei.

Exactitatea replicării ADN-ului și a reparării greșelilor secvențiale joacă un rol covârșitor în păstrarea informației ereditare, a echilibrului ciclului celular și a creșterii celulare [35].

Noțiunea de genă. Structura genei

Termenul de genă a fost introdus de către Johannsen în 1909, socotind gena ca pe un echivalent al factorilor mendelieni. În 1957, cercetările lui Benzer modifică concepția clasică despre genă, demonstrând că gena este formată din multiple subunități reprezentate de nucleotide. S-a stabilit că o parte din gene sunt structurale, codificând mesaje pentru specificarea de proteine, iar altele sunt gene de control (operatoare și reglatoare), cu rol coordonator asupra genelor structurale.

Pe baza cercetărilor moderne de genetică moleculară, noțiunea de genă a fost reformulată; astfel, în conceptul actual gena este definită ca un fragment de ADN nuclear, mitocondrial sau ARN (la ribovirusuri), de lungime diferită și care conține un mesaj codificat pentru sinteza unui produs specific.

Genele sunt amplasate în locusuri într-o înlănțuire de-a lungul cromozomilor. Genele apropiate între ele au relații de vecinătate, astfel că în funcție de înlănțuirea dintre ele, unele se vor transfera în grup în timpul recombinărilor genetice din meioză; procesul este cunoscut sub numele de linkaj genic.

La eucariote gena are structură complexă, neomogenă, conținând zone codante și translabile denumite exoni alternând cu zone netranslabile numite introni.

Exonii sunt regiuni din genă formate din secvențe nucleotidice de pe a căror înșiruire se va sintetiza (prin transcripție) un fragment de ARN-m primar. Ele sunt fragmente codificante și active pentru specificarea de proteine.

Intronii sunt fragmente din genă care participă ca și exonii la transcripție, dar ARN-m sintetizat de pe introni este întotdeauna excizat în timpul asamblării ARN-ului mesager matur, deci intronii nu participă la translația mesajului; ei sunt regiuni netranslabile.

Una din principalele funcții ale intronilor este de a interveni, prin intermediul fragmentelor de ARN sintetizate, în inițierea sintezelor proteice.

Alături de introni și exoni, de-a lungul genei se află eșalonate elemente reglatorii, care coordonează procesul transcripției, respectiv expresia genei.

La unul din capete, gena deține o regiune numită promotor, constituită din sute de nucleotide, cu rol în inițierea transcripției.

În genom, o parte din gene, deși se află plasate pe cromozomi diferiți, au origine comună și concură în expresia unui aceluiași caracter. Ele sunt numite familii de gene. Dintre familiile de gene din genomul uman fac parte: genele pentru globinele din hemoglobină, genele pentru imunoglobuline, genele pentru colagen, genele pentru vizibilitatea cromatică ș. a.

Transmiterea mesajului genetic în sinteza proteinelor

Dogma centrală a geneticii moleculare

În 1958, F. Crick a emis ipoteza transmiterii unidirecționale a mesajului informațional genetic de la ADN la proteine, prin intermediul ARN-m, menționând că este imposibil transferul de informație de la ADN direct la proteine și în sens invers.

În 1965, Watson aduce „dogmei centrale” unele completări și precizări referitoare la imposibilitatea transmiterii informației genetice de la ARN la ADN, deoarece ARN nu ar putea funcționa ca matriță.

În 1970, Temin și Baltimore au demonstrat existența transcrierii inverse a informației genetice, de la ARN la ADN în cazul virusurilor cu genom constituit din ARN.

Descoperirea transcrierii inverse a dus la revizuirea și reformularea dogmei centrale, sumarizată astfel:

Transfer general, prezent în toate celulele cu genom ADN, care se face ADN→ARN→proteine;

Transfer special, prezent numai în anumite circumstanțe, de la ARN→ADN→ARN-m→proteine

Transfer (mai puțin cunoscut) de la proteină la ADN, prin produșii de sinteză ai unor gene structurale, care interacționează specific cu ADN-ul în reglajele genice.

Transcripția

Transcripția este un proces complex, de sinteză a unei molecule de ARN-m folosindu-se drept matriță una din cele două catene ale ADN-ului, întotdeauna aceeași, datorită antiparalelismului catenar din structura ADN-ului.

Sinteza se face conform complementarității bazelor azotate ale ADN-ului cu cele din ARN-m, încât prin sinteza unei molecule de ARM-m se copiază mesajul genetic codificat în porțiunea de ADN folosită drept matriță. Întotdeauna este copiată o singură catenă a ADN-ului și anume cea cu legăturile fosforice orientate în sens 3’-5’.

Transcripția se realizează în prezența enzimei ARN-polimerază (transcriptază). Transcriptaza este capabilă să identifice catena care urmează a fi transcrisă, de asemenea capătul de unde începe citirea și capătul terminal al genei prin legarea sa reversibilă de proteine specifice. Aceste proteine servesc la recunoașterea codonilor „stop”, în vederea sistării sintezei ARN-m și eliberării acestuia de pe matriță.

După încheierea transcripției, ARN-m va suferi un proces de îndepărtare a fragmentelor sintetizate de pe introni și apoi de legare (splicing) a fragmentelor sintetizate de pe exoni, încât în final se formează molecula de ARN-m matur.

Translația

Translația și sinteza proteinelor au loc în ribozomi. Ribozomii se leagă reversibil de ARN-m și ARN-t încărcat cu aminoacid, astfel încât sunt utilizați de repetate ori în traducere. Ei joacă rolul de a orienta molecula de ARN-m în vederea bunei translatări între codon – anticodon.

Translația este reprezentată de traducerea codonilor din ARN-m de către anticodonii ARN-t, încât informația codificată prin alfabetul codului genetic este convertită într-un alfabet al celor 20 de aminoacizi.

Pentru efectuarea traducerii mesajului din ARN-m în vederea sintezei proteice este necesară prezența de: aminoacizi liberi, ARN-m matur, ribozomi, ARN-t, enzime amino-acil-sintetaze (cu rol în formarea complexului adaptator ARN-t-aminoacid), mitocondrii ca surse de energie etc.

Mecanismul translației se desfășoară în următoarele faze:

Faza de activare a aminoacizilor

Faza de inițiere

Faza de elongare a polipeptidului

Faza de terminare a traducerii mesajului

Codul genetic

F. Crick și colaboratorii (1961), pe baza datelor acumulate în genetica moleculară, descriu caracteristicile codului genetic, stabilind că trei nucleotide alăturate constituie un codon (triplet) care reprezintă o unitate a codului genetic, de specificare a câte unui aminoacid pentru sinteza proteinelor.

Termenul de cod genetic înglobează sistemul de corespondență între codoni (fiecare codon cuprinde 3 nucleotide adiacente din ADN) și aminoacizii din structura proteinelor. Fiecare codon este strict specific.

Descifrarea integrală a codului genetic a fost posibilă din 1965, pe baza experimentelor lui Nierenberg, Ochoa și Khorana, ei având meritul de a fi stabilit semnificația celor 64 de codoni (43=64). Din aceștia, 61 sunt codoni cu „sens”, specificând cei 20 de aminoacizi, iar trei codoni, denumiți „fără sens” au rol de codoni „stop” sau „terminatori” ai sintezei proteice.

Deoarece există 64 de tipuri de codoni pentru specificarea celor 20 de aminoacizi rezultă că un aminoacid poate fi specificat de mai mulți codoni (codoni sinonimi). Această proprietate a codului genetic este cunoscută sub numele de cod genetic degenerat.

Figura 2: Codul genetic. Combinații posibile în triplete și semnificația codonilor [35].

Baza genetică a sintezei și structurii proteinelor

La organismele eucariote, proteinele sunt sintetizate la nivelul ribozomilor, pe baza programelor informaționale vehiculate de la nivelul ADN-ului, prin intermediul ARN-m.

Sinteza proteică (modul de secvențializare a aminoacizilor) este dictată de informația codificată în ADN; structura fiecărei proteine, în special structura primară, conferă o anume funcționalitate proteinei respective.

Orice modificare a secvențializării unuia sau mai multor aminoacizi atrage după sine modificări în structura proteinelor, însoțite de modificări ale funcționalității, destul de grav exprimate fenotipic.

În unele situații în care, conform proprietății de cod degenerat, în mutația survenită codonii sunt sinonimi codonilor inițiali, se vor secvențializa aceleași tipuri de aminoacizi, astfel încât proteina nu va suferi modificări; este cazul mutațiilor silențioase [35].

Proteinelor li se descriu: structură primară, secundară, terțiară iar pentru unele proteine chiar structură cuaternară.

Structura primară este structura de bază a oricărei proteine și constă în numărul, felul și secvența aminoacizilor ce intră în constituția unei proteine. Baza structurii primare este reprezentată de legăturile peptidice ce se stabilesc între diferiți α-aminoacizi. Această legătură peptidică constituie „coloana vertebrală” a oricărei molecule proteice. În structura primară, atomii de C și N implicați în stabilirea legăturilor peptidice sunt coplanari și nu se pot roti liber, iar radicalii aminoacizilor constituenți aferenți atomilor Cα sunt dispuși alternativ deasupra și sub planurile legăturilor peptidice.

Structura secundară reprezintă organizarea spațială a catenelor polipeptidice, organizare generată și stabilizată datorită legăturilor de hidrogen care se stabilesc intra- sau intercatenar între grupările –NH- și grupările –CO-. Structura secundară prezintă următoarele variante structurale: modelul α-helix, rezultat și stabilizat prin legături de hidrogen intracatenare; modelul în „foaie pliată”, în care legăturile de hidrogen se stabilesc intercatenar; cotul β, o structură aparte, formată din patru aminoacizi (pot fi Gli, Pro, Asp, Asn, Ser) care permite schimbarea bruscă de direcție a catenei polipeptidice; modelul tip colagenic ce se prezintă ca un superhelix format din trei catene polipeptidice răsucite în jurul unui ax imaginar, care constituie un triplu helix.

Structura terțiară înglobează structura secundară și definește raporturile dintre segmentele de α-helix și structura β, modul de împachetare al lanțului polipeptidic. Între diverșii radicali se pot stabili următoarele tipuri de legături: legături covalente, formate din punți disulfidice; legături ionice, stabilite prin atracție electrostatică; legături de hidrogen; legături dipol-dipol; forțe van der Waals și interacțiuni hidrofobe.

Structura cuaternară constă în unirea mai multor unități monomerice similare sau diferite într-un complex unic. Structura a fost descrisă la mai multe enzime. Modelul structurii cuaternare se găsește la hemoglobină care este formată din două lanțuri polipeptidice α și două lanțuri polipeptidice β. Monomerii de globină au structură primară, secundară și terțiară. Subunitățile sunt ținute împreună prin legături de hidrogen, legături saline și forțe van der Waals [26].

Funcția proteinelor

Proteinele au roluri importante în aproape toate procesele biologice. Ele sunt responsabile într-un fel sau altul de o varietate de funcții fiziologice incluzând:

Cataliza enzimatică – aproape toate reacțiile biologice sunt catalizate enzimatic. Enzimele cresc rata reacției biologice cu un factor de 106.

Transport și depozit – moleculele mici sunt transportate adesea de proteine în procesele biologice (de exemplu, hemoglobina este responsabilă pentru transportul oxigenului la țesuturi). Multe medicamente se leagă parțial de albumina serică plasmatică.

Mișcarea coordonată – mușchiul este în mare parte format din proteine, iar contracția musculară este mediată de alunecarea a două proteine, actina și miozina.

Suport mecanic – pielea și osul sunt întărite de colagen.

Protecție imună – anticorpii sunt structuri proteice responsabile pentru interacțiunea cu substanțe străine specifice din organism.

Generarea și transmiterea impulsurilor nervoase – unii aminoacizi funcționează ca neurotransmițători, care transmit semnalele electrice de la o celulă nervoasă la alta. În plus, receptorii pentru neurotransmițători, medicamente, etc. sunt de natură proteică. Un exemplu este reprezentat de receptorul acetilcolinic, o structură proteică înglobată în neuronii postsinaptici.

Controlul creșterii și diferențierii – proteinele pot fi critice în procesul creșterii, diferențierii celulare și exprimării ADN-ului. De exemplu, proteinele inhibitoare se pot lega la anumite segmente de ADN, împiedicând expresia și astfel formarea produsului codat de segmentul de ADN. Mulți hormoni și factori de creștere care reglează funcția celulei, cum ar fi insulina sau TSH sunt proteine [20].

Funcția tuturor proteinelor, fie de semnalizare, de transport sau cataliză, depinde de abilitatea de a lega alte molecule, liganzi. Ligandul fixat poate fi o moleculă mică sau o macromoleculă, iar cuplarea este de obicei foarte specifică. Fixarea ligandului implică formarea unor interacțiuni noncovalente între ligand și suprafața proteinei; sunt aceleași tipuri de legături care sunt implicate în stabilizarea proteinelor împăturite și în interacțiunile dintre subunitățile proteice. Legarea specifică se face la nivelul la care proteina este complementară cu ligandul. Aceste situsuri se numesc situsuri de legare a ligandului dacă funcția de bază este recunoașterea moleculară (ligandul poate fi mic – proton sau o macromoleculă) sau situsuri active dacă participă la cataliza chimică. Asemenea situsuri sunt formate ca o consecință a structurii tridimensionale a proteinei. Când o secvență polipeptidică se împăturește într-o structură tridimensională compactă, ea creează cavități interne unde împachetarea ramificațiilor nu este perfectă, cu numeroase cavități sau fisuri pe suprafață. Dacă reziduurile care mărginesc cavitatea sunt hidrofobe, mediul interior poate să fie mai asemănător cu un solvent organic decât este apa, facilitând proteina să fixeze liganzi hidrofobi de tipul lipidelor. Dacă reziduurile au încărcătură negativă, cavitatea poate avea un potențial electrostatic local foarte puternic, care îi permite fixarea unor liganzi puternic încărcați cum ar fi ionii de calciu, situație întâlnită în cazul proteinelor transportoare de ioni [21].

Interacțiuni proteice

Moleculele proteice din soluție sunt într-o mișcare continuă și se ciocnesc frecvent. Moleculele a căror forme se potrivesc pot forma asocieri mai stabile, mediate de legături noncovalente care se pot forma numai la distanțe mici. În apă, aceste legături noncovalente sunt mai slabe decât legăturile covalente peptidice care țin laolaltă aminoacizii, și sunt distruse foarte ușor de alte soluții sau de căldură. Multe din aceste legături trebuie să se formeze pentru a contrabalansa forțele care tind să separe moleculele implicate [31].

În orice reacție catalizată enzimatic, primul pas este formarea complexului enzimă-substrat în care substratul se fixează de situsul activ, de obicei noncovalent. Specificitatea legăturii este dată de interacțiunile van der Waals între substrat si grupurile nonpolare ale enzimei și de aranjamentul grupurilor polare și încărcate electric din jurul substratului. Este important ca enzima să nu lege prea puternic substratul deoarece acest lucru duce la scăderea eficienței de catalizator: produsul interacțiunii trebuie să disocieze pentru a permite enzimei să lege o altă moleculă de substrat pentru un nou ciclu catalitic. Formarea complexului enzimă-substrat crește probabilitatea coliziunii între două molecule reactive. Moleculele reactive trebuie să se ciocnească în orientare precisă pentru a permite formarea legăturilor specifice. Majoritatea moleculelor biologice au încărcătură electrică, iar câmpul electrostatic produs de proteină prin grupurile polare poate genera o încărcătură electrică specifică în regiunea de fixare a substratului.

Suprafețele proteinelor nu sunt întotdeauna complet polare, deseori existând grupuri nonpolare izolate în contact cu solventul. Situsurile de fixare a ligandului se deosebesc prin prezența unei suprafețe expuse hidrofobe: sunt situsuri unde grupările nonpolare tind să se adune pe suprafața proteinei, iar această caracteristică fizico–chimică poate fi folosită uneori pentru recunoașterea lor [21].

Modificări posttranslaționale

Modificările posttranslaționale ale unei proteine pot avea un efect marcat asupra structurii sale cu alterarea consecutivă a activității sau funcției sale. Fosforilarea (atașarea covalentă a unui grup fosfat la serină, treonină sau tirozină) este cea mai întâlnită modificare și este catalizată de enzime cunoscute sub numele de proteinkinaze. Se crede că genomul uman codifică mii de proteinkinaze diferite, care reglează toate aspectele comportamentului celular, inclusiv structura cromatinei (fosforilarea histonei), expresia genică, proliferarea celulară (receptorii factorului de creștere, kinazele cyclin dependente, kinazele MAP), activitățile metabolice.

Încărcătura electrică negativă adițională a grupurilor fosfat alterează balanța interacțiunilor noncovalente care determină structurile secundară, terțiară sau chiar cuaternară. Schimbarea conformației proteinei poate cauza (i) activarea sau inactivarea unei funcții biologice, sau (ii) asocierea sau disocierea subunităților [31].

Proteinele membranare

Proteinele membranare reprezintă aproximativ 25% din totalitatea proteinelor codate de genoamele cunoscute și au un roluri importante în comunicarea celulei cu exteriorul și în metabolismul energetic al celulei.

Proteinele membranare sunt fie intrinseci, fie extrinseci. Celulele conțin proteine care sunt înglobate în stratul dublu lipidic al membranelor plasmatice și se extind de la o parte a membranei la cealaltă. Aceste proteine transmembranare pot contribui la transportul ionilor în mai multe feluri.

Structural, proteinele membranare sunt formate adesea din trei domenii diferite, două hidrofile și unul hidrofob. Un domeniu hidrofil la capătul N terminal (alcătuit din aminoacizi hidrofili) este situat în mediul extracelular, un domeniu hidrofob (alcătuit adesea din 20-30 aminoacizi) străbate membrana plasmatică, și un domeniu hidrofil la capătul C terminal proemină în citoplasmă. Deoarece domeniile transmembranare fixează numeroase proteine în stratul dublu lipidic, proteinele membranare nu pot fi izolate și purificate biochimic fără a dizolva în prealabil stratul dublu lipidic cu detergenți.

Multe din proteinele transmembranare sunt glicoproteine, având atașat covalent la domeniul hidrofilic exterior un rest glucidic. Unele proteine membranare au multiple domenii transmembranare. Cercetarea secvenței de aminoacizi a acestor proteine relevă că domeniile hidrofile alternează cu domenii hidrofobe. Lanțul proteic în întregime, când este înglobat în membrana plasmatică, șerpuiește între cele două fețe ale membranei plasmatice (proteine membranare șerpuite). Un tip structural uzual întâlnit în numeroase proteine transmembranare șerpuite implică 7 domenii hidrofobe inserate în membrana plasmatică separate de regiunile hidrofile care se situează alternativ fie în citoplasmă, fie în spațiul extracelular [26].

Capitolul 4

Analiza proteinelor

Un obiectiv major al bioinformaticii este să determine funcția fiecărei gene din genom. Produsul genelor este reprezentat de proteine, cărămizile structurii fizice a organismelor vii dar și ale rețelei biochimice. Funcția unei proteine este determinată de conformația sa, incluzând structura suprafeței, situsurile de legare și cele active, proprietățile biochimice și biofizice ale aminoacizilor constituenți. Structura proteică este determinată de secvența aminoacizilor săi, la rândul ei derivată din transcripția și translația secvențelor codante ale ADN-ului, care este împachetată în configurația finală [21].

Izolarea și purificarea proteinelor

Există mai multe metode experimentale care pot fi folosite pentru analiza peptidelor și a moleculelor proteice mari:

1. Degradarea enzimatică. Un lanț peptidic poate fi clivat la o anumită legătură peptidică folosind peptidaze. Cea mai uzuală peptidază este tripsina, care desface lanțul polipeptidic din partea grupării carboxil al LYS sau ARG. Altă peptidază folosită este chimotripsina, care desface lanțul polipeptidic din partea grupării carboxil a oricărui aminoacid aromatic (TRP, TYR, PHE).

2. Electroforeza. Electroforeza are ca scop separarea proteinelor folosind acțiunea unui câmp electric în care proteinele migrează de la catod la anod. O altă procedură electroforetică este concentrarea izoelectrică, numită așa deoarece proteinele migrează până când ating neutralitatea electrică. Această metodă nu denaturează proteinele, putând fi utilizată pentru izolarea proteinelor active în forma lor nativă.

3. Degradarea Edman. Degradarea Edman este o reacție folosită pentru a determina secvența unui anumit peptid. Gruparea amino terminală a peptidului este tratată cu fenilizocianat, rezultând un complex. Sub acțiunea unui acid, aminoacidul terminal este îndepărtat prin desfacerea primei legături peptidice cu formarea unei feniltiohidantoine. Repetarea reacției permite identificarea fiecărui aminoacid din lanț prin izolarea feniltiohidantoinei corespunzătoare. Procedura este realizată rapid și eficient de un secvențializator automat. Peptidele pot fi sintetizate printr-un proces automat. Peptidele sunt construite pe un suport din polistiren sau alt suport solid într-un proces numit sinteză în fază solidă. Suportul reacționează cu gruparea terminală carboxil a unui aminoacid în care gruparea amino este blocată pentru a nu reacționa prematur. Odată ce aminoacidul este atașat, gruparea amino terminală este tratată cu un acid și se creează o legătură peptidică cu un al doilea aminoacid. Ciclul adăugării unui nou aminoacid este continuat până când se formează peptidul dorit, după care suportul de polistiren este îndepărtat.

4. Cromatografia prin schimburi ionice. Procedura separă proteinele pe baza încărcăturii lor electrice. Se folosesc două metode: schimbul de anioni și schimbul de cationi. În cromatografia prin schimb de anioni, o proteină este adusă pe o coloană de suporturi din polistiren care fixează un grup încărcat electric (dietilaminoetil). Încărcăturile electrice ale proteinei înlătură anionul și se leagă la suport. După spălarea coloanei, proteina este extrasă folosind alt ion negativ. De obicei se folosește clorura sodică într-o concentrație suficient de mare pentru a înlătura proteina. O coloană de schimb cationică funcționează la fel, cu excepția faptului că încărcătura suportului este negativă iar proteina se fixează prin radicalii încărcați pozitiv.

5. Cromatografia prin afinitate. Cromatografia prin afinitate este utilizată pentru a izola o anumită proteină dintr-o soluție. Gelul de agaroză reacționează cu un ligand ce prezintă afinitate față de proteina de interes, după care mixtura proteică este adăugată coloanei. Numai proteina care se leagă de ligand se va fixa la coloană. După spălarea coloanei de restul proteinelor, proteina de interes este extrasă folosind o sare.

6. ELISA. Tehnica ELISA depinde de reacția unei proteine predeterminate cu un anticorp specific pentru a forma un complex. Este o metodă foarte sensibilă, putând face distincția între două proteine care diferă doar printr-un aminoacid. Se introduce ser sau o probă de sânge într-o eprubetă ce conține un anticorp specific legat de un suport polimeric cu formarea complexului primar. Un al doilea anticorp, specific proteinei de interes dar legat de o enzimă este adăugat cu formarea unui complex legat la o enzimă activă. Enzima realizează conversia unui substrat nonfluorescent într-un produs fluorescent, care este mai apoi dozat. Cantitatea de proteină prezentă în soluție este direct proporțională cu intensitatea culorii. Tehnica este baza a numeroase teste diagnostice, inclusiv testul de sarcină în care se măsoară gonadotrofina corionică umană [20].

Determinarea structurii proteice (raze X, RMN)

Proiectele de secvențializare a genomului produc un număr mare de secvențe nucleotidice și acestea prin traducere generează un număr mare de secvențe de aminoacizi. Oricum, este dificilă predicția structurii unei proteine pornind de la secvența sa de aminoacizi când nu sunt cunoscuți omologi apropiați.

Din acest motiv, cercetătorii determină structurile proteice experimental prin difracție cu raze X (cunoscută ca și cristalografie cu raze X) sau prin spectroscopie cu rezonanță magnetică nucleară (RMN), ambele procedee foarte laborioase.

Ambele metode oferă informații cu pozițiile relative ale atomilor din moleculă (coordonate atomice).

Cristalografia cu raze X nu oferă pozițiile pentru atomii de hidrogen spre deosebire de RMN.

Produsul final al unei determinări structurale cristalografice îl reprezintă o hartă a densității electronilor, care este de fapt un contur punctat ce indică acele regiuni din cristal unde pot fi găsiți electronii din moleculă. Această hartă trebuie interpretată în sensul unui model atomic cu ajutorul unor proceduri de calcul semiautomate. Produsul final al unei determinări structurale prin RMN este de obicei un set de distanțe între nucleii atomilor care definesc atât legăturile atomice cât și contactele apropiate din interiorul moleculei. Interpretarea se face prin metode automate.

În primul rând, proteina trebuie cristalizată. Acesta este adesea un proces limitativ în determinarea structurii, în special în cazul proteinelor membranare. Apoi trebuie înregistrat modelul de difracție din cristal.

Spre deosebire de cristalografie, determinarea structurii prin RMN se face în soluții apoase, dar proteina trebuie să fie solubilă fără să agrege la concentrații apropiate de cele ale unei proteine în structură cristalină. Determinarea prin RMN necesită două tipuri de date. Primul tip este reprezentat de măsurarea rezonanței magnetice nucleare a protonilor, atomilor de carbon și azot marcați radioactiv din moleculă. Al doilea tip de date este reprezentat de distanțele internucleare deduse prin perturbarea rezonanței diferiților atomi și observarea rezonanței la care răspund; numai la atomii aflați la o distanță mai mică de 5 Ǻ unul de altul se observă acest efect, iar magnitudinea efectului variază cu distanța dintre atomi. Setul de distanțe internucleare aproximative este folosit apoi pentru construcția unui model structural consecvent datelor.

Spre deosebire de difracția cu raze X, care oferă o imagine statica (o medie în timp și spațiu) a structurii proteice, RMN are capacitatea de a măsura anumite proprietăți dinamice ale proteinelor în timp.

Ambele metode folosesc criterii statistice pentru aprecierea calității modelului atomic produs. În cristalografie se folosesc factorii R care reprezintă discordanța procentuală între tiparul observat la difracție și cel calculat din modelul final. Factorii R ≤ 20% sunt considerați indicatori ai unei structuri bine determinată, cu puține erori. În RMN se folosește deviația efectivă (RMSD root mean square deviation) între atomii din toate seturile de coordonate. În practică, valori ale RMSD de 0.7 Å sunt considerate bune, indicând o determinare structurală de înaltă precizie. Valori de 1 Å sunt considerate acceptabile [21].

Capitolul 5

Predicția structurii proteice

Deși există un număr mai mic de structuri decât secvențe cunoscute (aproximativ 100.000 secvențe dar numai 15.000 structuri), acestea sunt foarte dificil de analizat și vizualizat cu ajutorul computerului. Sunt în derulare planuri de a utiliza metode automate pentru a crește numărul structurilor determinate prin diferite inițiative structurale genomice. Astfel crește nevoia pentru unelte puternice și eficiente de analiză a structurii proteice. Bazele de date din biologia moleculară care au drept scop intuirea funcției din secvență pot fi clasificate în baze de date primare a secvențelor nucleotidice și proteice și baze de date primare structurale. Ambele tipuri de baze de date înregistrează o creștere exponențială. În completare sunt bazele de date derivate pentru proteine și ADN, de exemplu bazele de date cu secvențe și structuri secundare, care cuprind adnotări pe seama datelor primare și facilitează analiza datelor [36].

Cunoașterea structurii proteice este de un real ajutor analizei funcției și interacțiunilor proteice. Cel mai adesea, structurile proteinelor sunt determinate prin cristalografie cu raze X sau prin spectroscopie RMN. Oricum, ritmul determinării structurilor nu l-a ajuns pe cel al determinărilor de secvențe. Recent, metodele de predicție a structurilor proteice au devenit suficient de rapide și sigure astfel încât în anumite situații nu mai este nevoie de determinarea experimentală a structurii. Este foarte important ca aceste metode să fie folosite numai atunci când produc rezultate de încredere [33]. Structura proteinelor este importantă în numeroase domenii științifice și în cercetările aplicate pe proteine. De exemplu, anumite boli „conformaționale”, incluzând boala Alzheimer, boala vacii nebune, fibroza chistică, boala Parkinson și tipul 2 de diabet sunt determinate de tulburări în structura proteinelor. Metodele examinate sunt:

Modelarea comparativă

Recunoașterea modelului de împăturire (threading)

Predicția ab initio (de novo) [36].

Modelarea comparativă

Modelarea comparativă implică compararea unei proteine a cărei structură 3D nu este cunoscută cu una sau mai multe structuri proteice cunoscute, care sunt similare (omologe) proteinei cercetate. Progresele realizate în modelarea comparativă sunt testate la întâlnirile CASP [37] (Critical Assessment of techniques for protein Structure Prediction) bianuale.

Sunt urmate 3 etape:

Găsirea de omologi cu o structură 3D cunoscută (conținută în baza de date a structurilor proteice PDB).

Realizarea aliniamentului folosind una sau mai multe secvențe (în cazul aliniamentului cu mai multe secvențe este mai clară conservarea unui domeniu). Se face analiza aliniamentului.

Calcularea structurii și rafinarea modelului.

Pot fi folosite mai multe programe pentru modelarea comparativă. Câteva exemple includ serverele web SWISS-MODELLER, 3D-Jigsaw homology sau Mod Web.

Erorile într-un model constituit pe baza similarității secvenței cu o identitate > 90% pot fi comparabile cu cele din structurile determinate cristalografic. O identitate a secvențelor între 60 și 100% este comparabilă cu RMN sau o structură determinată prin raze X de rezoluție mică. Această identitate este suficientă pentru prezicerea legării. O identitate a secvențelor între 30 și 60% este folositoare pentru înlocuirea moleculară în determinarea cu raze X și studiile de mutageneză. Identitatea de 0 – 30% este suficientă pentru stabilirea funcției prin desemnarea împăturirii și determinarea situsurilor active prin căutarea unui domeniu proteic.

În prezent majoritatea protocoalelor de construcție a modelelor pornesc de la premiza că scheletul modelului este identic cu cel al structurii cunoscute. În realitate sunt întâlnite însă și deplasarea domeniilor precum și bascularea unor părți a moleculei.

La 14 noiembrie 2003 IBM a făcut publică existența unui supercomputer cu o viteză de 2 teraflops. Deși ocupă un volum de doar 1 m3, prototipul inițial la scară redusă a lui Blue Gene/L a fost catalogat ca lider mondial în domeniul supercomputerelor. Mașina integrală Blue Gene/L construită pentru Laboratorul National Lawrence Livermore din California va fi de 128 de ori mai mare. Când va fi gata în 2005, IBM se așteaptă să fie lider în lista Top500 a supercomputerelor. Acest supercomputer va fi folosit la simularea biomoleculară pentru studiul împăturirii proteinelor. Nivelul de performanță oferit de Blue Gene se așteaptă a oferi o creștere substanțială a vitezei de simulare comparativ cu supercomputerele existente. Aplicațiile simulărilor realizate cu acest supercomputer sunt interacțiunea medicament – proteină (legare), cataliza enzimatică, rafinarea structurii moleculare [36].

Stadiile procesului de modelare moleculară sunt:

Recunoașterea structurii ce va fi folosită ca model

Aliniamentul secvențelor și corectarea aliniamentului

Generarea scheletului moleculei

Generarea pe baza datelor a buclelor (loop)

Generarea lanțului și optimizarea

Construirea buclelor pe baza potențialelor energetice

Optimizarea modelului

Verificarea modelului și repetarea pașilor anteriori în cazul unui model incorect [9]

Figura 3: Etapele modelării comparative a proteinelor (Peer Mittl, Homology modelling and threading)

Sander și Schneider [29] au folosit structuri proteice cunoscute pentru a evalua compararea secvențelor. Pentru cuantificare, Schneider și Sander au stabilit că există o dependență a semnificației structurale a similarității secvenței în funcție de lungime. Ei au folosit descrierile cantitative ale relațiilor între similaritatea secvențelor, similaritatea structurilor și lungimea aliniamentelor din bazele de date. Definiția rezultată a pragului omologiei în funcție de secvență oferă o bază de încredere pentru deducerea structurii probabile a proteinelor globulare la nivel de domeniu sau fragment. Rezultatul studiului este reprezentat de ecuația HSSP conform căreia proteinele cu peste 80 aminoacizi și o identitate de 25% vor avea structuri similare, în timp ce aliniamentele mai scurte necesită o identitate mai mare.

Figura 4: Pragul similarității pentru aliniamente structurale de încredere în funcție de lungimea aliniamentului (Schneider și Sander) [29]

Dacă gradul de identitate între secvența de interes și o proteină cu structura cunoscută este suficient de mare (>25 sau 30%), pot fi folosite programe simple de căutare în bazele de date cum ar fi FASTA sau BLAST. Dacă gradul de identitate coboară sub 25%, detecția aliniamentului pentru secvența în cauză devine problematică și sunt necesare tehnici mai avansate. O astfel de tehnică este reprezentată de threading (filamentare) [36].

Identificarea modelului

Modelarea comparativă necesită cel puțin o secvență cu structura 3D cunoscută cu similaritate semnificativă pentru secvența țintă. Pentru a identifica o secvență similară se folosesc programele FASTA și BLAST [2] care interoghează baza de date Brookhaven Protein Data Bank (PDB). Programul DotPlot va arăta prezența unor regiuni repetitive în secvența țintă. Alegerea structurilor ce vor fi folosite ca model poate fi restricționată la cele care au o identitate a rezidurilor de cel puțin 30%, determinate de SIM (similaritate a secvențelor determinată statistic – statistically based sequence similarity; de exemplu PSI-BLAST). Se poate limita căutarea la acele proteine care au structura 3D cunoscută selectând „pdb”.

Procedura poate furniza mai multe modele potrivite pentru o secvența dată care vor fi folosite în procesul de modelare. Modelul structural cel mai bun – cel cu cea mai mare similaritate față de țintă – va servi ca referință. Celelalte modele furnizate vor fi suprapuse peste structură în 3D. Potrivirea 3D este dată de suprapunerea perechilor de atomi Cα corespondenți, selectați automat din aliniamentul local al secvenței cu scorul cel mai mare determinat de SIM. Aceasta suprapunere poate fi optimizată mai apoi mărind numărul perechilor de Cα în miez pe seama micșorării deviației efective (RMSD root mean square deviation). Fiecare reziduu al structurii de referință este apoi aliniat cu un reziduu din fiecare model structural disponibil dacă atomii Cα sunt la o distanță mai mică de 3 Å. Aceasta generează un aliniament secvențial multiplu corectat structural.

Aliniamentul se bazează pe premisa că două secvențe omologe derivate din aceeași secvență ancestrală va avea cel puțin câteva reziduuri identice în pozițiile corespunzătoare din secvență; dacă pozițiile corespunzătoare sunt aliniate, gradul potrivirii ar trebui să fie mai semnificativ din punct de vedere statistic față de orice alte secvențe neînrudite alese la întâmplare.

Pentru cuantificarea similarității, aliniamentului îi este atribuit un scor care reflectă gradul potrivirii. În cel mai simplu caz, când sunt numărate numai reziduurile identice, fracția aminoacizilor identici oferă o măsură a similarității de tipul identitate procentuală. Oricum, valoarea așteptată a identității procentuale poate fi trecută cu vederea. Cu siguranță, un aliniament cu lungimea de 200 aminoacizi având o identitate de 30% este mai semnificativ decât un aliniament cu lungimea de 50 de aminoacizi cu aceeași identitate procentuală. Chiar dacă utilizarea identității procentuale este extrem de intuitivă, acest instrument de evaluare al similarității este departe de a fi ideal. Când sunt comparate secvențele proteice pot fi folosite metode mai sofisticate pentru evaluarea similarității. Unii aminoacizi sunt asemănători prin proprietățile fizico-chimice, cu o probabilitate mai mare de a fi fost substituiți între ei pe parcursul evoluției. Cele mai multe programe folosite pentru aliniamentul secvenței atribuie fiecărei perechi de aminoacizi aliniată un scor bazat pe posibilitatea apariției potrivirii. Aceste scoruri se obțin de obicei din tabele de referință construite pe baza observării frecvenței substituțiilor particulare în seturi de proteine cunoscute ca fiind înrudite. Scorurile individuale pentru fiecare poziție sunt sumate pentru a obține un scor de similaritate global pentru aliniament.

În practică, inserțiile, delețiile și substituirile au survenit în secvențele omologe de-a lungul evoluției. Aceasta duce la 2 secvențe proteice de lungimi diferite în care regiunile similare sunt separate de regiuni diferite de lungimi inegale. În astfel de cazuri, porțiuni ale secvenței sunt mișcate una pe cealaltă când se realizează aliniamentul, pentru a crește numărul de aminoacizi identici sau similari. Asemenea alunecări creează spații într-una din secvențe. Experimental s-a observat că secvențele strâns înrudite nu diferă între ele printr-un număr mare de inserții sau deleții. Deoarece oricare 2 secvențe pot fi rupte la întâmplare rezultând un număr de spații dependent de maximalizarea identității, iar potrivirea nu ar mai avea semnificație biologică, spațiile sunt penalizate la realizarea scorului de similaritate.

Numeroși algoritmi au fost utilizați pentru alinierea secvențelor cu scopul de a crește potrivirea și a minimaliza spațiile. Cel mai puternic algoritm este Hidden Markov Model, un model statistic care consideră toate combinațiile posibile de potrivire, nepotrivire și spații pentru a genera „cel mai bun” aliniament pentru două sau mai multe secvențe. Utilizarea acestor modele furnizează un al treilea scor care se alătură identității procentuale și scorului de similaritate. Probabilitatea ca două secvențe să fie înrudite crește o dată cu scăderea acestui scor. Două secvențe virtual identice tind a avea scorul de probabilitate (în acest context valorile E) de 10-50 sau chiar mai mic. Când valoarea lui E dintr-o comparație a două secvențe e mai mare de 10-10, cele două secvențe pot fi înrudite și pot avea structuri similare, dar probabilitatea de a diferi funcțional crește notabil, în special la proteinele constituite din mai multe domenii [9, 19].

Alinierea secvenței țintă cu secvența modelului

Secvența țintă trebuie aliniată acum cu secvența matriței. Majoritatea metodelor de atribuire a modelului de împăturire produc un aliniament între secvența țintă și structurile matrițelor. Oricum, adesea acesta nu este un aliniament optim țintă – matriță pentru modelare. Metodele de căutare sunt orientate spre detecția relațiilor îndepărtate și nu pentru un aliniament optim. În consecință, după ce a fost selectat modelul, trebuie folosită o metodă adecvată pentru alinierea secvenței țintă cu structura model. În cazul secvențelor proteice înrudite cu o identitate >40%, aliniamentul este aproape întotdeauna corect. Regiunile de similaritate scăzută a secvenței devin obișnuite când identitatea secvențelor este <40%. Pe măsură ce similaritatea secvențelor scade, aliniamentele conțin un număr tot mai mare de spații și erori, indiferent dacă aliniamentul este realizat manual sau automat. De exemplu, se așteaptă ca numai 20% din reziduuri să fie corect aliniate în cazul a două proteine cu o similaritate a secvenței de 30%. Deoarece un aliniament incorect duce la o modelare comparativă eronată, este foarte important să se obțină cel mai acurat aliniament posibil. Sunt disponibile mai multe metode de aliniere a secvențelor proteice, majoritatea bazate pe tehnici de programare dinamică. Un program frecvent folosit este CLUSTAL [5]. În cazul unor aliniamente mai dificile, de o importanță deosebită este utilizarea structurilor multiple, aliniamentul cu potențialul model fiind precedat de suprapunerea structurilor. În continuare, secvențele care sunt clar înrudite cu modelele și sunt aliniate ușor cu ele sunt adăugate la aliniament. La fel se procedează și în cazul secvenței țintă. În final, cele două profile sunt aliniate împreună, luând cât mai mult în considerare informația structurală [9, 19].

Construirea modelului

Odată ce aliniamentul inițial țintă – model a fost construit, se trece la construcția modelului 3D al proteinei țintă. Cele mai folosite metode sunt (i) modelarea prin asamblare rigidă, (ii) modelarea prin potrivirea segmentelor, bazată pe pozițiile aproximate ale atomilor conservați din model, (iii) modelarea prin satisfacerea restrângerilor spațiale care folosește fie geometria distanței, fie tehnici de optimizare pentru a satisface restrângerile spațiale obținute în urma aliniamentului. Acuratețea diferitelor metode de construcție este relativ similară când sunt folosite optim. Alți factori, cum ar fi selectarea modelului și acuratețea aliniamentului, au de obicei un impact mai mare asupra modelelor cu o similaritate a secvențelor < 40% [9, 19].

1. Construcția matriței

Următorul pas este construcția unei matrițe, realizată prin medierea poziției fiecărui atom din secvența țintă, bazată pe locația atomilor corespondenți în model. Când sunt disponibile mai multe modele, contribuția relativă a fiecărei structuri este determinată de gradul local de asemănare cu secvența cercetată [9, 19].

2. Construcția buclelor neconservate

Deși majoritatea structurilor 3D disponibile nu au o asemănare generală cu modelul țintă, pot exista similarități în regiunile „buclă”, și acestea pot fi inserate în noul model proteic. Folosind un algoritm diferit se pot căuta fragmente în rezultatele oferite de PDB cu o rezoluție mai mare de 2.5 Å care să fie mai apoi adăugate matriței. Fiecare buclă este definită de lungime și „tulpină”, reprezentată de coordonatele atomilor de carbon alfa (Cα) din cele patru reziduuri care preced și urmează bucla. Fragmentele ce corespund definiției buclei sunt extrase din rezultatele oferite de PDB și respinse dacă deviația efectivă (RMSD) calculată pentru „tulpini” este mai mare decât o valoare prag. Mai mult, numai acele fragmente care nu se suprapun peste segmentele vecine vor fi luate în considerare. Fragmentele acceptate sunt sortate după RMSD, și o structură Cα bazată pe cele mai bune cinci fragmente poate fi adăugată matriței noului model. Pentru a asigura folosirea celor mai bune fragmente pentru reconstrucția buclei, pragul RMSD poate fi incrementat cu o valoare >0.2 Ǻ până sunt reconstruite toate buclele [9, 19].

3. Completarea scheletului

Deoarece construcția buclelor adaugă numai atomii Cα, radicalii -COOH și –NH2 trebuie adăugați în aceste regiuni. Acest pas e realizat prin folosirea unei biblioteci de fragmente pentapeptidice derivate din rezultatele PDB cu o rezoluție > 2.0 Ǻ. Aceste fragmente sunt apoi fixate astfel încât să se suprapună peste cei cinci atomi Cα ai modelului în construcție. Coordonatele pentru fiecare tripeptid central sunt apoi calculate pentru fiecare atom al coloanei (N, C, O) și adăugate. Acest proces realizează schelete modelate care diferă de coordonatele experimentale cu aproximativ 0.2 Ǻ rmsd [9, 19].

4. Adăugarea catenelor secundare

Pentru multe proteine nu există informații structurale în model referitoare la catenele secundare. Astfel, acestea nu pot fi construite în timpul generării matriței și trebuie adăugate mai târziu. Numărul catenelor secundare care trebuie adăugate este determinat de gradul de identitate între țintă și secvențele modelelor. Se utilizează un tabel cu cei mai probabili rotameri pentru fiecare ramificație a aminoacidului în funcție de conformația scheletului. Toți rotamerii acceptați ai reziduurilor care lipsesc din structură sunt analizați pentru a se încadra în testul de excludere van de Waals. Rotamerul cu cea mai bună încadrare este adăugat modelului. Atomii ce definesc unghiurile 81 și 82 ale catenelor secundare incomplete pot fi utilizați pentru a restrânge selecția rotamerilor la cei care se potrivesc cu aceste unghiuri. Dacă unele catene nu pot fi construite într-o primă încercare, ele vor fi considerate ca inițiale în a doua fază. Aceasta permite construcția unor catene secundare chiar dacă rotamerul cel mai probabil permis a se fixa la un reziduu vecin ocupă o parte a acestui spațiu. Aceste catene secundare se vor construi prin adăugarea unui rotamer mai puțin probabil dar permis. În situația când nu pot fi adăugate toate catenele secundare, în testul de excludere van der Waals poate fi introdusă o toleranță de 0.15 Ǻ și repetarea procedurii [9, 19].

5. Rafinarea modelului

Idealizarea geometriei legăturilor și înlăturarea contactelor fără legătură se pot realiza prin minimalizarea energiei cu „câmpuri de forță” de tipul CHARMM, AMBER sau GROMOS. Experiența a arătat în cazul modelelor optimizate că diminuarea energiei (sau dinamicii moleculare) îndepărtează modelul de o structură de control. Astfel e necesar să se mențină numărul de minimalizări a energiei la minim (<200 – 300). Forțarea poziției pentru atomii selectați (cum ar fi Cα) contribuie la evitarea deformării structurale excesive în timpul modelarii prin câmpuri de forță [9, 19].

6. Evaluarea modelului

Calitatea modelului prezis determină calitatea informației obținute prin analiza structurii 3D. Modelul poate fi evaluat ca întreg sau doar în anumite regiuni. Primul pas în evaluarea unui model este aprecierea unei împăturiri corecte. Modelul va avea o împăturire corectă dacă pentru modelare s-a ales un model bun și dacă s-a făcut un aliniament cât mai corect. Încrederea în tipul de împăturire a unui model este crescută de existența unei similarități a secvenței mare, un scor Z bazat pe energie sau de conservarea unor reziduuri structurale sau funcționale cheie în secvența țintă.

O dată ce tipul de împăturire a fost acceptat, o acuratețe mai mare a modelului poate fi obținută pe baza similarității dintre secvențele țintă și modele. Motivele sunt atât de bine cunoscutele relații între asemănările dintre structurile și secvențele a două proteine, natura geometrică a modelării care forțează ținta să fie cât mai asemănătoare modelului și imposibilitatea oricărei proceduri de modelare să recupereze un aliniament incorect.

Alături de similaritatea secvențelor între țintă și model, mediul poate influența acuratețea unui model. De exemplu, unele proteine fixatoare de calciu suferă modificări conformaționale importante când se leagă de acesta. Dacă este folosită ca model o proteină care nu fixează calciul pentru o țintă fixatoare de calciu, este probabil ca modelul construit să fie eronat. Aceste probleme apar și în cazul determinării experimentale a structurii proteice; o structură trebuie determinată într-un mediu semnificativ funcțional.

O cerință de bază pentru un model este ca acesta să aibă o stereochimie corectă. Câteva exemple de programe ce evaluează stereochimia sunt PROCHECK, ROCHECKNMR, AQUA, SQUID și WHATCHECK. Aceste programe verifică lungimea legăturilor, unghiurile, legăturile peptidice, unghiurile de torsiune ale catenei principale și ale ramificațiilor, precum și ciocnirile între perechile de atomi care nu sunt legate.

Există metode care testează modelele 3D care iau în considerare caracteristici spațiale obținute din structurile proteice de înaltă rezoluție. Aceste metode sunt bazate pe profile 3D și potențiale statistice ale forței medii: VERIFY3D, PROSAII, HARMONY și ANOLEA. Programele evaluează mediul fiecărui reziduu din modelul construit comparativ cu mediul așteptat oferit de structurile de înaltă rezoluție obținute prin cristalografie în raze X [9, 19].

Aplicații ale modelării comparative

Modelarea comparativă este o cale eficientă de a obține informații folositoare despre proteinele de interes. De exemplu, modelarea poate fi utilă în proiectarea de mutanți pentru a testa ipoteze privind funcția unei proteine, identificarea, proiectarea și îmbunătățirea liganzilor pentru un anume situs de legare, modelarea specificității de substrat, predicția epitopilor antigenici, simularea cuplării proteinelor, deducerea funcției dintr-un potențial electrostatic calculat în jurul proteinei, rafinarea modelelor bazate pe constrângerile RMN-ului, testarea și îmbunătățirea aliniamentului secvență – structură, confirmarea unei relații structurale îndepărtate și raționalizarea observațiilor experimentale cunoscute [9, 19].

Exemplu practic de predicție a structurii proteice

Considerăm următoarea secvență a unei proteine ipotetice (Protey) formată din 80 aminoacizi în format FASTA:

DSFSQVSDAVSSDRNFPNSTNLPRNPSMADYEIRIFTFGTWINSVNQEQYARADPYALGEGDKVQCNHCGGGLTDWKPSE

Formatul FASTA constă în reprezentarea fiecărui aminoacid din structura proteinei printr-un cod format dintr-un singur caracter. Codurile acceptate de programele BLAST sunt:

A alanină P prolină

B aspartat sau asparagină Q glutamină

C cysteină R arginină

D aspartat S serină

E glutamat T threonină

F fenilalanină U selenocisteină

G glicină V valină

H histidină W triptofan

I izoleucină Y tirozină

K lizină Z glutamat sau glutamină

L leucină X orice aminoacid

M methionină * oprirea translației

N asparagină – spațiu de lungime nedeterminată

Secvența va fi comparată cu ajutorul programului BLASTp cu alte secvențe proteice conținute în baza de date nr. (non-redundant), pentru găsirea secvențelor asemănătoare. Programele BLAST sunt setate standard pentru realizarea aliniamentului local, prin utililizarea spațiilor (gaps). Se setează valoarea așteptată E la 0.1. Valoarea E reprezintă numărul de ținte care se așteaptă a fi găsite întâmplător (zgomotul de fond) când se caută într-o bază de date de o anumită mărime.

Din reprezentarea grafică a aliniamentelor rezultă că sunt câteva secvențe cu scor mare care sunt foarte înrudite cu secvențe cercetată. Aceștia sunt probabil omologi cu secvența de interes și sunt reprezentați prin linii de culoare roz.

În continuare sunt listate secvențele cu aliniamente semnificative față de secvența cercetată. Aceste secvențe au valori ale lui E situate sub nivelul prag stabilit. Un scor mare, sau preferabil grupuri de scoruri mari indică o relație posibilă între secvențe. O valoare a lui E mică arată o probabilitate mică de a apare o potrivire întâmplătoare. Dintre aceste secvențe ne interesează cele care au structura tridimensională cunoscută (marcate cu „pdb”).

gi|15826317|pdb|1F9X|A Chain A, Average Nmr Solution Struc 139 2e-32

gi|13096716|pdb|1G3F|A Chain A, Nmr Structure Of A 9 Resid 137 5e-32

gi|13096729|pdb|1G73|C Chain C, Crystal Structure Of Smac B 136 1e-31

gi|29726782|pdb|1NW9|A Chain A, Structure Of Caspase-9 In 115 3e-25

Dedesubt sunt aliniamentele dintre fiecare secvență semnificativă și secvența de interes, în format pereche.

Aceste structuri proteice cunoscute vor fi folosite ca modele pentru construcția structurii tridimensionale a proteinei de interes.

Datele vor fi în continuare trimise unui server de modelare comparativă, de exemplu SWISS-MODEL [10] accesibil la adresa http://swissmodel.expasy.org/. Rezultatele sunt primite prin e-mail după procesare. Este construită o structură tridimensională a proteinei de interes pe baza structurilor 3D cunoscute ale proteinelor similare (cu o identitate a secvențelor mai mare de 30% determinată de SIM) și expediată pe adresa de e-mail a solicitantului ca atașament în format *.pbd. Acest fișier poate fi vizualizat cu ajutorul programului Deep View (Swiss Pdb Viewer) sau cu RasMol [28].

Programul Deep View permite afișarea și manipularea mai multor structuri simultan, de exemplu modelul și matricele suprapuse [34].

Figura 5: Imaginea tridimensională a proteinei cercetate Protey, vizualizată cu ajutorul programului Deep View (imagine renderizată).

Recunoașterea tipului de împăturire (threading)

Metoda se aplică în cazul secvențelor proteice cu o similaritate ≤ 30% față de structurile cunoscute. Termenul de „threading” (filetare) a fost introdus de David Jones (Jones et. al., 1992) iar metoda folosește o bază de date ce conține structuri tridimensionale cunoscute al căror model de împăturire este atribuit secvențelor care nu au structura 3 D cunoscută. Un program de calculator forțează secvența să adopte pe rând fiecare model de împăturire proteic cunoscut, și în fiecare caz este calculat un scor care măsoară potrivirea secvenței cu împăturirea respectivă. Funcția oferă o măsură cantitativă a potrivirii secvenței cu tipul de împăturire. Baza metodei este presupunerea că structurile tridimensionale ale proteinelor au caracteristici cel puțin semi-cantitativ predictibile, reflectate prin proprietățile fizico-chimice ale lanțurilor de aminoacizi din secvențe și prin limitările tipurilor de interacțiuni permise într-un lanț polipeptidic împăturit. Forțarea secvenței să adopte structuri secundare particulare cu plasarea reziduurilor hidrofobe în interior datorită interacțiunilor intraproteice și a reziduurilor ce constituie helixul în segmentele helicoidale generează un scor relativ mare.

Experiența în această metodă a arătat că un scor mare, ce indică o bună potrivire cu un anumit tip de împăturire, este credibil. Pe de altă parte, un scor mic indică faptul că nu a fost găsită nici o potrivire; nu indică neapărat că secvența nu poate adopta acel model de împăturire. Astfel, dacă metoda eșuează în găsirea unui model de împăturire cu un scor semnificativ, secvența rămâne în continuare necunoscută. În ciuda acestei limitări, metoda este puternică fiind capabilă să identifice modelul general de împăturire pentru numeroase secvențe. Nu poate oferi detalii fine asupra structurii deoarece la o similaritate atât de redusă cu modelul de referință, interacțiunile locale și conformațiile ramificațiilor catenei nu sunt neapărat la fel.

Pentru îmbunătățirea ratei de recunoaștere a împăturirilor pot fi aplicate diverse metode care introduc câteva constrângeri adiționale ale distanțelor. Constrângerile distanțelor între reziduurile proteice pot fi obținute experimental prin spectroscopie RMN. Astfel se poate adăuga un câștig de aproximativ 10% față de rata de recunoaștere inițială [18, 36].

Figura 6: structura tridimensională determinată prin „threading” a proteinei 2cnd (Nadh-Dependent Nitrate Reductase)

Predicția structurii proteice ab initio

Această metodă se aplică în cazul în care nu există similarități între secvența proteică de interes și vreo structură 3D cunoscută. Prezicerea structurii proteinei se face pe baza principiilor energetice și statistice.

Ideal, există dorința de a fi capabil să calculezi structura corectă pentru orice proteină doar din informațiile oferite de secvență, chiar în lipsa omologiei. Periodic aceste metode sunt testate pe proteine cu structură cunoscută dar nepublicată într-o competiție formală numită CASP [37]. Probabil cea mai promițătoare metodă actuală este Rosetta. Una dintre supozițiile pe care se bazează această metodă este aceea că distribuția conformațiilor probate pentru un anumit segment scurt din secvență este rezonabil aproximat cu distribuția structurilor adoptate de acea secvență și secvențele strâns înrudite în structurile proteice cunoscute. Bibliotecile cu fragmente scurte sunt extrase din baze de date structurale proteice. Conformația spațială aparținând acestor fragmente este căutată apoi folosind procedura Monte Carlo cu o funcție energetică care selectează structurile compacte cu reziduurile hidrofobe în interior. Pentru fiecare secvență cercetată sunt efectuate 1000 simulări independente iar structurile rezultate sunt grupate. O metodă de selecție constă în alegerea centrelor celor mai mari grupuri ca modele de încredere maximă. Apoi aceste centre sunt ierarhizate după mărimea grupurilor pe care le reprezintă, centrele grupurilor cele mai mari fiind apreciate ca modele de încredere maximă. Înainte de aplicarea acestei metode, majoritatea structurilor produse de Rosetta sunt incorecte (structurile corecte reprezintă mai puțin de 10%); din aceasta cauză, multe din conformațiile generate cu Rosetta sunt considerate „momeli”. Problema discriminării între structurile corecte și „momelile” din rezultatele oferite de Rosetta este încă investigată. Totuși, în unele teste, cel mai bun centru al grupului prezintă o potrivire bună cu modelul de împăturire al unei proteine.

Atât metoda Rosetta cât și metoda de recunoaștere a împăturirii suferă de unele limitări comune care îngreunează și modelarea comparativă. Problema cazurilor fals pozitive și fals negative este semnificativă deoarece eșecul de a genera un model nu înseamnă că acesta nu poate fi generat, nici că structura este neobișnuită. La fel, generarea unui model nu înseamnă neapărat că este și corect, fie în ansamblu sau mai frecvent în detaliu. Momentan aceste metode pot fi folosite pentru a indica tipul de împăturire și topologia structurii secundare. Mai este important de menționat că toate metodele de construcție a modelelor pe baza unei structuri preexistente, găsită fie prin căutarea secvențelor similare, fie prin căutarea modelului de împăturire, suferă de reacție inversă și confuzie. Structurile obținute vor fi asemănătoare cu structura de bază, deoarece instrumentele de calcul pentru rafinarea modelului sunt incapabile să genereze în structura secundară și conformația structurală terțiară tipurile de modificări probabile între două proteine atunci când identitatea globală a secvențelor este mică. Metodele ab initio de tipul Rosetta nu suferă din această cauză, dar au alte limitări [21].

Figura 7: Comparație între structura determinată experimental și cea obținută prin predicție ab initio a proteinei T087-PPase

Predicția structurii secundare

Predicția structurii secundare poate ajuta la înțelegerea funcției proteice fără a determina structura tridimensională a proteinei. Aproape toate metodele de predicție a structurilor sunt bazate pe tendința reziduurilor de aminoacizi să formeze catene β sau helixuri. Aceste tendințe au derivat din studii ale conformației peptidelor mici în soluții sau din analiza statistică a apariției anumitor reziduuri in diferitele tipuri de structuri secundare ale structurilor cunoscute. Metodele prezic numai 3-4 structuri secundare diferite, mai puține decât sunt întâlnite în structurile proteice.

Metoda Chou Fasman 1 (1974)

Chou și Fasman au propus o metodă statistică bazată pe tendința aminoacizilor de a adopta structura secundară bazată pe observarea localizării în 15 structuri proteice determinate prin difracție cu raze X. Aceste statistici derivă din proprietățile particulare stereochimice și fizicochimice ale aminoacizilor. Rafinarea statisticilor s-a făcut utilizând un lot mai mare de proteine. Din aceste structuri ei au calculat probabilitatea pentru fiecare reziduu de a adopta un anumit tip de structură secundară. Aminoacizii au fost grupați apoi în clase în funcție de tipul structurii secundare care poate fi adoptat.

Metoda Chou Fastman 2 (1978)

O dată cu disponibilitatea unui număr mai mare de structuri, a fost posibilă calcularea mai precisă a probabilității pentru adoptarea structurii secundare a diferiților aminoacizi. Chou și Fastman au introdus valorile Pij în 1978. Valorile descriu probabilitatea de a găsi un anumit aminoacid într-un tip de structură secundară.

Nume P(H) P(E) P(turn) f(i) f(i+1) f(i+2) f(i+3)

Alanine 142 83 66 0.06 0.076 0.035 0.058

Arginine 98 93 95 0.070 0.106 0.099 0.085

Aspartic Acid 101 54 146 0.147 0.110 0.179 0.081

Asparagine 67 89 156 0.161 0.083 0.191 0.091

Cysteine 70 119 119 0.149 0.050 0.117 0.128

Glutamic Acid 151 037 74 0.056 0.060 0.077 0.064

Glutamine 111 110 98 0.074 0.098 0.037 0.098

Glycine 57 75 156 0.102 0.085 0.190 0.152

Histidine 100 87 95 0.140 0.047 0.093 0.054

Isoleucine 108 160 47 0.043 0.034 0.013 0.056

Leucine 121 130 59 0.061 0.025 0.036 0.070

Lysine 114 74 101 0.055 0.115 0.072 0.095

Methionine 145 105 60 0.068 0.082 0.014 0.055

Phenylalanine 113 138 60 0.059 0.041 0.065 0.065

Proline 57 55 152 0.102 0.301 0.034 0.068

Serine 77 75 143 0.120 0.139 0.125 0.106

Threonine 83 119 96 0.086 0.108 0.065 0.079

Tryptophan 108 137 96 0.077 0.013 0.064 0.167

Tyrosine 69 147 114 0.082 0.065 0.114 0.125

Valine 106 170 50 0.062 0.048 0.028 0.053

Algoritmul prezintă câțiva pași simplii:

Se atribuie tuturor reziduurilor din peptid setul de parametrii corespunzător.

Se cercetează peptidul pentru identificarea regiunilor unde 4 din 6 reziduuri învecinate au P (alfa-helix) > 100. Regiunea respectivă este declarată helix. Se extinde regiunea în ambele direcții până când sunt întâlnite 4 reziduuri învecinate cu media P (alfa-helix) < 100. Aceste regiuni sunt considerate capetele helixului. Un segment mai lung de 5 reziduuri cu P (alfa-helix) > P (beta-sheet) poate fi considerat helix.

Repetarea procedurii pentru a localiza toate regiunile helicoidale în secvență.

Identificarea regiunilor de beta-sheet

Orice regiune cu apartenență atât la alfa helix cât și la beta-sheet este considerată helicoidală dacă media P (alfa-helix) > P (beta-sheet), și beta-sheet în cazul invers.

Pentru identificarea unei ramificații a reziduului se calculează valoarea p(t) = f(j)f(j+1)f(j+2)f(j+3)

Metoda are o acuratețe de aproximativ 60%.

Metoda „celui mai apropiat vecin”

Metoda mai este denumită și metoda omologiei. Constă în găsirea unui număr de secvențe apropiate (dintr-o bază de date de structuri proteice cunoscute) unei subsecvențe definită printr-o fereastră în jurul aminoacidului de interes. Folosind structurile secundare cunoscute ale secvențelor aliniate este realizată predicția structurii.

PhD și epoca modernă a predicției structurii secundare

Din 1993 au fost dezvoltate metode care arătau rezultate semnificativ mai bune decât metodele anterioare. Îmbunătățirea provenea din folosirea secvențelor aliniate multiplu pentru predicție.

Primul program care utiliza informația evoluționistă a fost PhD, bazat pe o rețea neuronală în două straturi. Acuratețea acesteia pe aliniamentul secvențelor omologe a fost peste 70%. În rețeaua neuronală, aliniamentul secvențelor omologe a structurilor cunoscute sunt folosite pentru „antrenarea” rețelei, care poate fi folosită mai apoi pentru prezicerea structurii secundare a aliniamentului secvențelor proteinelor necunoscute.

Rețeaua neuronală funcționează în felul următor:

Informația despre omologi: este efectuată în primul rând detecția proteinelor înrudite folosind BLAST.

Aliniamentul multiplu de secvențe: proteinele omologe identificate sunt aliniate (folosind MaxHom). Frecvențele diferiților aminoacizi (și spațiilor) în fiecare poziție sunt folosite pentru predicție.

Rețeaua secvență-structură: în prima etapă, apariția diferitelor reziduuri într-o fereastră de 13 aminoacizi este corelată cu structura secundară a reziduului central.

Rețeaua structură-structură: în a doua etapă (stratul structură-structură), rezultatul primei etape este folosit pentru a prezice structura secundară a reziduului central. În acest caz, rețeaua va fi antrenată să nu prezică segmente scurte de structură secundară fără motiv.

Decizia: în final câteva rețele (3-12 în funcție de versiunea PhD) sunt combinate într-o rețea de predicție. Aceasta aduce o îmbunătățire a predicției de 2%.

Filtrarea: Este aplicată o metodă simplă de filtrare, fără obținerea unei modificări a performanței.

Acuratețea globală a metodei este de 70,8%.

Predicția structurii proteinelor membranare

Se cunosc foarte puține lucruri despre structura proteinelor membranare deoarece determinarea structurii lor experimentale este foarte dificilă. În prezent se cunosc aproximativ 15.000 structuri proteice din care structurile proteice membranare reprezintă o fracțiune mică. Datorită dificultăților de cristalizare a proteinelor membranare, în baza de date structurală se adaugă în fiecare an aproximativ o structură a unei proteine membranare. Din această cauză se impune dezvoltarea unor metode de predicție a structurilor proteice.

Predicția topologiei pornește de la două observații de bază: (i) helixurile transmembranare au 20-30 aminoacizi și sunt hidrofobe, și (ii) buclele scurte netranslocate conțin multe reziduuri încărcate pozitiv în timp ce buclele scurte translocate conțin un număr mic de astfel de reziduuri. Observația (i) este baza identificării segmentelor transmembranare din punctele hidrofobe (Kyle și Doolitle, 1992), iar observația (ii) permite predicția orientării proteinei în membrană și chiar alegerea topologiei optime când identificarea segmentelor transmembranare din punctele hidrofobe este nesigură (von Heijne, 1992).

Cea mai bună metodă curentă susține că >90% din segmentele transmembranare pot fi identificate corect și întreaga topologie este prezisă corect pentru >80% din totalul proteinelor (von Heijne, 1992; Claros și von Heijne, 1994; Persson și Argos, 1996; Rost et al., 1996). Predicția topologiei proteinelor membranare este îmbunătățită când proteinele pot fi aliniate cu secvența unei proteine cu structura cunoscută (Welte et al., 1991). Dacă nu este posibil să fie realizat un aliniament, se pot căuta porțini scurte de lanț în care fiecare al doilea reziduu este hidrofob, unde potențialul de variație este scăzut, și care se termină cu reziduuri aromatice (Schirmer și Cowan, 1993), deși această strategie funcționează doar dacă se știe ce porțiune a proteinei formează §-barrel (Nakai și Kanehisa, 1991).

MEMSAT (MEMbrane protein Structure and Topology) este un program care prezice structura secundară și topologia proteinelor membranare formate integral din helixuri, bazat pe recunoașterea modelelor topologice. Metoda folosește un set de tabele statistice compilate din datele proteinelor membranare, și un nou algoritm de programare dinamică pentru recunoașterea modelelor de topologie membranară prin minimalizarea probabilității. Tabelele statistice arată preferințe clare pentru anumite specii de aminoacizi în interiorul, mijlocul sau exteriorul membranei celulare [15].

PhdHTM este o metodă în care helixurile transmembranare din proteinele membranare sunt prezise folosind un sistem de rețele neurale. Neajunsul rețelei neurale este acela că adesea sunt prezise helixuri prea lungi. Acestea sunt scurtate cu ajutorul unui filtru. Predicția finală (Rost et al., Protein Science, 1995, 4, 521-533) are o acuratețe așteptată de aproximativ 95%. Numărul falșilor pozitivi, de exemplu helixuri transmembranare prezise în proteinele globulare, este de aproximativ 2% (Rost et al., 1996). Predicția realizată cu rețele neurale este apoi rafinată folosind un algoritm asemănător programării dinamice. Folosirea acestei metode a dus la predicția corectă a helixurilor transmembranare pentru 89% din cele 131 proteine folosite în test; peste 99% din helixurile transmembranare au fost prezise corect. Produsul acestei metode este folosit pentru predicția topologiei, de exemplu orientarea capătului N terminal în raport cu membrana. Acuratețea așteptată a predicției topologiei este peste 86%.

De o importanță deosebită este predicția structurii tridimensionale ab initio. Au fost încercate două metode: simularea minimalizării energiei pornind de la un număr mare de conformații generate sistematic (Treutlein et al., 1992) sau predicția inițială a fețelor helixurilor cel mai probabil expuse lipidic sau înglobate în membrană (Baldwin, 1993), urmat de un algoritm de împachetare (Taylor et al., 1994).

Capitolul 6

Analiza structurii proteice

Similaritatea structurală este insuficientă pentru a determina dacă două proteine sunt omologe, deoarece ele ar fi putut evolua convergent către aceeași structură. Este necesară o inspecție vizuală a structurilor și să se facă o apreciere clară dacă similaritatea este un indicator al originii comune.

Abilitatea de a vizualiza, analiza și prezice structurile macromoleculare este de o importanță fundamentală în înțelegerea legării proteinelor și a interacțiunilor, stabilității și funcției. Simpla vizualizare a structurilor proteice poate elucida contactele și interacțiunile intra- și intermoleculare, accesibilitatea solventului sau cuplarea proteină – ligand. Examinarea suprafeței moleculare oferă detalii despre suprafețele încărcate electric, polare sau hidrofobe și contribuie la înțelegerea legăturilor și a stabilității.

O structură tridimensională a unei proteine conține de regulă informații despre funcțiile biochimice (ex: situsuri de legare, activitatea catalitică) și interacțiunile dintre proteină și alte molecule: proteine, ADN sau ARN, liganzi.

Identificarea și vizualizarea cavităților (situsurile de fixare ale liganzilor) este punctul de plecare în numeroase proiecte de design al medicamentelor bazat pe structura proteică. Mărimea și forma unei cavități proteice determină geometria tridimensională a liganzilor care se pot fixa la proteină pe principiul cheie-broască.

Determinarea și vizualizarea acestor macromolecule sunt etape critice în proiectarea medicamentelor. Designul medicamentelor implică tehnici care aduc laolaltă cunoștințe din biologia structurală, biologia moleculară, proprietățile biochimice și biofizice ale macromoleculelor, cât și a moleculele mici de tipul liganzilor.

Analiza structurii proteice include metodele:

Gruparea automată a structurilor și compararea lor

Determinarea domeniilor

Validarea structurii [36].

Clasificarea proteinelor

SCOP: Clasificarea structurală a proteinelor

Aproape toate proteinele au asemănări structurale între ele, iar în unele cazuri au origine comună. Cunoașterea acestor relații este crucială înțelegerii evoluției proteinelor și analizei datelor produse de proiectele genomice mondiale.

Baza de date SCOP [8] (structural classification of proteins) dorește să ofere o descriere detaliată și cuprinzătoare a relațiilor structurale și evolutive între toate proteinele cu structură cunoscută, cuprinzând toate intrările din baza de date a proteinelor (PDB). Baza SCOP este disponibilă ca un set de documente legate care fac baza de date accesibilă. În plus, paginile oferă reprezentări variate ale proteinelor, inclusiv intrări în PDB, secvențe, referințe, imagini și sisteme de afișare interactive. Intrarea în baza de date se face la adresa http://scop.mrc-lmb.cam.ac.uk/scop/ .

Instrumentele automate de comparare a secvențelor și structurilor nu pot identifica toate relațiile structurale și evolutive dintre proteine. Clasificarea SCOP a fost construită manual prin inspecție vizuală și compararea structurilor. Proiectul este făcut mai provocator și mai descurajant prin faptul că entitățile organizate nu sunt omogene: uneori este mai simplă organizarea după domenii individuale, alteori după proteine cu mai multe domenii.

Proteinele sunt clasificate pentru a reflecta atât relațiile structurale cât și pe cele evolutive. Principalele nivele de clasificare sunt familia, superfamilia și împachetarea. Demarcarea între aceste nivele este oarecum subiectivă. Clasificarea evoluționistă este în general conservativă: unde există vreun dubiu privind relația, se fac noi diviziuni la nivel de familie și superfamilie. Astfel, cercetătorii se pot concentra pe nivelele mai înalte ale schemei de clasificare, unde proteinele cu similaritate structurală sunt grupate.

Familia

Proteinele grupate în familii sunt înrudite evolutiv. În general, aceasta înseamnă că identitatea reziduurilor este ≥ 30%. În unele cazuri, structurile și funcțiile asemănătoare sunt date sigure privind înrudirea în absența unei identități crescute a secvențelor; de exemplu, multe globine formează o familie deși unii membrii au o identitate a secvențelor de numai 15%.

Superfamilia

Proteinele cu identitate scăzută a secvențelor, dar a căror caracteristici structurale și funcționale sugerează probabilitatea unei origini comune sunt grupate în superfamilii. De exemplu, actina, domeniul ATP-azic al proteinei de șoc termic și hexokinaza formează o superfamilie.

Împăturirea

Proteinele au un model de împăturire asemănător dacă au structurile secundare în același aranjament și cu aceleași conexiuni topologice. Diferite proteine care au același tip de împăturire au adesea elemente periferice în structura secundară și regiuni curbate care diferă în dimensiune și conformație. Uneori, aceste regiuni periferice pot cuprinde jumătate din structură. Proteinele grupate în aceeași categorie de împăturire pot să nu aibă origine comună: similaritățile structurale pot fi consecința caracteristicilor fizice și chimice ale proteinelor care favorizează anumite aranjamente de împachetare .

Tabel 1: 9912 intrări din PDB au fost clasificate în 22140 domenii (fără acizii nucleici și modelele teoretice). Murzin A. G., Brenner S. E., Hubbard T., Chothia C. (1995). SCOP: a structural classification of proteins database for the investigation of sequences and structures. J. Mol. Biol. 247, 536-540.

CATH: Clasificarea structurilor proteice

CATH [8] este o clasificare ierarhică a domeniilor structurale proteice, care grupează proteinele în patru nivele majore: clasă (C), arhitectură (A), topologie (T) și superfamilie de omologi (H). Clasa, derivată din conținutul structurii secundare, este stabilită pentru ≥ 90% din structurile proteice automat. Arhitectura, care descrie orientarea brută a structurilor secundare, independent de conexiuni, este atribuită manual. Topologia grupează structurile în conformitate cu conexiunile topologice și numărul structurilor secundare. Superfamilia de omologi cuprinde proteinele cu similaritate structurală și funcțională mare. Repartizarea structurilor în familii topologice și superfamilii de omologi se realizează prin compararea secvențelor și structurilor. Baza de date CATH poate fi accesată la adresa web http://www.biochem.ucl.ac.uk /bsm/cath/index.html.

Domeniile sunt regiuni ale unor lanțuri polipeptidice adiacente care au fost descrise ca unități compacte, locale și semi-independente (Richardson, 1981). Domeniul poate conține unități globulare independente unite printr-un lanț polipeptidic de lungime variabilă sau unități cu o interfață foarte vastă.

CATH este o clasificare a domeniilor proteice. Fiecare structură proteică din PDB a fost secționată în domeniile constituente și fiecare clasificată separat. Desemnarea definițiilor domeniului s-a făcut printr-o procedură consens (DBS, Jones et al, 1996), bazată pe trei algoritmi independenți de recunoaștere a domeniilor (DETECTIVE, Swindells, 1995; PUU, Holm & Sander, 1994; DOMAK, Siddiqui și Barton, 1995). Această procedură permite ca aproximativ 53% din proteine să fie definite automat ca proteine cu unul sau mai multe domenii. Structurile rămase sunt definite manual .

Tabel 2: Versiunea 1.6 a bazei CATH cuprinde 7703 intrări din PDB (13103 lanțuri și 18557 domenii). Orengo, C.A., Michie, A.D., Jones, S., Jones, D.T., Swindells, M.B., and Thornton, J.M. (1997) CATH- A Hierarchic Classification of Protein Domain Structures. Structure. Vol 5. No 8. p.1093-1108

Vizualizarea structurii proteice

Pentru vizualizarea structurilor proteice sunt disponibile numeroase programe: RasMol http://www.umass.edu/microbio/rasmol/rasquick.htm

Swiss-Viewer http://expasy.cbr.nrc.ca/spdbv/

CHIME http://www.umass.edu/microbio/chime/index.html

MAGE http://kinemage.biochem.duke.edu/default.html

Cn3D http://www.ncbi.nlm. nih.gov/Structure/CN3D/cn3d.html

WebMol http://www.embl-heidelberg.de/cgi/viewer.pl

RasMol [28] este un program de grafică moleculară destinat vizualizării proteinelor, acizilor nucleici și moleculelor mici. Programul rulează pe PC, Mac, Unix , Vax și NextStep. Programul citește coordonatele moleculei dintr-un fișier și afișează molecula pe ecran într-o varietate de culori și reprezentări moleculare. Prezintă opțiunea de scripting care permite redarea moleculei în formă particularizată.

Swiss-Pdb Viewer [10] este o aplicație care oferă o interfață facilă permițând analiza simultană a mai multor proteine. Proteinele pot fi suprapuse pentru a determina aliniamentele structurale și situsurile active sau orice alte părți relevante care pot fi comparate. Mutațiile aminoacizilor, legăturile H, unghiurile și distanțele dintre atomi sunt ușor de obținut cu ajutorul interfeței grafice și meniului intuitiv. Programul este în legătură strânsă cu Swiss-Model, un server automat de modelare comparativă dezvoltat la Glaxo Welcome Experimental Research din Geneva. Folosirea celor două programe ușurează procesul de generare a modelelor, fiind posibilă împăturirea unei secvențe proteice într-un model 3D și obținerea imediată a rezultatului comparării cu structura de referință, înainte de a construi buclele lipsă și de a rafina împachetarea lanțurilor secundare. Programul permite citirea hărților de densitate electronică. În plus, are integrate numeroase instrumente de modelare și pot fi generate pachete de minimalizare a energiei [34].

Compararea structurilor proteice

Pentru studiul relațiilor dintre secvență, structură și funcție, precum și pentru înțelegerea posibilelor relații evolutive este foarte importantă înțelegerea similarităților și diferențelor dintre structurile proteinelor. În acest scop, biologii au depus eforturi intense pentru a clasifica sistematic toate structurile proteice cunoscute, și au fost create baze de date de tipul SCOP [8] și CATH [8]. Asemenea baze de date pot fi create cu ajutorul unor metode automate de comparare a structurilor, care clasifică structurile nou descoperite pe baza similarităților cu structurile deja clasificate. Creșterea rapidă în dimensiuni a bazelor de date structurale implică o nevoie crescută de acuratețe și rapiditate a tehnicilor comparative. Aceasta a condus la necesitatea folosirii metodelor computaționale de comparare a structurilor și a algoritmilor de căutare în bazele de date structurale.

Ipoteza problemei aliniamentului structural constă în existența a două structuri proteice tridimensionale. Rezolvarea dorită a problemei este o pereche de substructuri maximale, una din fiecare proteină, care relevă cel mai înalt grad de similaritate. Acesta este reprezentat de analogul structural din problema aliniamentului secvențelor. Un aliniament secvențial al celor două substructuri generează o secvență de perechi de atomi (prin corespondență). Există două căi principale de cuantificare a similarității. Există posibilitatea de a compara distanțele interne dintre perechile de atomi corespondente ale celor două proteine. Alternativ, distanța euclidiană dintre atomii corespondenți poate fi utilizată ca bază a comparării. Pentru aceasta este necesară determinarea suprapunerii rigide care poziționează optim cele două structuri una în raport cu cealaltă. Două domenii structurale proteice pot fi aliniate prin suprapunerea coordonatelor 3D prin micșorarea deviației efective (RMSD) a suprapunerii structurale. Pentru îndeplinirea operației au fost dezvoltați numeroși algoritmi. Tehnica este complexă deoarece există un număr mare de grade de libertate între cele două seturi de date în 3D (fiecare proteină are 6 grade de libertate, 3 translaționale și 3 rotaționale).

Un tip important de abordare a comparării structurilor proteice este bazat pe simplificarea reprezentării moleculelor proteice complexe folosind structura secundară. Elementele structurii secundare pot fi reprezentate aproximativ ca vectori sau aliniate în perechi. Extracția topologică a structurilor proteice consideră o secvență de elemente ale structurii secundare, de exemplu helixuri, împreună cu relațiile din interiorul modelului împăturit și orientarea aproximativă, eliminând detalii de tipul lungimii secvenței și a buclelor. Această formă simplificată permite implementarea unor algoritmi foarte rapizi. Desenele TOPS sunt extracții schematice pseudo-2D, unde a treia dimensiune este prezentă, din moment ce secvența de elemente ale structurii secundare are o direcție aproximativă în sus sau în jos (după cum sunt desenate liniile ce conectează simbolurile). Catenele adiacente sunt conectate prin legături H de tip paralel sau antiparalel. Chiralitățile dintre catenele paralele sunt implicite. Informația topologică în legătură cu ordinea secvențială și poziția spațială relativă este mai ușor de dedus din desenul TOPS decât din structura tridimensională [24].

Figura 8: structura 1stm (Satellite panicum mosaic virus) vizualizată cu Rasmol și TOPS.

Programarea dinamică poate fi folosită pentru identificarea regiunilor de similaritate locală care sunt mai apoi extinse. Similaritatea secvențelor proteice poate fi utilizată pentru optimizarea aliniamentului structural.

Orengo și Taylor (1993) au dezvoltat o metodă de aliniament local al structurilor folosind un algoritm dublu de programare dinamică. În această metodă, un reziduu proteic este reprezentat printr-un set de vectori care pornesc de la Cα al reziduului la Cα din alte reziduuri. Setul este aranjat în conformitate cu poziția în structura primară a reziduului destinație, numit mediu structural. Mediul structural al unui reziduu este considerat a exprima poziția relativă a reziduului în structură. În consecință, similaritatea dintre o pereche de reziduuri în mediile structurale indică gradul echivalenței structurale dintre reziduurile din diferite structuri. Mediul structural al unui reziduu poate fi privit ca dată secvențială. Scorul aliniamentului dintre două medii structurale este considerat a reprezenta similaritatea dintre cele două medii și poate fi obținut prin aplicarea algoritmului de programare dinamică. Când este efectuat scorul aliniamentului dintre fiecare pereche de medii structurale, corespondența reziduu-reziduu dintre două structuri proteice poate fi realizată prin programare dinamică, folosind scorul aliniamentului dintre o pereche de medii structurale ca similaritatea dintre perechea de reziduuri corespondente. Ulterior, Taylor și Orengo au extins metoda spre aliniamentul structural local, căutarea în baza de date structurală și aliniamentul structural multiplu.

Pentru realizarea aliniamentului structural sunt disponibile numeroase unelte: VMD, SSM, CE, Dali, Deep View, MASS (Multiple Alignment by Secondary Structures).

Aliniamentul structural poate fi utilizat pentru descoperirea omologilor îndepărtați sau a domeniilor proteice evoluate. Este un instrument important folosit în biologia structurală și genomica structurală [25].

Relația dintre structură și interacțiunea proteinelor

Este important de știut dacă și când proteinele de același tip (de exemplu familie, superfamilie sau același tip de împăturire) interacționează în același fel. S-au căutat în clasificarea structurală a bazelor de date proteice domeniile pereche ce interacționează în diferite complexe, după care au fost comparate folosind o măsură simplă (RMSD). Când s-a făcut compararea cu similaritatea secvențelor, s-a observat că omologii apropiați (identitate a secvențelor >30-40%) interacționează aproape invariabil în același fel. Dimpotrivă, o similaritate doar a modelului de împăturire (fără dovezi adiționale de origine comună) este rar asociată cu o similaritate în interacțiune. Rezultatele sugerează că există un nivel de similaritate a secvenței unde nu este posibilă precizarea modului în care vor interacționa domeniile [1].

De la structură la funcție

Pentru ca un polipeptid să funcționeze ca proteină, el trebuie să fie capabil să formeze o structură terțiară stabilă (sau împăturire) în anumite condiții fiziologice. Pentru a-și îndeplini funcția, proteina împăturită nu trebuie să fie prea rigidă. Probabil datorită acestor constrângeri, numărul de modele de împăturire adoptate de proteine, deși este mare, totuși este limitat. În era genomicii, funcția va fi derivată într-un mod parțial empiric din numeroase tehnici combinate, amplificate de analiza comparativă a secvențelor genomului și recunoașterea temelor atât din structura primară cât și din cea terțiară.

Omologia presupune că de-a lungul evoluției se poate păstra o relație între funcție și secvență sau structură (adevărat pentru ortologi, nu și pentru paralogi sau evoluție paralelă). Astfel, metoda necesită găsirea unei proteine cu funcție cunoscută, care are o asemănare a secvenței sau structurii destul de apropiată de cea a proteinei țintă, iar apoi deducerea unei similarități a funcției. Structura s-a conservat mai bine decât secvența de-a lungul evoluției, și o etapă importantă este determinarea relațiilor funcționale la un grad de similaritate a secvențelor <30%. În cazul unei similarități a secvențelor <10% nu poate fi folosită decât informația structurală. În astfel de cazuri, se folosesc tehnici de aliniament al structurilor [36].

Proteinele cu greutate moleculară mai mică de 20.000 au adesea formă globulară, cu un diametru mediu al moleculei de 20-30Å, dar proteinele mai mari se împăturesc în două sau mai multe globule independente, sau domenii structurale. Domeniul este o regiune compactă a structurii proteice, format adesea dar nu întotdeauna dintr-o secvență continuă de aminoacizi, capabil să adopte un model de împăturire suficient de stabil pentru a exista în soluții apoase. Domeniile nu numai că formează structuri stabile, împăturite în soluție, dar rețin o parte din funcțiile biochimice ale proteinei mari din care derivă. În unele proteine, domeniul este întrerupt de un bloc de secvență care se împăturește într-un domeniu separat. Deși multe proteine sunt formate dintr-un singur domeniu structural, cele mai multe sunt construite din două sau mai multe domenii îmbinate modular. Uneori, fiecare domeniu are o funcție biochimică caracteristică, iar funcția proteinei în ansamblu este determinată de suma proprietăților individuale ale domeniilor [21].

Figura 9: Inserțiile domeniilor proteice. Proteinele „mozaicate”.

O strategie de obținere a indiciilor funcționale pentru o proteină constă în detectarea șabloanelor structurale locale asociate cu o anumită funcție, care poate fi aceeași pentru proteine cu modele de împăturire diferite. Reziduurile din aceste șabloane nu sunt neapărat adiacente în secvența proteinei, putând apare în orice ordine. Un exemplu clasic al acestui fenomen este triada catalitică asemănătoare tripsinei, pe care natura a reinventat-o de peste 10 ori, deși au mai fost raportate și alte exemple. Aceste similarități importante funcțional nu pot fi detectate prin compararea secvențelor sau prin aliniament structural și necesită metode independente de similaritatea secvenței sau a modelului de împăturire [36].

Serverul PINTS [32] (Patterns in Non-homologous Tertiary Structures) accesibil la adresa http://pints.embl.de, permite descoperirea unor astfel de similarități. Spre deosebire de metodele precedente, aceasta oferă o măsură a semnificației statistice asemănătoare cu cea folosită de BLAST. Astfel se permite utilizatorului să decidă dacă o potrivire poate avea implicații funcționale sau este o potrivire întâmplătoare. PINTS ajută la adnotarea funcțională a noilor structuri oferind bazelor de date șabloane relevante funcțional, evitând astfel necesitatea de a lua în considerare numeroasele potriviri non-funcționale (ex. structurale) care pot apare în timpul comparării structurilor în ansamblu.

PPSearch este un instrument util când dorim să căutăm motive proteice în secvența de interes. Acest instrument compară rapid secvența cu toate șabloanele înregistrate în baza de date PROSITE [13]. PROSITE este o baza de date a familiilor de proteine și a domeniilor. În interiorul bazei de date PROSITE, motivele sunt codificate ca expresii regulare numite adesea șabloane. Procesul utilizat pentru a dobândi aceste șabloane implică construcția unui aliniament multiplu de omologi cunoscuți și inspecția manuală pentru identificarea regiunilor conservate. Aceste regiuni conservate sunt apoi reduse la expresii de comun acord. PPSearch caută șabloanele în baza de date PROSITE pe baza potrivirii cu secvența cercetată. Uneori o secvență cercetată poate să se potrivească cu mai multe șabloane. Multe familii de proteine au mai mult de un domeniu conservat și sunt caracterizate de mai mult de un motiv. Potrivirile găsite ne ajută stabilirea familiei proteinei și a domeniilor acesteia.

Metoda „docking” încearcă să descopere cuplarea a două molecule în configurații favorabile. Această metodă este foarte importantă în două domenii de cercetare practică: designul medicamentelor bazat pe structura proteinei și modelarea moleculară a funcției biologice. Există posibilitatea localizării automate a regiunilor proteice capabile de a fixa un ligand.

Componentele complexului ligand-proteină pot fi reasamblate corect dacă sunt în conformația adecvată. Cele trei obiective principale ale programelor de „docking” sunt: potrivirea unei molecule mici într-o proteină, de exemplu cuplarea proteină-ligand; cuplarea a două proteine și descoperirea inhibitorilor noi folosind baze de date moleculare.

Astfel, aplicațiile bioinformaticii pot ajuta la predicția funcției proteice fie pornind de la secvență, fie pornind de la structură. Acest fapt simplifică înțelegerea căilor biochimice și funcțiilor celulei, facilitând procesul de inginerie genetică și producerea de medicamente [36].

Capitolul 7

Aplicații în proiectarea medicamentelor

Noile metode de design al medicamentelor sunt privite cu un interes crescut de industria farmaceutică și de presă. Rapoartele indică înlocuirea metodelor de descoperire a medicamentelor prin metodele de experiență-eroare cu chimia combinatorie țintită, designul medicamentelor cu ajutorul computerului și alte procese care sunt orientate spre descoperirea de noi medicamente și noi ținte pentru acestea. În plus, compușii creați prin aceste metode sunt analizați cu ajutorul unor sisteme avansate.

Pentru o companie farmaceutică, găsirea unui medicament nou cu vânzări de peste 1 miliard $ pe an, se aseamănă cu un joc de loterie. Pentru a fi un medicament de succes, acesta trebuie să respecte câteva condiții:

Trebuie să fie sigur

Trebuie să fie eficient în afecțiunea tratată

Trebuie să fie stabil (chimic și metabolic)

Trebuie să aibă o solubilitate bună

Trebuie să fie posibil de sintetizat

Trebuie să fie nou (patentabil)

Reacții adverse medicamentoase. Aceste trei cuvinte simple exprimă puțin din pericolul unor reacții negative severe apărute la administrarea unui medicament prescris. Dar totuși astfel de reacții pot să apară. Un studiu din 1998 a pacienților spitalizați publicat în Jurnalul Asociației Medicale Americane, raportează că în 1994, reacțiile adverse medicamentoase au fost întâlnite în peste 2,2 milioane de cazuri și au produs peste 100.000 decese [17]. Astfel reacțiile adverse medicamentoase sunt una dintre principalele cauze de spitalizare și deces în Statele Unite ale Americii. În prezent nu este ușor de stabilit felul în care răspund oamenii la un anumit medicament, companiile farmaceutice fiind obligate să producă medicamente folosind un sistem de tipul „o măsură se potrivește la toți”. Acest sistem permite producerea de medicamente la care vor răspunde pacienții obișnuiți. Dar, după cum arată statisticile, o măsură nu este potrivită pentru toți, uneori având consecințe devastatoare. Astfel apare necesitatea rezolvării problemei reacțiilor adverse medicamentoase înainte de a se produce. Soluția problemei este totuși în dezvoltare și se numește farmacogenomica.

Modul în care o persoană răspunde la un medicament (aceasta incluzând atât reacțiile pozitive cât și pe cele negative) este o caracteristică complexă influențată de mai multe gene diferite. Fără cunoașterea tuturor genelor implicate în răspunsul la medicamente, oamenii de știință nu au reușit dezvoltarea de teste genetice care să prezică răspunsul unei persoane la un anumit medicament. După descoperirea faptului că genele umane prezintă variații mici nucleotidice, totul s-a schimbat – testarea genetică pentru stabilirea răspunsului la medicamente a devenit acum posibilă. Farmacogenomica este știința care studiază variațiile genice moștenite care stabilesc modul răspunsului la medicament și explorează felul în care pot fi folosite aceste variații pentru a prezice dacă un pacient va răspunde bine la un medicament, va răspunde rău sau deloc.

În prezent se încearcă catalogarea a cât mai multe variații genetice descoperite în genomul uman. Aceste variații, sau SNPs (Single Nucleotide Polymorfism), pot fi folosite ca instrument pentru a prezice răspunsul unei persoane la un medicament. Pentru a putea fi folosite SNP-urile, secvențele ADN ale unei persoane trebuiesc cercetate pentru găsirea SNP-urilor specifice. Problema este costul mare și viteza scăzută a tehnologiei tradiționale de secvențializare a genelor, un impediment pentru folosirea pe scară largă a SNP-urilor ca instrument de diagnostic. Microarray-ul este o tehnologie în dezvoltare care va permite medicilor să examineze pacienții pentru identificarea unor SNP-uri specifice rapid și ieftin. Un singur microarray poate fi folosit pentru a scana 100.000 SNP-uri găsite în genomul pacientului în decurs de câteva ore.

De scanarea SNP-urilor vor beneficia dezvoltarea și testarea medicamentelor deoarece companiile farmaceutice pot exclude din testele clinice acele persoane a căror scanare farmacogenomică va arăta că medicamentul ce urmează a fi testat va fi ineficient sau dăunător. Excluderea acestor persoane va crește șansa ca un medicament să fie eficient într-un anumit grup populațional. De asemenea se are în vedere ca testele clinice să fie mai puțin costisitoare și astfel consumatorul să beneficieze de medicamente mai ieftine. Capacitatea de a stabili reacția unei persoane la un medicament înainte de a-l prescrie va crește încrederea medicului și pacientului în medicamentul respectiv, încurajând dezvoltarea de noi medicamente care să fie testate asemănător.

NCBI a dezvoltat baze de date pentru depozitarea atât a SNP-urilor (dbSNP) cât și pentru datele rezultate din microarray (GEO). Accesul la aceste date și resurse informaționale va permite oamenilor de știință interpretarea mai ușoară a datelor care vor fi folosite nu doar la determinarea răspunsului la medicament, ci și la studierea susceptibilității de a face o boală.

Familia de enzime hepatice a citocromului P450 (CYP) este responsabilă pentru metabolizarea a peste 30 de clase diferite de medicamente . Variațiile ADN-ului în genele care codifică aceste enzime pot influența capacitatea de a metaboliza anumite medicamente. Formele mai puțin active sau inactive ale enzimelor CYP care sunt incapabile de a neutraliza și a elimina eficient medicamentele din corp pot produce supradozarea [12]. Aproape 75% din populația albă și 50% din populația neagră prezintă incapacitatea genetică de a exprima enzima funcțională CYP3A5. Lipsa enzimei funcționale poate să nu fie observabilă deoarece multe medicamente sunt metabolizate de enzima CYP3A4 exprimată universal [7].

Altă enzimă, numită TPMT (metiltransferaza tiopurinică) este foarte importantă în chimioterapia leucemiei, intervenind în metabolizarea tiopurinelor. Un mic procent din populația caucaziană prezintă variante genetice care împiedică formarea unei proteine active. Drept rezultat, tiopurinele ating niveluri toxice în pacienți datorită faptului că enzima este incapabilă de a metaboliza medicamentul. În prezent, medicii pot folosi un test genetic pentru a scana pacienții cu această deficiență, iar activitatea enzimei este monitorizată pentru a determina nivelul de dozaj optim [22].

Capitolul 8

Concluzii

Pe măsură ce tot mai multă informație biologică provenită din cărți, jurnale și surse private este convertită în format electronic, va crește cantitatea de date disponibilă unui număr mai mare de utilizatori. Informațiile biologice vor fi accesate ușor și ieftin, iar oamenii de știință vor găsi într-un singur loc toată bibliografia de care au nevoie pentru munca de cercetare, inclusiv legături către informația moleculară și genetică. Cercetarea va deveni mai eficientă prin eliminarea duplicatelor. Timpul scurs de la proiectul de observare sau cercetare la descrierea noilor specii și disponibilitatea rezultatelor cercetărilor poate să scadă de la câțiva ani la câteva luni.

Devine evident că interacțiunea semnalelor și căilor de transmitere în sistemele biologice complexe – cum ar fi reglarea transcripției, activarea celulară, comunicarea celulară – poate fi atât de complexă și sensibilă la variații mici ale energiilor de interacțiune, încât devine imposibil pentru om să înțeleagă fenomenul cantitativ. Pe măsură ce noi fenomene biologice sunt descrise, apare necesitatea dezvoltării de noi instrumente pentru organizarea informației.

Lucrarea abordează bioinformatica, un domeniu care asimilează informații biologice, informatice și din ingineria genetică.

Scopul lucrării este prezentarea implicației pe care o are bioinformatica în predicția structurii și funcției proteinelor, precum și domeniile de aplicație. Necesitatea predicției structurii proteice derivă din cantitatea uriașă de date biologice disponibile în urma Proiectului Genomul Uman și a incapacității de analiză a acestora folosind metode experimentale (determinarea structurii prin cristalografie cu raze X sau RMN sunt foarte laborioase). Astfel se impune dezvoltarea unor tehnici adecvate de determinare a structurii care să corespundă necesităților. Sunt prezentate diferite metode de predicție a structurii proteice, a căror utilizare se face în funcție de gradul de omologie dintre secvența cercetată și secvențele din bazele de date.

(1) Modelarea comparativă se folosește pentru determinarea structurii secvențelor care au un nivel de omologie >30% față de o secvențele cu structura cunoscută. O similaritate a secvențelor ≤30% impune folosirea altei metode, (2) threading (filetare) care se bazează pe recunoașterea modelului de împăturire. Lipsa oricărei asemănări între secvențe necesită utilizarea tehnicii (3) Rosetta, care realizează predicția ab initio a structurii proteinei de interes.

Deși modelarea comparativă necesită îmbunătățiri semnificative, este o tehnică robustă care poate fi utilizată pentru rezolvarea multor probleme practice. În contextul creșterii numărului de secvențe proteice descoperite și numărului redus de împăturiri cunoscute, modelarea comparativă va fi un instrument de o importanță crescândă pentru biologii care cercetează procesele normale și patologice din organismele vii.

Din informația structurală derivă funcția proteinei, care poate fi stabilită pe baza pattern-urilor structurale locale asociate cu o anumită funcție.

Importanța determinării structurii și funcției proteinelor este observată în domeniile de aplicație, în special proiectarea de noi medicamente. Necesitatea producerii unor medicamente care să nu dea reacții adverse a determinat companiile farmaceutice să-și orienteze cercetările către domeniul bioinformaticii, prin studiul metodelor de predicție a structurii, funcției și al cuplării proteinei cu un ligand.

Se sistematizează următoarele:

Bioinformatica este un domeniu în plină dezvoltare care înglobează baze de date și instrumente de căutare țintită în acestea.

Finalizarea Proiectului Genomului Uman și generarea unei cantități uriașe de informație biologică orientează noile programe de cercetare către dezvoltarea și îmbunătățirea bazelor de date, a instrumentelor folosite, precum și a programelor de predicție a structurii și funcției.

Întâlnirile științifice de tipul CASP (Critical Assessment of techniques for protein Structure Prediction) sunt necesare pentru testarea metodelor de predicție și constituie un mod de evaluare a îmbunătățirilor efectuate la nivel de predicție.

Modelarea comparativă este o metodă de încredere. Dacă identitatea secvențelor este >90%, structurile prezise sunt comparabile cu structurile determinate cristalografic.

Threading (filetare) este o metodă puternică, fiind capabilă să identifice modelul general de împăturire pentru numeroase secvențe. Experiența în această metodă a arătat că un scor mare, ce indică o bună potrivire cu un anumit tip de împăturire, este credibil.

Toate metodele de construcție a modelelor pe baza unei structuri preexistente, găsită fie prin căutarea secvențelor similare, fie prin căutarea modelului de împăturire, suferă de reacție inversă și confuzie. Structurile obținute vor fi asemănătoare cu structura de bază, deoarece instrumentele de calcul pentru rafinarea modelului sunt incapabile să genereze în structura secundară și conformația structurală terțiară tipurile de modificări probabile între două proteine atunci când identitatea globală a secvențelor este mică.

Metoda de predicție ab initio Rosetta este o tehnică care determină structura tridimensională a unei secvențe proteice care nu prezintă nici o similaritate cu secvențele structurilor cunoscute. Metoda nu suferă de dezavantajul pe care îl au modelarea comparativă și threading, dar are alte limitări.

Utilizarea programului PhD, bazat pe o rețea neuronală în două straturi, pentru predicția structurii secundare a proteinelor are o acuratețe globală de 70,8%.

În predicția structurii proteinelor membranare (determinarea structurii prin metode experimentale este foarte dificilă) se remarcă tehnici ab initio. Rezultate bune s-au obținut în predicția topologiei proteinelor membranare, PhDHTM având o acuratețe așteptată de 86%.

Clasificările structurale ale proteinelor SCOP și CATH facilitează accesul cercetătorilor la o varietate de informații care pot fi folosite în studii.

Predicția funcției pornind de la secvență sau de la structură simplifică înțelegerea căilor biochimice și funcțiilor celulei, facilitând procesul de inginerie genetică și producerea de medicamente.

Dintre aplicațiile bioinformaticii se remarcă farmacogenomica. Instrumentele folosite pe parcursul proiectării medicamentelor includ microarray, instrumente de manipulare a bazelor de date și instrumente de administrare a proiectelor.

Bibliografie

Aloy P., Ceulemans H., The relationship between sequence and interaction divergence in proteins, J. Mol. Biol., 2003

Altschul S. F., Gish W., Basic local alignment search tool, J. Mol. Biol., 1990

Bourne P., Westbrook J., The Protein Data Bank and lessons in data management, Brief Bioinform., 2004

Bystroff C., Crone E., New directions in Bioinformatics and Biotechnology, Rensselaer Polytechnic Institute, NY, 2003

Chenna R., Sugawara H., Multiple sequence alignment with the Clustal series of programs, Nucleic Acids Res., 2003

Dayhoff M., Schwarty R., A model of evolutionary change in proteins, National Biomedical Research Foundation, 1978

Evans W., McLeod H., Pharmacogenomics – Drug Disposition, Drug Targets, and Side Effects

Getz G., Starovolsky A., Domany E., FSSP to SCOP and CATH (F2CS) prediction server, Bioinformatics, 2004

Guex N., Peitsch C., Principles of Protein Structure, Comparative Protein Modelling and Visualisation

Guex N., Peitsch M., SWISS-MODEL and the Swiss-PdbViewer: An environment for comparative protein modelling, Electrophoresis, 1997

Henikoff S., Henikoff J., Amino acid substitution matrices from protein blocks, Proc. Natl. Acad. Sci. USA, 1992

Hodgson J., Marshall A., Pharmacogenomics: will the regulators approve?, Nature Biotechnolgy, 1998

Hulo N., Sigrist C., Recent improvements to the PROSITE database, Nucleic Acids Res., 2004

Human Genome Project, web, accesat apr-mai 2004 http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml

Kihara D., Shimizu T., Prediction of membrane proteins based on clasification of transmembrane segments, Protein Engineering vol.11 no.11 pp.961–970, 1998

Kolakowski L., Leunissen J., ProSearch: fast searching of protein sequences with regular expression patterns related to protein structure and function, Biotechniques, 1992

Lazarou J., Pomeranz H., Incidence of adverse drug reactions in hospitalized patients: a meta-analysis of prospective studies, 1998

Merz K., Le Grand S. M., The protein folding problem and tertiary structure prediction

Parthasarathy V. A., Santhosh J. Eapen, Bioinformatics and Biotechnology, Tools and applications, 2003

Patrick M. Woster, Protein Structure and function, Pharmaceutical Biochemistry

Petsko G., Ringe D., Protein Structure and Function, New Science Press, 2003

Pistoi S., Facing your genetic destiny, part II, Scientific American, 2002

Rashidi H., Buehler L., Bioinformatics Basics: Applications in Biological Science and Medicine

Ren T., Veeramalai M., MSAT : a Multiple Sequence Alignment tool based on TOPS, BLC., 2003

Russell R., Predicting Function from Protein Structure Comparation, Bioinformatics, United Kingdom

Rusu V., Deutsch G., Anghel A., Biochimie medicală generală, Ed. Mirton, Timișoara, 1999

Sandra G., A hands-on tour through the world of Bioinformatics, Geospiza, Inc., 2003

Sayle RA, Milner-White EJ., RASMOL: biomolecular graphics for all,
Trends Biochem Sci, 1995

Schneider R., Sander C., The HSSP database of protein structure-sequence alignments, Nucleic Acids Res., 1996

Sean R., Profile hidden Markov models, Bioinformatics review, vol. 14 no. 9, 1998

Shuttleworth J., Protein structure and function, 1997

Stark A., Russell R., PINTS: Patterns in Non-homologous Tertiary Structures, Oxford University Press, 2003

Sternberg J. E., Protein Structure Prediction: A practical Approach, Oxford University Press

Taylor N., Smith R., The World Wide Web as a graphical user interface to program macros for molecular graphics, molecular modeling, and structure-based drug design., J Mol Graph. 1996

Tudose O., Belengeanu V., Genetica medicală, Ed. Orizonturi Universitare, Timișoara, 2000

Veeramalai M., Gilbert D., Bioinformatics tools for Protein Structure, Bioinformatics World, Scientific Computing World, 2002

Venclovas C., Zemla A., Assessment of progress over the CASP experiments, Proteins, 2003

Wu C., Yeh L., The Protein Information Resource, Nucleic Acids Res., 2003

Similar Posts