Masini cu Suport Vectorial In Detectarea Cancerului la San
Învățarea supervizată este una dintre categoriile principale de probleme ale învățării automate, iar scopul ei este acela de a deduce o funcție din datele de antrenament pe care le primește [1]. Aceste date de antrenament sunt o mulțime de perechi, fiecare pereche fiind compusă dintr-un obiect de intrare (de obicei un vector) și valoarea de ieșire dorită. Un algoritm de învățare supervizată analizează așadar datele de antrenament pe care le primește și construiește pe baza lor funcția ce va fi folosită ulterior pentru a clasifica noi exemple. Scenariul optim al rezolvării unei probleme de acest tip va permite algoritmului dezvoltat să generalizeze de la datele de antrenament până la situații pe care nu le-a mai analizat, dar cu rezultate satisfăcătoare.
O primă problemă o constituie compromisul dintre prejudiciu și variație [2]. Presupunem că avem disponibile mai multe seturi de date de antrenament la fel de bune. Un algoritm de învățare are un prejudiciu pentru o intrare particulară dacă atunci când este antrenat pe fiecare din aceste seturi de date este sistematic incorect în prezicerea ieșirii corespunzatoare pentru . Un algoritm de învățare are o variație ridicată pentru o intrare particulară dacă prezice diferite valori de ieșire când este antrenat pe diferite seturi de date. Eroarea de predicție a unui clasificator este legată de suma dintre prejudiciul și variația algoritmului de învățare [3]. În general există un compromis între prejudiciu și variație. Un algoritm de învățare cu un prejudiciu scăzut trebuie trebuie să fie „flexibil” pentru a putea potrivi datele bine, dar dacă va fi prea flexibil va potrivi fiecare set de date diferit și de aici va avea o variație mare. Unul dintre aspectele cheie ale multor tehnici de învățare supervizată este faptul că sunt capabile să ajusteze acest compromis fie automat, fie prin intermediul unui parametru pe care utilizatorul îl poate modifica.
O altă problemă este reprezentată de cantitatea de date de antrenament disponibilă raportată la complexitatea funcției ce trebuie determinată. Dacă funcția ce trebuie învățată este simplă, atunci un algoritm de învățare „ inflexibil ” cu prejudiciu mare și variație scăzută va fi capabil să învețe dintr-o cantitate mică de date, dar dacă funcția este complexă (de exemplu pentru că implică interacțiuni complexe între multe caracteristici diferite de intrare sau se comportă diferit în părți distincte ale spațiului datelor de intrare), atunci funcția va putea fi folosită doar cu ajutorul unei cantități mari de date și cu un algoritm „ flexibil ”. Prin urmare, algoritmii de învățare cu rezultate satisfăcătoare reglează valoarea compromisului în funcție de cantitatea de date existentă și complexitatea funcției ce urmează a fi învățată.
A treia problemă este dată de dimensiunea spațiului intrărilor. Dacă vectorul de caracteristici are o dimensiune foarte mare, problema de învățare poate fi dificilă chiar dacă funcția depinde doar de un număr mic de caracteristici. Acest comportament al algoritmului are loc datorită faptului că dimensiunile „extra” îi pot crea confuzii și pot cauza astfel o variație ridicată. Prin urmare, un spațiu de intrare cu multe dimensiuni obligă algoritmul să aibă un prejudiciu ridicat și o variație scăzută. În practică, dacă programatorul reușește să elimine caracteristicile irelevante din setul de date de intrare, funcția învățată va avea o acuratețe mai mare. În plus, există mulți algoritmi pentru selecția caracteristicilor meniți să le identifice pe cele semnificative și să le ignore pe cele care nu sunt de folos în procesul de învățare. Acesta este un exemplu al unei strategii generale de reducere a dimensiunii spațiului de intrare, care are scopul de a fixa datele de intrare într-un spațiu de dimensiune mai redusă înainte de a executa algoritmul de învățare supervizată.
O altă problemă o reprezintă gradul de „ zgomot ” din valorile de ieșire dorite. Dacă valorile de ieșire sunt adesea incorecte (datorită erorilor umane sau altor erori), atunci algoritmul de învățare nu ar trebui să încerce să găsească o funcție care potrivește exact exemplele de antrenament. Încercarea de a potrivi datele cu prea multă atenție conduce la învățarea pe de rost (overfitting). Acest fenomen face ca algoritmul să aibă o performanță foarte bună pe datele de antrenament, dar foarte slabă pe datele de test. Învățarea pe de rost poate să apară chiar și atunci când nu există erori în efectuarea măsurătorilor dacă funcția pe care algoritmul încearcă să o învețe este prea complexă pentru modelul de învățare. Într-o asemenea situație acea parte din funcție care nu poate fi modelată, alterează setul de date de antrenament. În practică se folosesc diferite abordări în vederea atenuării fenomenului de „zgomot” din valorile de ieșire. Exemple de astfel de abordări le constituie oprirea timpurie a algoritmului pentru a preveni învățarea pe de rost sau detectarea acelor exemple de antrenament care sunt suspecte de producere de „ zgomot ” și eliminarea acestora înaintea antrenării algoritmului de învățare supervizată.
2. Rezultate existente obținute prin aplicarea tehnicilor de învățare supervizată în diagnosticarea cancerului la sân
2.1 Mașini cu suport vectorial
Unul din experimentele care a încercat să diagnosticheze cancerul de sân folosind mașinile cu suport vectorial a avut structura pe care o vom detalia în continuare [4]. Detectarea tumorilor în mamografie este divizată în trei părți. Primul pas implică o procedură de intensificare, tehnicile de conturare a imaginilor sunt folosite să îmbunătățească aspectul vizual, să crească gradul de zgomot și să facă anumite caracteristici mai ușor de vizualizat prin modificarea culorilor și a intensităților. Stagiul doi care folosește valorile imaginilor prelucrate, segmentează zona cu tumoarea și extrage caracateristicile din imaginea divizată. Al treilea și ultimul pas, presupune clasificarea folosind mașinile cu suport vectorial.
Îmbunătățirea imaginii poate fi definită ca o conversie a calității imaginii la un nivel mai comprehensibil. (a) Procedura de îmbunătățire a mamografiilor se efectuează cu un filtru fin Gaussian bazat pe deviația standard. (b) Se execută o mască morfologică de filtrare pe scală de gri folosind elementul de structurare. Stratul de vârf este folosit să corecteze lumina neuniformă când fundalul este negru. (c) Masca de vârf a rezultatului este descompusă în două scale și apoi imaginea se reconstruiește.
Mamografia corectată este convertită în imagini binare prin segmentare la diferite valori. Părțile fragmentate sunt filtrate din nou cu filtru Gaussian pentru a elimina zgomotul. Metoda de segmentare a imaginii este un pas în optimizarea detecției de cancer la sân, împărțind mamografia în regiuni constituente.
Această metodă a fost testată pe 75 de imagini, având o precizie de 88.75%. Unul din modurile de a îmbunătăți performanța mașinilor cu suport vectorial este folosind metoda de eliminare recursivă a atributelor propusă de Guyon [5] pentru selecția genelor sau validarea încrucișată pentru a extrage atribute optime.
2.2 Clasificatorul Naive Bayes
Abdelghani Bellaachia și Erhan Guven au efectuat o analiză a predicție a ratei de supraviețuire a pacienților cu cancer de sân [6], utilizând tehnici de data mining, Naive Bayes, propagare înapoi în rețele neuronale, și algoritmii de arbori de decizie C4.5, folosind kitul Weka. Weka este o colecție de instrumente pentru diverse tehnici de data mining, cum ar fi de clasificare, regresie, clusterizare, reguli de asociere, și vizualizare. Setul de instrumente este dezvoltat în Java și este un software open source. O versiune mai nouă a bazei de date REES (din perioada 1973-2002, cu 482,052 de înregistrări) a fost folosită cu două câmpuri suplimentare Recode Starea Vital (VSR) și cauza morții. Studiul arată că rezultatele preliminare sunt promițătoare pentru aplicarea metodelor data mining în problema predicției supraviețuirii în conformitate cu bazele de date medicale. Performanțele de predicție obținute sunt comparabile cu tehnicile existente. Cu toate acestea, algoritm C4.5 are o performanță mult mai bună decât alte tehnici. Acuratețe: (1)Naive Bayes: 84.5%; (2) C4.5 : 86.7%.
2.3 Tehnologia microarray
Invenția tehnologiei microarray cu posibilitatea de a examina mii de gene simultan a schimbat modelul de prognoză a cancerului pentru o nouă eră postgenomică. Spre deosebire de modelele de prognoză clinice, profilarea expresiei genelor oferă noi modalități de a înțelege procesul celular legat de cancer, sporind astfel precizia de clasificare. Cu toate acestea, datele copleșitoare generate de tehnologia microarray necesită o analiză corectă a informațiilor. Analiza datelor microarray constă în principal din două părți: selecția caracteristicilor și clasificare. Microarray oferă o metodă eficientă de colectare a datelor, care pot fi folosite pentru a determina modelul de exprimare a mii de gene. MRNA-ul (RNA mesager – este un singur fir al ADN-ului, care a fost copiat) din diferite țesuturi în condiții normale și în caz de boală, ar putea dezvălui care gene și ce condiții de mediu poate conduce la boala. Multe studii au fost efectuate pentru a aborda aceste probleme.
Tendințele de clasificare s-au schimbat de la utilizarea unui singur clasificator la a asambla mai mulți clasificatori în unul singur pentru a examina diferența în expresie a genelor. Mai mult decât atât, se remarcă, de asemenea, dependența mare față de tehnicile de selecție uni-variate bazate pe filtrarea caracteristicilor în comparație cu metodele de înveliș și cele încorporate. În prezent, modelele de prognoză arată o direcție tot mai imperativă față de utilizarea datelor integrate, cum ar fi microaparat și clinice, sau date genomice și cele privind studiul proteinelor, în loc de examinarea separată a reapariției cancerului [7].
Microarray-ul populat este apoi stimulat de un laser și fiecare punct fluorescent în consecință, din microarray este măsurat. Dacă nici probele, nici monstrele de referință nu hibridizează cu genele reperate pe diapozitiv, locul se va distinge prin culoarea neagră. Cu toate acestea, dacă hibridizarea este predominantă cu proba, locul se va colora în roșu. În schimb, dacă hibridizarea este în primul rând între referință și ADN-ul aplicat la diapozitiv, locul se va colora verde. Spotul poate, de asemenea apărea incandescent galben, atunci când ADN-ul din probe și monstre de referință hibridizează egal într-un loc dat, indicând faptul că ei au același număr de nucleotide complementare, în acel loc.
3. Metodologia cercetării
În planul cercetării întreprinse am abordat problema tratării cancerului la sân prin utilizarea tehnicilor de învățare supervizată cele mai uzuale, dar și cele care în același timp au condus la rezultate preponderent satsifăcătoare. Mașinile cu suport vectorial apar ca o inovație benefică pentru domeniul medical tocmai din perspectiva acurateții rezultatelor pe care le pot oferi. Acesta este motivul pentru care în secțiunea următoare vom dezvolta această problemă întrucât prezintă un real interes și o utilitate practică deosebită.
4. Mașini cu suport vectorial
Mașinile cu suport vectorial reprezintă o metodă de clasificare introdusă în anul 1992 de către Boser, Guyon și Vapnik [8]. Clasificatorul care folosește această tehnică este folosit cu răspândire, atât în bioinformatică cât și în alte discipline, datorită acurateței ridicate și a abilității de a se descurca bine atunci când întâlnește date cu multe dimensiuni, cum ar fi expresii ale genelor, dar și pentru flexibilitatea în modelarea diferitelor surse de date [9].
Mașinile cu suport vectorial aparțin unei categorii generale de „ metode cu nucleu ”. O astfel de metodă este un algoritm care depinde de date doar prin produse scalare. Când este necesar, produsul scalar poate fi înlocuit de o funcție nucleu, care calculează acest produs scalar într-un posibil spațiu de caracteristici multidimensional. Această abordare are două avantaje. Primul dintre ele este capacitatea de a genera decizii neliniare asupra limitelor folosind metode construite pentru clasificatorii liniari. Al doilea avantaj îl constituie faptul că folosirea funcțiilor nucleu permit utilizatorului să aplice un clasificator datelor care nu au o reprezentare a spațiului vectorial de dimensiune fixă. Printre primele exemple de astfel de date în bioinformatică se numără ADN-ul și structura proteinelor.
Folosirea mașinilor cu suport vectorial necesită o înțelegere în profunzime a modului în care acestea funcționează. Când se antrenează un algoritm de mașini cu suport vectorial, practicantul trebuie să ia un anumit număr de decizii importante: cum vor fi datele preprocesate, ce fel de nucleu se va folosi și, în final, setarea parametrilor atât pentru nucleu cât și pentru mașinile cu suport vectorial. Alegerile uniforme pot conduce la o performanță scăzută [10].
Mașinile cu suport vectorial construiesc un hiperplan sau o mulțime de hiperplane într-un spațiu cu mai multe dimensiuni sau cu un număr infinit de dimensiuni, care pot fi utilizate pentru clasificare, regresie sau alte sarcini. Intuitiv, o bună separare este obținută de hiperplanul care are cea mai mare distanță până la cea mai apropiată dată de antrenament reprezentată indiferent de clasa din care aceasta face parte (numită și marjă funcțională), având în vedere că în general cu cât este mai mare marja, cu atât este mai redusă eroarea de generalizare a clasificatorului.
Chiar dacă problema inițială este specificată într-un spațiu finit dimensional, se întâmplă de multe ori ca mulțimile care trebuie distinse să nu fie separabile liniar în acel spațiu. Din acest motiv a fost propus ca spațiul finit original să fie potrivit într-unul mai mare ca dimensiune, separarea fiind probabil mai ușor de făcut în acest nou spațiu. Pentru a păstra un efort computațional rezonabil, potrivirile folosite de schemele mașinilor cu suport vectorial sunt construite în așa fel încât să poată asigura că produsele scalare vor putea fi calculate cu ușurință în ceea ce privește variabilele din spațiul original, prin definirea unei funcții nucleu selectate să satisfacă cerințele problemei [10]. Hiperplanele din spațiul cu mai multe dimensiuni sunt definite prin mulțimi de puncte al căror produs scalar cu un vector din acel spațiu este constant. Vectorii care definesc hiperplanurile pot fi aleși ca fiind combinații liniare cu parametrii ai imaginilor vectorilor de caracteristici care există în baza de date. Folosind această alegere a hiperplanului, punctele din spațiul caracteristicilor care sunt potrivite în hiperplan sunt definite prin relația . În cazul în care devine mai mic pe măsură ce crește și mai mult față de , fiecare element din sumă măsoară gradul de apropiere al punctului de test față de punctul corespunzător din baza de date . În aceste condiții, suma nucleelor poate fi utilizată în vederea măsurării apropierii relative al fiecărui punct de test în comparație cu punctul original aparținând uneia dintre mulțimile ce trebuiesc distinse. Trebuie menționat faptul că mulțimea de puncte potrivită în hiperplan poate fi destul de înfășurată ca rezultat, permițând deosebiri mult mai complexe între seturi, care nu sunt convexe deloc în spațiul original.
5. Implementarea soluției
În vederea obținerii datelor necesare pentru rezlizarea cu succes a aplicației vom folosi un set de date din repository-ul online „ The UCI Machine Learning Repository ”, care conține o colecție de baze de date și generatoare de date, utilizate de comunitatea celor ce lucrează în domeniul învățării automate pentru analiza empirică a algoritmilor de învățare automată. Arhiva a fost creată în 1987 de David Aha împreună cu câțiva absolvenți ai „ UC Irvine ”. Din momentul creării, a fost îndelung folosită de studenți, profesori și cercetători din toată lumea ca sursă principală pentru obținerea seturilor de date în problemele de învățare automată. Ca o indicație privind impactul pe care l-a avut această arhivă, menționăm că a fost citată de peste 1000 de ori, situându-se în top 100 cele mai citate „lucrări” din domeniul informaticii.
Pentru formarea setului de date au fost procesate imagini, fiecare imagine fiind măsurată de mai multe ori, iar structura setului inițial de date este următoarea:
Identificator.
Diagnostic (M = malign, B = benign)
Urmează 10 caracteristici numere reale, care au fost calculate pentru fiecare nucleu de celulă:
raza (media distanțelor din centru până la diferite puncte situate pe perimetru);
textura;
perimetrul;
aria;
netezimea (variația locală în lungimile razelor);
soliditate (calculată ca fiind );
concavitatea (gravitatea porțiunilor concave ale conturului);
punctele concave (numărul de puncte concave de pe contur);
simetria;
dimensiunea fractalului;
Pentru fiecare din aceste atribute, în setul de date au fost reținute câte trei valori semnificând valoarea medie, eroarea standard și cea mai „ rea ” dintre valori (media celor mai mari 3 valori obținute), rezultând astfel 30 de caracteristici. Toate caracteristicile au fost înregistrate cu cele mai semnificative 4 zecimale.
Am ales acest set de date întrucât conține 569 de instanțe, un număr suficient de mare pentru a putea fi împărțite în două seturi, și anume, unul pentru învățare și unul pentru testare.
Datorită dificultăților ce sunt întâmpinate în implenterea unui algoritm de învățare supervizată ce folosește mașinile cu suport vectorial (majoritatea din cauza lipsei de experiență care se acumulează în timp, dar și a dificultății implementării noțiunilor teoretice) s-a ales utilizarea unei librării existente și anume LIBSVM.
Vom prezenta succint ideea de folosire a acestei librării în cazul problemei noastre de clasificare. Ca orice problemă de învățare automată, aplicația se poate împărți în două mari etape: învățarea și testarea. Atât setul de antrenament, cât și cel de test trebuie să respecte un anumit format pentru a putea fi corect interpretate, de aceea am operat mici modificări asupra datelor. Prima caracteristică, și anume identificatorul exemplului de antrenament a fost eliminată complet din setul de date, iar caracteristica referitoare la tipul tumorii (malignă sau benignă) a fost modificată într-o valoare numerică, respectându-se următoarea convenție:
M 1.
B 2.
Datelor rămase le-a fost aplicat un algoritm C, furnizat de LIBSVM pentru a fi modificate în formatul dorit.
6. Concluzii
Scopul lucrării a fost acela de a prezenta o abordare a asistării diagnosticării cancerului la sân folosind mașinile cu suport vectorial și de a crea un mijloc bun de folosit de cadrele medicale specializate pentru a obține un grad de siguranță mai mare în cazul diagnosticării pacienților. Provocarea a constituit-o aplicarea în sine a mașinilor cu suport vectorial în domeniul diagnosticării medicale, lucru care până acum nu a fost destul de des întâlnit, oamenii fiind sceptici în vederea performanțelor pe care le-ar putea avea.
Aplicația a avut obiectivul de a aplica un algoritm de învățare supervizată folosind mașinile cu suport vectorial pe un set de date preluat dintr-un repository online. Chiar dacă obiectivul inițial a fost acela de a avea o acuratețe de peste 80%, rezultatele au fost mult mai bune și s-a obținut chiar în anumite situații o acuratețe de peste 95%. Dezvoltarea lasă loc unor posibilie extinderi în viitor, cu scopul de a putea într-o zi ca această abordare să câștige corectitudine și performanță și să dobândească încrederea cadrelor medicale specializate pentru a putea fi folosită în diagnosticarea de zi cu zi din spitale.
Bibliografie
1 Mehryar MOHRI, Afshin ROSTAMIZADEH, Ameet TALWAKAR – Foundations of Machine Learning, The MIT Press, 2012
2 S. GEMAN, E. BIENENSTOCK, and R. DOURSAT – Neural Networks and the bias/variance dilemma, Neural Computation 4, 1-58, 1992
3] G. JAMES – Variance and Bias for General Loss Functions, Machine Learning 51, 115-135, 2003
[4] Y. IREANUS et al – International Journal on Computer Science and Engineering, Vol.1(3), 127-130, 2009
5 I. GUYON, J. WESTON, J. BARNHILL, V. VAPNIK– Gene Selection for Cancer Classification using Support Vector Machines, Mach Learn, 2002
6] Abdelghani BELLAACHIA, Erhan GUVEN – Predicting Breast Cancer Survivability Using Data Mining Techniques, Department of Computer Science, The George Washington University
[7] Chang J, HILSENBECK S, FUQUA S. The promise of microarrays in the management and treatment of breast cancer, Breast Cancer Res. 2005
8 B.E. BOSER, I.M. GUYON, V.N. VAPNIK– A training algorithm for optimal margin classifiers, ACM Press, 1992
[9] B. SCHOLKOPF, K. TSUDA, J.P. VERT – Kernel Methods in Computational Biology, MIT Press, 2004
[10] H. WILLIAM, A. SAUL, J.P. VERT – Section 16.5. Support Vector Machines. Numerical Recipes: The Art of Scientific Computing (3rd ed.), Cambridge University Press, 2007
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Masini cu Suport Vectorial In Detectarea Cancerului la San (ID: 162721)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
