HBFXComputer Science – Logo [629070]

UNIVERSITATEA POLITEHNICA DIN BUCURES ,TIFACULTATEA DE AUTOMATIC A S ,I CALCULATOAREDEPARTAMENTUL Automatica
HBFXComputer Science – Logo
Computer Science
Computer Science& Engineering
& EngineeringDepartment
Department
PROIECT DE DIPLOM A
Titlul proiectului de diplom a (ex: S ,ablon proiect de diplom a)
Subtitlu (ex: versiunea 2018)
Gornea Sorin
Coordonator s ,tiint ,i c:
Prof. dr. ing. Dan Popescu
BUCURES ,TI
2019

UNIVERSITY POLITEHNICA OF BUCHARESTFACULTY OF AUTOMATIC CONTROL AND COMPUTERSCOMPUTER SCIENCE DEPARTMENT
HBFXComputer Science – Logo
Computer Science
Computer Science& Engineering
& EngineeringDepartment
Department
DIPLOMA PROJECT
Diploma Project Title (eg: Diploma project template)
Subtitle (eg: 2018 version)
Gornea Sorin
Thesis advisor:
Prof. dr. ing. Dan Popescu
BUCHAREST
2019

CUPRINS
1 Introducere 1
1.1 Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Despre micro-calci eri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Anatomia s^ anului . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Cauzele aparit ,iei micro-calci erilor . . . . . . . . . . . . . . . . . . . 3
1.2.3 Clasi carea micro-calci erilor . . . . . . . . . . . . . . . . . . . . . 3
1.2.4 Evaluarea micro-calci erilor . . . . . . . . . . . . . . . . . . . . . . 3
1.2.5 Cancerul de s^ an . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Not ,iuni de baz a despre mamogra i . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Sisteul BI-RADS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Obiective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6 Solut ,ia propus a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Stadiul Actual 7
3 Metodologie de lucru 10
3.1 Software utilizat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.2 Jupyter Notebook . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 GitHub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.1 Not ,iuni de baz a ^ n "machine learning" supervizat . . . . . . . . . . . 11
3.2.2 Componente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2.3 Antrenarea unui model . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Algoritmi utilizat ,i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3.1 Binarizarea Otsu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3.2 Algoritmul "k-means" . . . . . . . . . . . . . . . . . . . . . . . . . 16
1

3.4 Baze de date . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.5 Preprocesarea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Implementare 20
5 Rezultate experimentale 21
6 Concluzii 22

SINOPSIS
Sinopsisul proiectului are rol de introducere, cont ,in^ and at^ at o descriere pe scurt a problemei
abordate c^ at s ,i o enumerare sumar a a rezultatelor s ,i a concluziilor. Se recomand a ca sinopsisul
s a e redactat ^ ntr-un limbaj accesibil unei persoane nefamiliarizate cu domeniul, dar ^ n acelas ,i
timp destul de speci c pentru a oferi rapid o vedere de ansamblu asupra proiectului prezentat.
Sinopsisul proiectului va redactat at^ at ^ n rom^ an a c^ at s ,i ^ n englez a. Ca dimensiunea reco-
mandat a aceasta sect ,iune va avea maxim 200 de cuvinte pentru ecare variant a. ^Impreun a,
ambele variante se vor ^ ncadra ^ ntr-o singur a pagin a.
ABSTRACT
The abstract has an introductory role and should engulf both a brief description of the issue at
hand, as well as an overview of the obtained results and conclusions. The abstract should be
formulated such that even somebody that is unfamiliar with the projects' domain can grasp
the objectives of the thesis while, at the same time, retaining a speci city level o ering a
bird's eye view of the project. The projects' abstract will be elaborated in both Romanian
and English. The recommended size for this section is limited to 200 words for each version.
Together, both versions will t in one page.

1 INTRODUCERE
Cancerul la s^ an este cel mai diagnosticat tip de cancer la femei s ,i al doilea cel mai diagnosticat
tip de cancer ^ n ansamblu. ^In anul 2018 au ap arut peste 2 milioane de cazuri noi de cancer
la s^ an. [2]
^In t ,ara noastr a, 80% dintre cazurile ^ n care cancerul de s^ an este depistat se ^ nt^ ampl a ^ ntr-o
faz a avansat a a bolii. ^In aceste situat ,ii, tratamentul este unul care nu trateaz a boala, ci doar
prelunges ,te sperant ,a de viat , a.^In restul cazurilor, ^ n care cancerul este descoperit ^ ntr-o form a
incipient a, tratamentul poate aduce o vindecare complet a.
^In tarile ^ n care exist a mai multe posibilit at ,i de screening al cancerului la s^ an, situat ,ia este
diametral opus a, 70-80% din cancerele de s^ an sunt depistate ^ n stadii incipiente. [3]
O metod a foarte bun a pentru a diagnostica acest tip de cancer ^ ntr-o faz a incipient a este prin
identi carea micro-calci erilor ^ n mamogra i. ^In cele mai multe cazuri, aceste micro-calci eri
nu sunt canceroase, dar ^ n anumite conglomerat ,ii acestea pot un indicativ pozitiv.
Scopul acestei lucr ari este dezvoltarea unui proces software prin care se pot detecta micro-
calci eri utiliz^ and ret ,ele neuronale. Acest proces va include s ,i o parte de pre-procesare a
datelor, pentru a evident ,ia zonele de interes dintr-o mamogra e.
1.1 Context
Proiectul are ca scop descoperirea unei metode facile s ,i e ciente de a construi un sistem prin
care se pot identi ca micro-calci eri ^ n mamogra i. Cu cat sistemul este mai us ,or de folosit,
cu at^ at rata de adopt ,ie s ,i reproductibilitatea sa vor cres ,te.
Deoarece tehnologia hardware a evoluat foarte mult ^ n ultimii ani ( ^ n special ^ n domeniul CPU
s,i GPU), ret ,elele neuronale sunt mult mai us ,or de implementat folosind sisteme accesibile ca
pret ,, de larg consum.
De asemenea, exista o baza de select ,ie foarte mare pentru mamogra i, lucru facilitat de diverse
societ at ,i care pun la dispozit ,ie baze de date cu imagini s ,i diagnostice ^ n scopul cercet arii
cancerului mamar.
1.2 Despre micro-calci eri
Micro-calci erile de s^ an sunt grupuri mici de depozite de calciu care se dezvolt a ^ n t ,esutul
mamar, deseori ^ n cazul femeilor de peste 50 de ani. Acestea sunt foarte greu de detectat
f ar a mamogra i deoarece nu provoac a durere si nu sunt palpabile.
^In cele mai multe cazuri, prezent ,a micro-calci erilor nu este echivalent a s ,i cu un diagnostic
pozitiv de cancer la s^ an. Anumite conglomerate, spre exemplu un grup liniar de micro-calci eri,
1

ar putea aduce suspiciuni s ,i se recomand a investigat ,ii mai detaliate.
1.2.1 Anatomia s^ anului
^In mare parte, s^ anul este format dintr-o colect ,ie de celule grase numite t ,esut adipos. Acest
t,esut se extinde de la clavicul a p^ an a la mijlocul cutiei toracice de-a lungul pieptului (Figura 1).
Un s^ an normal este format din 12-20 de sect ,iuni numite lobi. Aces ,ti lobi sunt format ,i din o
multitudine de lobuli, glande ce produc lapte ^ n cazul femeilor care au n ascut recent. Aces ,ti
lobi s ,i lobuli sunt legat ,i ^ ntre ei de canale galactofore care au rolul de a transporta laptele
c atre areola. Aceste structuri din s^ an sunt cele de la care cancerul ^ ncepe de obicei.
^In t ,esutul adipos exist a o ret ,ea de ligamente, t ,esut bros conectiv, nervi, vase limfatice, noduli
limfatici s ,i vase de s^ ange.
Sistemul limfatic, care face parte din sistemul imunitar, este o ret ,ea de vase limfatice s ,i noduli
limfatici care sunt ^ mpr as ,tiat ,i ^ n ^ ntreg corpul. Similar cu modul ^ n care sistemul sanguin
distribuie nutrient ,i ^ n corp, sistemul limfatic distribuie celule albe ^ n organism.
Areola cont ,ine glande sudoripare modi cate, numite s ,i glande Montogmery. Aceste glande
secret a un
uid v^ ascos care contribuie la lubri cat ,ia s ,i protect ,ia areolei ^ n timpul al apt arii.
Figura 1: Anatomia s^ anului
Dimensiunea s ,i greutatea s^ anilor difer a de la persoan a la persoan a. Un s^ an de dimensiune
medie c^ ant ares ,te ^ n jur de 500 de grame, iar un s^ an mare c^ ant ares ,te intre 750 s ,i 1000 de grame
sau mai mult. De asemenea, densitatea s^ anilor difer a de la caz la caz. Pe parcursul viet ,ii
unei femei, s^ anii acesteia ^ s ,i pot schimba m arimea, forma s ,i greutatea datorit a schimb arilor
hormonale din timpul pubert at ,ii, ciclului menstrual, sarcinii, al aptatului sau menopauzei.
2

1.2.2 Cauzele aparit ,iei micro-calci erilor
Este greu de determinat cauzele micro-calci erilor. Chiar dac a acestea apar mai des ^ n cazul
femeilor de peste 50 de ani, acestea se pot depista s ,i ^ n 10% din populat ,ia mai t^ an ara a
femeilor. Exista o corelat ,ie intre operat ,ii sau traumatisme provenite ^ n urma accident arilor
^ n zona s^ anului s ,i riscul crescut de aparit ,ie a micro-calci erilor. Aceeas ,i corelat ,ie exist a s ,i ^ n
cazul pacientelor care au fost tratate pentru cancer la s^ an ^ n trecut.
1.2.3 Clasi carea micro-calci erilor
Micro-calci erile se pot clasi ca ^ n funct ,ie de form a ,m arime ,densitate s,idistribut ,ie.
Forma poate rotund a, liniar a, n a, aspr a, monomorf a, polimorf a. De asemenea, micro-
calci erile se pot forma ^ n grupuri.
M arimea poate de nii dac a micro-calci erile sunt mici sau mari, dar s ,i dac a m arimea micro-
calci erilor dintr-un grup este uniform a.
Densitatea poate ridicat a, joas a sau variabil a. ^In grupuri, patologii vor identi ca natura
omogen a sau neomogen a a micro-calci erilor.
Distribut ,iase refer a la zona din s^ an ^ n care micro-calci erile sunt identi cate. Astfel, acestea
pot grupuri singulare, unilaterale, bilaterale, difuze, segmentate, liniare sau regionale.
1.2.4 Evaluarea micro-calci erilor
^In general, sunt considerate ca ind benigne micro-calci erile care sunt:
distribuite ^ ntr-o form a difuz a sau bilaterala;
sunt de o form a rotund a sau punctat a;
sunt ^ mpr as ,tiate ^ n t ,esut mamar dens.
^In schimb, ridica suspiciuni micro-calci erile care sunt:
aranjate ^ ntr-o form a rami cat a sau liniar a;
dac a au margini iregulare sau densit at ,i variate;
au densit at ,i variate;
sunt distribuite segmentat sau aleator.
^In aceste cazuri, este recomandat a o biopsie pentru a determina un diagnostic mai exact.
3

1.2.5 Cancerul de s^ an
Cancerul de s^ an (Figura 2) se poate ^ mpr as ,tia ^ n organism atunci c^ and celulele din tumoarea
principal a sunt desprinse s ,i sunt transportate ^ n alte p art ,i ale corpului. Acest lucru se poate
^ nt^ ampla at^ at ^ n sistemul vascular, c^ at s ,i ^ n cel limfatic.
Figura 2: Anatomia cancerului de s^ an
Dac a celulele canceroase s-au ^ mpr as ,tiat la unul sau mai multi noduli limfatici, exist a o s ,ans a
mai mare c a acestea au intrat ^ n metastaza s ,i ^ n alte p art ,i ale corpului. De obicei, este
nevoie de o biopsie chirurgical a pentru a elimina unul sau mai multi noduli limfatici pentru a
determina dac a este prezent cancerul.
1.3 Not ,iuni de baz a despre mamogra i
Mamogra a este procesul prin care sunt utilizate doze reduse de raze X cu scopul de a analiza
structura s^ anului unui pacient pentru diagnosticare.
Procedura const a ^ n comprimarea s^ anului ^ ntre dou a suprafet ,e paralele, ^ n timp ce razele X
vor trece prin t ,esuturile acestuia. Comprimarea este necesar a pentru mai multe motive, s^ anul
trebuie sa e nemis ,cat, suprafat ,a ^ ntins a necesit a mai put ,ine radiat ,ii pentru a analizat a s ,i
are mai put ,ine s ,anse de a ascunde o iregularitate.
Procedura este realizat a din dou a pozit ,ii (Figura 3) pentru ecare s^ an, din lateral (medio-
oblic) s ,i de sus (caudal cranial).
Mamogra a poate detecta o multitudine de iregularit at ,i, printre care se num ar a: micro-
calci eri, noduli, zone asimetrice de densitate ^ ntre cei doi s^ ani, diferent ,e de densitate ^ ntre
aceleas ,i zone la timpi diferit ,i etc.
Exist a anumite riscuri care vin cu aceast a procedur a. ^In primul rand, expunerea s^ anului la
radiat ,ii are o s ,ans a foarte mic a de a cauza cancer, acest risc ind totus ,i mult mai mic dec^ at
cel de a depista cancerul. De asemenea, mamogra ile care necesit a investigat ,ii suplimentare
4

(biopsie, ecogra e, mamogra i suplimentare) se dovedesc a rezultate pozitive false, ceea ce
descurajeaz a pacientele ^ n a reefectua mamogra i ^ n viitor.
Figura 3: Unghiul la care este realizat a mamogra a caudal cranial a (CC) s ,i medio-oblic a
(MLO)
1.3.1 Sisteul BI-RADS
BI-RADS , un acronim pentru "Breast Imaging-Reporting and Data System", este un sistem
universal de clasi care al mamogra ilor. Scopul acestui sistem este asigurarea unei metode
standardizate de diagnosticare a rezultatelor analizelor, at^ at ^ ntre specialis ,ti, cat s ,i pentru
comunicarea c atre pacient ,i.
Clasi carea se ^ mparte ^ n urm atoarele [1]:
BI-RADS 0 – rezultat incomplet, se dores ,te evitarea acestui tip de rezultat s ,i este
recomandat reefectuarea analizelor pentru a a se ajunge la un rezultat mai clar;
BI-RADS 1 – rezultat negativ, s ,ansa de cancer ind foarte apropiat a de 0%, necesit a
doar controale de rutin a;
BI-RADS 2 – rezultat benign, s ,ansa de cancer ind foarte apropiat a de 0%, necesit a
doar controale de rutin a;
BI-RADS 3 – rezultat probabil benign, s ,ans a de cancer este ^ n jur de 0-2%, necesit a un
control dup a o durat a mai scurt a de timp ( ^ n jur de 6 luni);
BI-RADS 4 – rezultat suspicios, se ^ mparte ^ n 4A (risc sc azut – 2-10%), 4B (risc mediu
– 10-50%) s ,i 4C (risc crescut – 50-95%), necesit a analiza t ,esutului;
BI-RADS 5 – rezultat care sugereaz a malignitate (>95% probabilitate), necesit a analiza
t,esutului;
BI-RADS 6 – malignitate dovedit a prin biopsie, necesit a intervent ,ie chirurgical a.
1.4 Problema
Chiar dac a industria medical a a avansat foarte mult ^ n ultimii ani, ^ nc a exist a limit ari ^ n ceea
ce prives ,te efectuarea s ,i interpretarea mamogra ilor, dar s ,i alte riscuri asociate [4]:
este foarte di cil diagnosticul efectuat pe t ,esutul mamar dens, lucru care genereaz a
foarte multe rezultate pozitive sau negative false;
5

expunerea la un rezultat pozitiv fals duce la efectuarea unei biopsii inutile pe t ,esutul
suspectat c a ar afectat de cancer;
exist a riscul foarte mic de expunere la radiat ,ie, mai ales pentru femeile tinere (sub 35
de ani), de aceea cu c^ at se pot face mai put ,ine mamogra i de-a lungul viet ,ii, cu at^ at
acest riscul de cancer ^ n urma acestei expuneri va mai sc azut;
1.5 Obiective
Solut ,ia dezvoltat a ^ n aceast a lucrare are scopul de a servi ca o unealt a adit ,ional a pentru
specialis ,tii oncologi. Rezultatele ^ ntoarse de sistem dup a analiz a au rolul unei anexe, decizia
nal a ^ n privint ,a diagnosticului r am^ an^ and a luat a de o persoan a avizat a ^ n domeniu.
Output-ul sistemului va un set de valori de adev ar s ,i un procentaj de certitudine ^ n privint ,a
ec arui diagnostic.
1.6 Solut ,ia propus a
Pentru a realiza acest proces complex, se propune o abordare ^ n mai multe faze, care acoper a
at^ at faza de colectare, pre-procesare s ,i analiz a de imagini utiliz^ and ret ,ele neuronale:
colectarea datelor de test – se vor c auta c^ at mai multe surse de date care cont ,in imagini
s,i diagnostice atas ,ate acelor imagini;
prelucrarea datelor:
{extragerea metadatelor adiacente imaginilor – se vor extrage informat ,ii cum ar
tipul de t ,esut, tipul iregularit at ,ii (calci ere, tumoare), tipul tumorii (malign a,
benign a);
{pre-procesarea imaginilor – se vor aplica transform ari asupra imaginilor pentru a
scoate ^ n evident a anumite regiuni de interes;
{normalizarea datelor – pentru a introduce datele ^ n ret ,eaua neuronal a cu scopul de
a o antrena, acestea vor trebui sa respecte un anumit format; nu putem avea, spre
exemplu, imagini de dimensiuni diferite.
implementarea ret ,elei neuronale:
{alegerea ret ,elei neuronale;
{^ mp art ,irea datelor de antrenament s ,i a datelor de test;
{antrenarea supervizat a a ret ,elei – acesta va un proces iterativ;
{testarea ret ,elei.
6

2 STADIUL ACTUAL
Odat a cu evolut ,ia tehnologiilor hardware s ,i software care stau la baza funct ,ion arii ret ,elelor
neuronale, analiza de imagini a devenit un subiect foarte accesibil at^ at ^ n domeniul s ,tiint ,i c,
c^ at s ,i pentru utilizatori care se a
 a ^ n afara domeniului.
O dovad a a extinderii acestui domeniu c atre un public foarte larg este s ,i portalul Kaggle,
o comunitate dedicat a persoanelor interesate de lucrul cu date, unde se pot accesa diverse
seturi de date s ,i modele de ^ nv at ,are. De asemenea exista o multitudine de competit ,ii, unde
utilizatori primesc un set de date s ,i un obiectiv (utilizarea s ,tirilor pentru a determina evolut ,ia
bursei, recunoas ,terea cifrelor, predict ,ia evolut ,iei piet ,ei imobiliare etc.), iar modelele cu cea
mai mare acuratet ,e sunt premiate.
^In ceea ce prives ,te domeniul s ,tiint ,i c, majoritatea abord arilor obt ,in rezultate foarte precise ^ n
detect ,ia micro-calci erilor, ^ n zona de 80%-100%. Se vor detalia mai jos, ^ n ordine cronologic a
cresc atoare, cele mai noi articole din domeniu.
Lucrarea Automatic Microcalci cation Detection in Multi-vendor Mammography
Using Convolutional Neural Networks [5] urm ares ,te o abordare ^ n care sunt utilizate
dou a ret ,ele CNN ^ n paralel. Ret ,eaua este antrenat a pe un set de date format din 11.711 de
imagini pozitive s ,i 27 de milioane de imagini negative. Datele sunt colectate de la sisteme de
mamogra e de la produc atori diferit ,i: Hologic, GE si Siemens.
Pentru antrenarea ret ,elei, se urmeaz a un proces ^ n pas ,i iterativi. La ^ nceput, se efectueaz a
antrenamentul pe un set de date foarte mic. Ret ,eaua antrenat a este aplicat a pe ^ ntregul set
de date. La nal, a doua ret ,ea este antrenat a pe un set de date mai mare, care cont ,ine s ,i
imagini ^ n care este mai greu de determinat dac a ^ n imagine se a
 a o micro-calci ere sau nu,
dar se cunoas ,te c a rezultatul este unul negativ.
Structura ret ,elei este inspirat a de ret ,eaua OxfordNet [8] s ,i const a ^ n repet ari a dou a straturi
convolut ,iunale, cu 32 de ltre ecare, urmate de un strat "max-pooling" de m arime 2×2 s ,i un
pas de 2. De asemenea sunt utilizate straturi "fully connected" ca straturi nale, iar rezultatul
nal este calculat printr-o funct ,ie "soft-max". Rezultatele experimentale sunt comparate cu
un clasi cator ^ n cascad a.
^In lucrarea Deep-learning convolution neural network for computer-aided detection
of microcalci cations in digital breast tomosynthesis [6] este folosit a o metod a de "deep
learning" pentru a recunoas ,te modele de diferite tipuri ^ n imagini. Comparat cu un CNN, un
"deep learning" CNN (DLCNN) ^ nvat , a modele complexe printr-un num ar mai mare de straturi
s,i noduri, comparat cu o arhitectur a CNN. Se evalueaz a performant ,ele acestei arhitecturi, ^ n
comparat ,ie cu o arhitectur a CNN.
Arhitectura ret ,elei const a ^ ntr-o structur a simpl a care cont ,ine un strat convolut ,ional C1, un
strat de "max-pooling", ^ nc a un strat convolut ,ional C2, un strat de normalizare, dou a straturi
convolut ,ional locale L1, L2 s ,i un strat "fully-connected".
Aceast a implementare are ca rezultat o cres ,tere a preciziei de la 0.89 cu ret ,eaua CNN, la 0.93
7

utiliz^ and ret ,eaua DLCNN.
^In lucrarea Discrimination of Breast Cancer with Microcalci cations on Mammo-
graphy by Deep Learning [10] urm ares ,te un scop diferit, acesta ind recunoas ,terea s ,i
segmentarea micro-calci erilor ^ n imagini utiliz^ andu ret ,ele neuronale.
Setul de date de antrenament cont ,ine 1000 de imagini cu leziuni, 677 benigne s ,i 323 maligne,
iar setul de test cont ,ine 204 imagini cu leziuni, 97 benigne s ,i 107 maligne. Rezultatele
sunt comparate cu o implementare de SVN ("support vector machine"), cu un clasi cator
"k-means" s ,i cu un LDA ("linear discriminant analysis").
Sunt extrase 15 caracteristici ale micro-calci erilor s ,i 26 caracteristici ale maselor de s^ an ^ n
locul imaginilor propriu-zise ca date intrare.
Acuratet ,ea nal a obt ,inut a este mai bun a comparat a cu celelalte implement ari: CNN – 0.85,
LDA – 0.69, KNN – 0.83, SVM – 0.85.
Lucrarea Evaluation of a Deep Convolutional Neural Network method for the seg-
mentation of breast microcalci cations in Mammography Imaging [9] urm ares ,te ace-
lasi scop de segmentare al micro-calci erilor, dar utilizeaz a o structur a diferita a ret ,elei ne-
uronale. Sunt utilizate 6 seturi de straturi convolut ,ionale, ecare (mai put ,in ultima iterat ,ie)
urmate de un strat "max-pooling" de nucleu 2×2 s ,i de un strat de "batch-normalization",
care are rolul de a face procesul de ^ nv at ,are mai rapid. Pentru calcularea datelor de ies ,ire,
sunt utilizate doua straturi "fully-connected" s ,i un clasi cator "softmax". Funct ,ia de calcu-
lare a pierderilor este "cross entropy". Implementarea acestei ret ,ele este realizat a ^ n Python
utiliz^ and Tensor
ow.
Setul de date de intrare este realizat mut^ and pixelul din centrul unui petic de imagine de
99×99 pixeli de-a lungul imaginilor init ,iale. Se obt ,in astfel din setul de date init ,ial 90.000
de imagini p atrate. Scopul ret ,elei DCNN este clasi carea imaginilor ^ n funct ,ie de faptul c a
centrul peticului face sau nu face parte dintr-o micro-calci ere.
Acuratet ,ea maxim a obt ,inut a de sistemul propus este de 83.7%, comparat cu 58% obt ,inut prin
abordarea clasic a.
At^ at micro-calci erile, c^ at s ,i t ,esutul din fundalul micro-calci erilor sunt examinate ^ n lucrarea
A context-sensitive deep learning approach for microcalci cation detection in mam-
mograms [11] pentru a testa e cient ,a acestui sistem. Dintr-un set de aproximativ 300 de
cazuri, sunt extrase c^ ate dou a petice de imagine, unul care cont ,ine micro-calci erea (o matrice
de dimensiune 9×9 pixeli) s ,i fundalul (t ,esutul) ^ n care se a
 a micro-calci erea (o matrice de
dimensiune 95×95 de pixeli, aproximativ 1 cm2).
Pentru ecare set de imagini sunt implementate 2 sub-ret ,ele neuronale de tip "Deep Neural
Network" (DNN) formate din straturi convolut ,iunale, de non-liniarizare, "batch normaliza-
tion", "max pooling" s ,i "fully connected". Aceste ret ,ele sunt ^ nl ant ,uite ^ n cascad a. Sunt
efectuate experimente pentru a determina num arul optim de straturi convolut ,iunale, intre 3
s,i 8.
Sistemul este e cient ^ n detect ,ia micro-calci erilor, cu o rata foarte mica de rezultate pozitive
false (RPF) pe cm2- 1,03 RPF/ cm2- comparat cu un sistem SVM – 5,69 RPF/ cm2- s ,i
un DNN care utilizeaz a doar peticul local (cel mai mic, care nu cont ,ine s ,i fundalul) – 6,00
RPF/cm2.
8

^In lucrarea A Mixture of Views Network with Applications to the Classi cation of
Breast Microcalci cations [7] sunt utilizate seturi de date din mamogra i caudal craniale
(CC) s ,i medio-oblice (MLO) pentru a obt ,ine doua seturi de rezultate, dorind a se testa teoria
ca se poate ajunge la un rezultat nal mai precis utiliz^ and decizii distincte generate de algoritmi
antrenat ,i pe imagini luate de la senzori distinct ,i.
Ret ,eaua cont ,ine 3 componente principale: un set de ret ,ele neuronale ^ n care ecare dintre
acestea ofer a o decizie bazat a pe un senzor, o ret ,ea neuronal a care de nes ,te care dintre decizii
poate luat a utiliz^ and un singur senzor s ,i o sum a ponderat a de decizii ale expert ,ilor, unde
ponderile sunt datele de ies ,ire ale celei de-a doua componente.
Rezultatele obt ,inute arat a c a acuratet ,ea sistemului este us ,or mai mare comparat cu sistemele
construite ^ n acelas ,i experiment unde sunt folosite date de la c^ ate un singur senzor.
9

3 METODOLOGIE DE LUCRU
3.1 Software utilizat
3.1.1 Python
Python este un limbaj de programare interpretabil "high-level". A fost dezvoltat de Guido
van Rossum s ,i lansat ^ n 1991. Avantajul acestui limbaj de programare este us ,urint ,a cu care
se codul este scris s ,i citit, pentru proiecte de dimensiuni mici s ,i mari.
Un alt avantaj al acestui limbaj de programare este multitudinea libr ariilor care sunt disponibile
pentru a prelucra imagini, de la calcul matricial, p^ an a la detect ,ie de forme. Printre libr ariile
principale folosite ^ n acest proiect se num ara:
numpy este o libr arie folosit a pentru calcul cu matrici multi-dimensionale. La baz a, Python
nu are suport nativ pentru astfel de matrici, de aceea ne vom folosii de numpy pentru a
prelucra imaginile.
^In cazul transform arilor complexe s ,i pentru extragerea informat ,iilor mai ^ n detaliu din imagini,
avem nevoie de o libr arie mai puternic a. OpenCV (Open Source Computer Vision Library)
cont ,ine peste 2500 de algoritmi optimizat ,i, at^ at clasici c^ at s ,i de stadiu actual. Suporta
interfet ,e C++, Python, Java s ,i MATLAB s ,i poate utilizat a pe sisteme de operare Windows,
Linux, Android s ,i Mac OS. Vom detalia algoritmii utilizat ,i ^ n faza de preprocesare mai t^ arziu
^ n aceast a lucrare.
Pentru a a s ,a imaginile ^ n faza de preprocesare se va utiliza libr aria matplotlib , cu care putem
proiecta at^ at gra ce, c^ at s ,i imagini ^ n diferitele faze ale prelucr arii. Imaginile se pot a s ,a ^ n
diferite canale de culori at^ at standard, c^ at s ,i non-standard.
3.1.2 Jupyter Notebook
Jupyter Notebook este o aplicat ,ie server-client care permite editarea s ,i execut ,ia documen-
telor de tip "notebook" ^ ntr-un browser web, cu sau f ar a o conexiune la internet existent a.
Un "notebook" reprezint a un s ,ier care cont ,ine at^ at cod (compatibil cu peste 40 de limbaje
de programare, incluz^ and Python), c^ at s ,i "rich text" (paragrafe, ecuat ,ii, guri etc.).
Aplicat ,ia cont ,ine s ,i un nucleu care este utilizat pentru a interpreta codul scris. C^ and un
document "notebook" este deschis, odat a cu acesta este pornit s ,i un nucleu corespunz ator
s ,ierului.
Se va utiliza aceast a aplicat ,ie ^ n faza experimental a pentru us ,urint ,a cu care se poate executa
codul s ,i cu care se pot vizualiza rezultatele.
10

3.2 GitHub
La origine, GitHub esteGit, un proiect "open-source" care are scopul de a controla versiunile
proiectelor. ^In mod normal utilizat pentru cod, aceast a aplicat ,ie poate utilizat a s ,i pentru
diferite documente Word, PDF sau s ,iere video.
GitHub este un serviciu de g azduire pentru Git, dar adaug a s ,i alte funct ,ionalit at ,i pe deasu-
pra. Git poate utilizat ^ n mod normal doar cu interfat ,a din linia de comand a, ^ n timp ce
GitHub ofer a o interfat , a gra c a, at^ at web c^ at s ,i desktop. Pe deasupra, acest serviciu ofer a s ,i
posibilitatea de editare de documentat ,ie s ,i unelte pentru managementul de sarcini.
Cea mai cunoscut a funct ,ionalitate a acestei aplicat ,ii este "forking"-ul, act ,iunea de copiere
a codului din contul unui utilizator ^ n contul altui utilizator. Acest lucru permite editarea
codului pe mas ,ina local a a unui utilizator, cod care ^ n mod normal nu ar putea editat. Dup a
modi care, utilizatorii pot face un "pull request", suma schimb arilor dintre versiunea init ,ial a
s,i versiunea propus a, pe care det ,in atorul codului original ^ l poate ad auga ^ n codul s au prin
operat ,iunea de "merge".
Aceste funct ,ionalit at ,i faciliteaz a fenomenul "open-source", oferind posibilitatea contribut ,iei
mai multor utilizatori ^ ntr-un proiect comun.
Se va folosi GitHub ^ n aceasta lucrare, at^ at pentru managementul versiunilor codului, c^ at s ,i
pentru a face disponibil codul unui public larg, spre ^ mbun at at ,irea acestuia.
3.2.1 Not ,iuni de baz a ^ n "machine learning" supervizat
"Machine learning" ( ^ n traducere literar a " ^ nv at ,are mecanic a") supervizat r aspunde la urm atoarea
^ ntrebare: "Cum putem combina date de intrare pentru a face predict ,ii folositoare pe date
nemai ^ nt^ alnite?".
Printre not ,iunile fundamentale c^ and vine vorba de "machine learning" avem urm atoarele:
Etichete
O etichet a ("label") este lucrul pe care dorim sa facem predict ,ia, este variabila y^ n regresie
liniar a simpl a (ex: ce liter a este reprezentat a ^ ntr-o poz a, dac a ^ ntr-o poz a se a
 a o mas ,in a,
un camion sau o motociclet a etc.)
Caracteristici
Caracteristica ("feature") este variabila de intrare, variabila x^ n regresie liniar a simpl a; se pot
utiliza de la una pana la milioane de caracteristici, ^ n funct ,ie de sistem:
x1;x2;:::x N
De exemplu, pentru un clasi cator de vehicule, putem utiliza informat ,ii cum ar :
11

forma vehiculului;
^ n alt ,imea sa;
num arul de rot ,i.
Exemple
Un exemplu este este o instant , a particular a de date x(vector), el poate de dou a tipuri:
exemplu etichetat;
exemplu neetichetat.
Unexemplu etichetat cont ,ine at^ at caracteristici, c^ at s ,i etichete. Acestea sunt folosite ca
date de antrenament pentru modelul de "machine learning".
^In cazul interpret arii mamogra ilor, un set de date de acest tip ar ar ata ^ n felul urm ator:
case tissueType (caract.) xCord (caract.) yCord (caract.) area (caract.) diagnosis (caract.) malignorbenign (etichet a)
mdb001 G 535 425 197 CIRC B
mdb002 G 522 280 69 CIRC B
mdb005 F 477 133 30 CIRC B
mdb005 F 500 168 26 CIRC M
mdb010 F 525 425 33 CIRC B
mdb012 F 471 458 40 CIRC B
mdb013 G 667 365 31 MISC M
Unexemplu neetichetat cont ,ine doar caracteristici. Din setul de date de mai sus, putem
ignora coloana malignorbenign pentru a obt ,ine un set de exemple neetichetate. Acest tip
de date este folosit pentru a realiza predict ,ii.
Modele
Unmodel reprezint a leg atura dintre caracteristici s ,i etichete. Un model de detect ,ie de cancer
la s^ an ar putea sa interpreteze m arimea leziunilor ca ind un indicativ foarte bun pentru un
diagnostic pozitiv benign. Sunt dou a faze principale pe durata de viat , a a unui model:
faza de antrenament sau faza de ^ nv at ,are- ^ n aceast a faz a modelul va primii exemple
etichetate s ,i va face leg atura ^ ntre caracteristici s ,i etichete;
faza de interferent , a- ^ n aceasta faz a se aplic a exemple neetichetate pentru a face
predict ,ii.
De asemenea, modelele se ^ mpart ^ n dou a mari categorii:
modele de clasi care – se fac predict ,ii pe valori discrete (ex: ^ n poz a avem un c^ aine
sau o pisic a);
modele de regresie – se fac predict ,ii pe date continue (ex: care va valoarea act ,iunilor
Apple la burs a pe ziua de m^ aine).
12

3.2.2 Componente
Ret ,ele neuronale utilizeaz a diferite "componente" sau straturi care servesc roluri speci ce.
Printre cele mai utilizate se num ara:
Stratul convolut ,ional
Scopul acestui strat este extragerea caracteristicilor la nivel ^ nalt dintr-o matrice, cum ar
marginile^ n cazul imaginilor, din matricea de intrare. ^In mod normal, primul strat convolut ,ional
are rolul de a extrage caracteristici cum ar marginile, culoarea, gradientul, orientarea etc. Cu
c^ at se adaug a mai multe straturi de acest tip, cu at^ at mai multe caracteristici vor extrase.
Exista dou a tipuri de rezultate care pot sa reias a din acest strat, un rezultat redus fat , a de
matricea de intrare sau un rezultat care este de aceleas ,i dimensiune sau m arit ca dimensiuni.
Stratul de ^ mbinare ("pooling")
Similar cu stratul convolut ,ional, stratul de "pooling" are rolul de a reduce m arimea caracteris-
ticilor din mijlocul procesului. Dorim acest lucru pentru a mics ,ora puterea de calcul necesar a
pentru a procesa datele, prin reducerea dimensiunilor acelor date. De asemenea, acest proces
poate servi s ,i la extragerea caracteristicilor dominante dintr-o matrice.
Exist a dou a tipuri de "pooling" – "max pooling" s ,i "average "pooling". Primul returneaz a va-
loarea maxim a din port ,iunea imaginii acoperit a de nucleu, ^ n schimb cel de-al doilea returneaz a
media tuturor valorilor din port ,iunea de imagine acoperit a de nucleu (Figura 4).
Figura 4: Procesele de "max pooling" s ,i "average pooling"
Stratul complet conectat ("Fully Connected (FC) Layer")
Stratul complet conectat leag a ecare neuron dintr-un strat cu ecare neuron din alt strat.
Acest strat are rolul de a redimensiona matricea de intrare ^ n matricea de clasi care a datelor
13

de intrare.
3.2.3 Antrenarea unui model
Antrenarea unui model presupune determinarea valorilor optime pentru toate ponderile s ,i
prejudecata din exemplele etichetate. ^In cadrul ^ nv at , arii supervizate, algoritmul de "machine
learning"^ ncearc a sa construiasc a un model pe baza exemplelor date, minimiz^ and pierderile
din sistem, ^ ntr-un proces numit reducerea riscului empiric .
Pierderea ("loss") reprezint a penalizarea pentru predict ,ii gres ,ite. Aceast a valoare indic a
c^ at de departe de rezultat a fost predict ,ia pentru un singur exemplu. Dac a predict ,ia a fost
perfect a, pierderea este zero, dac a nu, aceasta poate mai mare. Modelul antrenat are scopul
de a minimiza media pierderilor pentru toate exemplele folosite ^ n faza de antrenament.
Cea mai popular a ecuat ,ie pentru a determina pierderile ^ ntr-un model este ecuat ,iaL2loss.
Pentru un singur exemplu ecuat ,ia arat a ^ n felul urm ator:
(yy0)2
Unde:
yeste eticheta;
y'este predict ,ia f acut a de model.
Mean square error (MSE) este media tuturor diferent ,elor dintre etichete s ,i predict ,ii la
p atrat, pe ^ ntregul set de date. Se calculeaz a astfel:
MSE =1
NP
(x;y)2D(ypredic t,ie(x))2
Unde:
(x, y) sunt perechile de caracteristici s ,i etichete pentru ecare exemplu etichetat;
predict ,ie(x) este funct ,ia care cont ,ine ponderile s ,i prejudecata pentru setul de caracte-
ristici x;
Deste setul de date ce cont ,ine perechile (x,y) ;
Neste num arul de exemple din D.
Pentru a minimiza pierderea, algoritmul pe care funct ,ioneaz a ML este unul iterativ. Se ^ ncepe
cu o valoare aleatoare pentru greutate (presupunem ca valoarea greut at ,iiw1este 0.3), se
calculeaz a pierderea, apoi se alege o greutate nou a s ,i se calculeaz a din nou pierderea. Iterativ,
valoarea greut at ,ii ar trebui sa ajung a ^ ntr-un punct cat mai aproape de adev ar. Di cultatea
se a
 a ^ n e cientizarea acestui proces. Atunci c^ and valoarea pierderii se opres ,te din schimbare
sau c^ and aceasta se schimb a foarte lent, putem spune ca modelul a ajuns ^ ntr-o faz a de
convergent , a.
y0=b+w1x1
14

3.3 Algoritmi utilizat ,i
3.3.1 Binarizarea Otsu
Conversia unei imagini gri ^ ntr-o imagine monocrom a este o problem a comun a ^ n ceea ce
prives ,te procesarea de imagini. Metoda Otsu, numit a dup a inventatorul ei Nobuyuki Otsu,
este una dintre cele mai populare metode de binarizare a imaginilor (Figura 5).
Figura 5: Binarizarea Otsu
Metoda Otsu implic a iterarea prin toate valorile pragului de binarizare s ,i calcularea r asp^ andirii
pentru ecare valoare a pixelilor de ecare parte a pragului, mai exact pixelii care se a
a ^ n
prim plan sau ^ n fundal. Scopul este sa a
 am valoarea pragului ^ n care suma fundalului s ,i cea
a prim planului se ^ ntinde la un minim.
Algoritmul este format din urm atorii pas ,i:
Se creeaz a o histograma a imagini init ,iale. Se presupune ca imaginea este o imagine ^ n
nuant ,e de gri. Pentru imagini ^ n format RGB se va aplica o conversie ^ n nuant ,e de gri.
Binarizarea Otsu foloses ,te date statistice ale imaginii. Histograma este o reprezentare a
distribut ,iei datelor. Calcul am valoarea ec arui pixel dintr-o imagine, iar la nal a s , am datele
^ ntr-un gra c (Figura 6). ^In cazul nostru, imaginile vor avea pixeli cu valori intre 0 s ,i 255.
Figura 6: Calcularea histogramei unei imagini ^ n tonuri de gri
^In urm atorul pas, se va calcula variant ,a ^ n clase . Dac a alegem valoarea pragului T = 3,
atunci imaginile for separate ^ n dou a clase, prima clas a unde valoarea pixelului este mai mic a
sau egal a cu 3 s ,i a doua clas a cu valori mai mari de 3. Prima clas a ar putea reprezenta prim
planul, iar a doua clas a ar reprezenta fundalul.
15

Variant ,a reprezint a distribut ,ia datelor, cu c^ at varianta este mai mare, cu at^ at datele sunt mai
dispersate (Ecuat ,ia 1).
2
w(t) =!0(t)2
0(t) +!1(t)2
1(t) (1)
^In ceea ce prives ,te variant ,a ^ n clase, cu c^ at valoarea variant ,ei este mai mica, cu at^ at datele
din cele dou a clase sunt mai put ,in dispersate. De aceea, este important sa a
 am valoarea
minim a a variant ,ei pentru a determina pragul optim.
Acum c a avem variant ,a ^ n clase, vom avea nevoie sa calcul am s ,ivariant ,a dintre clase .^In
acest caz, vom avea nevoie de valoarea maxim a a acesteia pentru a determina pragul optim.
Se pot folosi dou a metode pentru a demonstra acest lucru:
se poate calcula variant ,a total a dintr-o imagine s ,i se poate scade variant ,a^ n clase optim a
din total (care este mereu aceeas ,i);
s,tim c a avem dou a clase, prim plan s ,i fundal, s ,i consider am c a variant ,a dintre clase
este minim a, acest lucru ^ nseamn a c a dispersia ^ ntre cele dou a clase este cea mai mic a,
as ,adar variant ,a ^ ntre clase ar trebui sa e maxim a (Ecuat ,ia 1).
2
b(t) =22
w(t) =!0(0T)2+!1(1T)2=!0(t)!1(t) [0(t)1(t)]2(2)
3.3.2 Algoritmul "k-means"
Algoritmul "k-means" este unul dintre cele mai simpli s ,i populari algoritmi de "machine lear-
ning" nesupervizat. De obicei, algoritmii nesupervizat ,i fac referint ,e din setul de date folosind
numai vectori de input, f ar a a face referint , a la rezultate cunoscute sau etichetate.
Obiectivul algoritmului "k-means" este s a grupeze puncte similare de date ^ mpreun a s ,i s a
descopere modelele care stau la baz a. Pentru a realiza acest lucru, algoritmul ^ ncearc a s a
obt ,in a un num ar nit de K grupuri ("clusters") (Figura 7).
Un "cluster" reprezint a o colect ,ie de puncte agregate urm^ and anumite similitudini. Sunt
de nit ,i un knum ar de centroizi de care avem nevoie ^ n setul de date. Un centroid este o
locat ,ie imaginar a sau real a care reprezint a centrul "cluster"-ului. Fiecare punct din setul de
date este alocat unui "cluster".
Algoritmul "k-means" foloses ,te un proces iterativ pentru a produce rezultatul nal. Algoritmul
primes ,te ca date de intrare num arul kde grupuri s ,i setul de date. Setul de date poate cont ,ine
o colect ,ie de tr as aturi pentru ecare punct de date. Algoritmul ^ ncepe cu estimarea init ,ial a
pentru cei kcentroizi, care pot generat ,i aleatoriu sau selectat ,i aleatoriu din setul de date.
Algoritmul urmeaz a apoi urm atorii pas ,i iterativ:
Asignarea datelor Fiecare centroid de nes ,te unul din grupuri. ^In acest pas, ecare punct
este asignat la un centroid, folosind distant ,a p atratica euclidian a. cieste colect ,ia de centroizi
din setul C, atunci ec arui punct xeste asignat unui grup dup a ecuat ,ia:
S(t)
i=fxp:kxpc(t)
ik2kxpc(t)
jk28j;1jkg (3)
16

Figura 7: Reprezentarea gra c a a rezultatului algoritmului "k-means"
Actualizarea centroizilor ^In acest pas, centroizii sunt recalculat ,i, acest lucru ind realizat
prin a lua media tuturor punctelor asignate acelui centroid.
c(t+1)
i=1 S(t)
i X
xj2S(t)
ixj (4)
Algoritmul itereaz a ^ ntre cei doi pas ,i p^ an a c^ and criteriul de oprire este atins (ex: suma
distant ,elor este minimizat a, num arul maxim de iterat ,ii este atins, nici unul din punctele de
date nu schimba grupul).
Algoritmul garanteaz a ca va converge la un rezultat, dar acest lucru nu garanteaz a ca vom
obt ,ine cel mai bun rezultat, de aceea este indicat a rularea algoritmului cu centroizi init ,iali
aleatorii pentru a avea rezultate mai bune.
Pentru acest proiect, se va folosi acest algoritm implementat ^ n libr aria OpenCV pentru a
segmenta imaginea pe diferite nivele de gri, ^ n scopul ^ ndep art arii anumitor zone din mamo-
gra i. Algoritmul permite de nirea num arului de clase pe baza c aruia ecare pixel din imagine
va asignat uneia dintre acestea (Figura 8).
3.4 Baze de date
Baza de date pe care o vom utiliza pentru antrenarea ret ,elei neuronale este MIAS ("Mam-
mographic Image Analysis Society"). Aceasta cont ,ine 322 de cazuri distincte, ^ ntr-o rezolut ,ie
de 1024 x 1024 de pixeli. Pe l^ ang a imagini, este disponibil s ,i diagnosticul dat de radiolog, pe
care ^ l vom utiliza ca surs a de adev ar. (Tabela 1)
Structura bazei de date este urm atoarea:
num arul de referint , a al cazului – urmeaz a structura "mdb" + num arul cazului (ex:
"mdb001", "mdb002", "mdb003" etc.);
valoarea densit at ,ii t ,esutului: F – t ,esut gras, G – t ,esut gras glandular, D – t ,esut dens
glandular;
17

Figura 8: Aplicarea algoritmului "k-means" ^ n procesarea de imagini utiliz^ and libr aria OpenCV
clasa anormalit at ,ii identi cate: CALC – calci care, CIRC – mas a bine de nit a, cir-
cumscris a, SPIC – mas a spiculat a, MISC – mas a prost de nit a, ARCH – distorsiune
arhitectural a, ASYM – asimetrie, NORM – caz normal;
severitatea anormalit at ,ii, dac a una exist a ^ n imagine: M – malign a, B – benign a;
coordonatele x,y ale anormalit at ,ii;
raza aproximat a a anormalit at ,ii.
3.5 Preprocesarea datelor
Pentru a segmenta zonele sanului cat mai e cient, este important sa eliminam cat mai mult
din artefactele din imagini si zona pectorala. In acest sens, imaginile vor preprocesate. In
aceasta sectiune, se va descrie acest proces pas cu pas.
Pentru a obtine masca initiala, se foloseste metoda Otsu pentru a binariza imaginea initiala.
Acest procedeu transforma atat zona sanului, zona pectorala si artefactele din imagini in spatiu
alb pe fundal negru.
Ne folosim de imaginea binarizata pentru a detecta contururi din imagini. Consideram ca
zona cu aria cea mai mare este si zona sanului. Pe cale de consecinta, se vor elimina toate
ariile, mai putin aria maxima.
In pasul urmator, vom orienta sanul pentru toate imaginile incepand din partea stanga. Daca
primele 5 coloane de pixeli din imagini contin mai multi pixeli albi decat ultimele 5 (aceasta
comparatie se face insumand primele 5 si ultimele 5 coloane, valoriile de negru si alb avand
valori de 0 respectiv 255), vom considera ca sanul este deja orientat corect. In celelalte cazuri,
vom inversa imaginea pe axa orizontala.
Pentru indepartarea muschiului pectoral, vom utiliza un proces format din mai multi pasi:
se va indeparta orice spatiu negru vertical, eliminand coloanele complet negre din ima-
gini;
ne intereseaza doar partea din stanga sus a imaginii, de aceea vom decupa jumatate din
ea pe axa verticala;
18

Tabela 1: Extrase din baza de date MIAS. Se observ a pe o parte din imagini artefacte sub
form a de diverse etichete.
rezultatul obtinut va procesat utilizand un ltru "kmeans", cu 5 clase distincte;
in acest punct avem zona pectorala, care este si cea mai deschisa la culoare izolata,
alaturi de alte zone mai dense ale sanului;
pentru a indeparta zona pectorala fara sa eliminam parte din san, vom identi ca linia
diagonala care pleaca de la cel mai jos punct alb pana la ultimul punct alb continuu din
latura de sus a imaginii;
linia diagonala va aplicata ca o masca pe imaginea din care a fost eliminat fundalul
negru pentru a naliza procesul.
19

4 IMPLEMENTARE
20

5 REZULTATE EXPERIMENTALE
21

6 CONCLUZII
22

BIBLIOGRAFIE
[1] Margaret M. Eberl, Chester H. Fox, Stephen B. Edge, Cathleen A. Carter, and Martin C.
Mahoney. Bi-rads classi cation for management of abnormal mammograms. The Journal
of the American Board of Family Medicine , 19(2):161{164, 2006.
[2] World Cancer Research Fund. Breast cancer statistics. https://www.wcrf.org/
dietandcancer/cancer-trends/breast-cancer-statistics . Data acces arii: 31
Martie 2019.
[3] DR. Filip Gheorghe Gerald. Cancerul de san – date statistice. https://www.
reginamaria.ro/articole-medicale/cancerul-de-san-date-statistice . Data
acces arii: 31 Martie 2019.
[4] Janet E Joy, Edward E Penhoet, Diana B Petitti, et al. Bene ts and limitations of mam-
mography. In Saving Women's Lives: Strategies for Improving Breast Cancer Detection
and Diagnosis . National Academies Press (US), 2005.
[5] Jan-Jurre Mordang, Tim Janssen, Alessandro Bria, Thijs Kooi, Albert Gubern-M erida,
and Nico Karssemeijer. Automatic microcalci cation detection in multi-vendor mam-
mography using convolutional neural networks. In International Workshop on Breast
Imaging , pages 35{42. Springer, 2016.
[6] Ravi K Samala, Heang-Ping Chan, Lubomir M Hadjiiski, Kenny Cha, and Mark A Hel-
vie. Deep-learning convolution neural network for computer-aided detection of microcal-
ci cations in digital breast tomosynthesis. In Medical Imaging 2016: Computer-Aided
Diagnosis , volume 9785, page 97850Y. International Society for Optics and Photonics,
2016.
[7] Yaniv Shachor, Hayit Greenspan, and Jacob Goldberger. A mixture of views network
with applications to the classi cation of breast microcalci cations. arXiv preprint ar-
Xiv:1803.06898 , 2018.
[8] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale
image recognition. arXiv preprint arXiv:1409.1556 , 2014.
[9] Gabriele Valvano, Daniele Della Latta, Nicola Martini, Gianmarco Santini, Andrea Gori,
Chiara Iacconi, Andrea Ripoli, Luigi Landini, and Dante Chiappino. Evaluation of a deep
convolutional neural network method for the segmentation of breast microcalci cations
in mammography imaging. In EMBEC & NBC 2017 , pages 438{441. Springer, 2017.
[10] Jinhua Wang, Xi Yang, Hongmin Cai, Wanchang Tan, Cangzheng Jin, and Li Li. Discri-
mination of breast cancer with microcalci cations on mammography by deep learning.
Scienti c reports , 6:27327, 2016.
[11] Juan Wang and Yongyi Yang. A context-sensitive deep learning approach for microcal-
ci cation detection in mammograms. Pattern recognition , 78:12{22, 2018.
23

Similar Posts