Data Mining Tehnologii Pentru Extragerea Cunoștințelor

Data Mining

Tehnologii pentru extragerea cunoștințelor

Introducere

După mai multe decenii în cursul cărora mijloace și tehnici informatice tot mai evoluate au contribuit la amplificarea capacității de memorare și stocare a datelor, ultimii ani au marcat o reorientare semnificativă în utilizarea volumelor de date stocate, de la un proces de explorare retrospectivă spre unul cu caracter prospectiv. Această schimbare a devenit posibilă ca urmare a maturizării tehnologiilor legate de data mining.

Denumirea provine de la analogia cu activitatea minieră; tot așa cum este necesară dislocarea și rafinarea a tone de minereu pentru a obține câteva grame de aur, aici sunt examinate și analizate sute de mii sau milioane de date pentru a extrage din ele informații și semnificații noi, dincolo de scopurile pentru care acestea au fost colectate și memorate la origine.

Data mining are, ca și alte concepte folosite în informatică, mai multe definiții. În esență, acestea converg spre ideea formulată anterior: un proces de extragere de informații noi din colecțiile de date existente. Termenul de dată este utilizat aici cu semnificația de descriere a unui eveniment precis, produs în lumea reală și verificabil prin raportare la aceasta. Informația (sau cunoașterea transmisă) constituie descrierea unei categorii abstracte, ce acoperă mai multe evenimente sau exemple concrete.

Principiul de funcționare în data mining este următorul: se prelucrează datele referitoare la perioadele trecute, examinând o varietate de situații care s-au produs și ale căror rezultate sau consecințe sunt deci, bine cunoscute, pentru a evidenția caracteristicile acestora și a permite elaborarea unui model. Odată construit, modelul poate fi aplicat situațiilor noi de același tip.

Informațiile obținute prin data mining sunt de natură predictivă sau descriptivă.

Un exemplu tipic de problemă predictivă este direcționarea acțiunilor de marketing. Datele rezultate din corespondența promoțională trecută se folosesc pentru a identifica destinatarii pentru care următoarea campanie promoțională poate aduce un maxim de efect.

Detectarea tranzacțiilor frauduloase cu carduri bancare constituie unul dintre exemplele tipice de aplicații descriptive. Explorarea ansamblului tranzacțiilor permite evidențierea unui anumit tipar comportamental, considerat normal. Deîndată ce la un bancomat se cere efectuarea unei tranzacții ce iese din acest tipar, solicitarea poate fi refuzată. Este posibil ca operația cerută să fie sau să nu fie frauduloasă; o analiză ulterioară poate stabili acest lucru dar, în acest stadiu, sistemul o respinge pentru a preveni orice consecințe nedorite.

Fundamentele explorării datelor

Expansiunea tehnicilor de data mining se explică, printre altele, prin faptul că firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacții de diverse tipuri, derulate de-a lungul mai multor ani. Băncile posedă, spre exemplu, arhive de milioane de înregistrări, în care sunt consemnate în detaliu operațiile efectuate de clienții lor. În orice firmă se găsesc mii și sute de mii de înregistrări privitoare la cumpărările, vânzările, încasările și plățile făcute. Societățile de telefonie mobilă posedă date privitoare la fiecare convorbire efectuată de abonații lor, incluzând data, momentul și locul apelului, numărul de telefon al corespondentului, durata convorbirii. Un magazin de tipul cash and carry posedă sute de mii de înregistrări, provenind de la casele de marcaj, în care figurează nu numai articolele cumpărate ci și cumpărătorii, identificați prin legitimațiile de acces. Multă vreme acestea s-au acumulat pur și simplu în virtutea nevoii de arhivare. Creșterea permanentă a concurenței, exigențele din ce în ce mai mari ale pieței au determinat firmele să devină conștiente de potențialul pe care aceste arhive de date îl reprezintă. Toate exemplele enumerate au un element comun: vizează, în mod direct sau indirect, clienții. Exploatarea lor din această perspectivă oferă oportunități deosebite. Datele sunt la dispoziția organizației respective; datele sunt cât se poate de precise și analitice; datele sunt în volum mare și acoperă perioade de timp de ordinul anilor. Dar relația cu clienții nu este singura direcție de re-utilizare a acestor date. În multe alte domenii ale activității de afaceri, tendințele pe care acestea le încorporează sau le reflectă în mod obiectiv, structurile sau tiparele pe care le relevă sunt deosebit de valoroase.

Alături de existența colecțiilor de date istorice memorate pe suporturi informatice, încă doi factori explică emergența cunoscută actualmente de data mining: maturizarea algoritmilor și a produselor program dedicate și creșterea capacității de memorare și prelucrare a calculatoarelor, care permite tratarea în corelație a volumelor foarte mari de date.

Unele dintre tehnicile de data mining datează de ceva mai mulți ani. Algoritmii folosiți au cunoscut însă un proces de evoluție continuă, care a permis înlăturarea unora dintre limitele sau deficiențele inițiale. Produsele program au evoluat și ele spre o utilizare cât mai facilă, la un asemenea nivel încât pot fi folosite cu o cunoaștere minimă a tehnicii pe care o implementează. În sfârșit, au apărut firme care oferă spre vânzare colecții de date istorice de uz general – cum ar fi, spre exemplu, evoluția indicatorilor bursieri din ultimii 20 de ani – special constituite pentru asemenea utilizări.

Depozitele de date și tehnologiile OLAP vizează și ele datele colectate la nivelul organizațiilor. În ciuda unor cerințe și prelucrări preliminare asemănătoare, există deosebiri esențiale în privința demersului la care recurg fiecare dintre ele și nu mai puțin, a obiectivelor urmărite. Nu este mai puțin adevărat că depozitele de date se pretează foarte bine ca surse pentru data mining iar rezultatele furnizate de acesta pot completa câmpurile înregistrărilor celor dintâi și pot fi valorificate apoi prin proiecțiile multidimensionale specifice OLAP.

O explorare dirijată de oportunități

Potențialul oferit de tehnicile de data mining trebuie încorporat în procesele comerciale curente ale organizațiilor pentru a deveni realmente utile. Căutarea de informații nu este un scop în sine; ea devine utilă doar în măsura în care se transpune în acțiune.

Declanșarea unui demers bazat pe data mining se face ca urmare a observării sau constatării unei necesități sau oportunități comerciale. Observarea diminuării numărului de clienți, scăderea vânzărilor la un anumit produs, lansarea unui nou produs sau serviciu sunt câteva exemple de situații de acest tip. O firmă poate alege să reacționeze sau nu la asemenea situații și, în caz afirmativ, poate alege diverse moduri de a o face. Tehnicile de data mining constituie una dintre acestea. Totuși, este de reținut că fiecare dintre ele este adecvată unui anumit gen de probleme sau de circumstanțe și că, de multe ori, aplicarea lor în combinație poate produce rezultatele cele mai bune. Alegerea trebuie să aibă în vedere și compatibilitatea dintre cerințele în materie de date ale tehnicii sau tehnicile alese și cele de care se poate dispune realmente.

Pasul următor constă în explorarea propriu-zisă a datelor. La rândul său, acesta este departe de a fi simplu sau liniar. Multe dintre aceste tehnici solicită, înainte de a putea fi utilizate, un proces de învățare; datele, fiind eterogene, impun o etapă de pregătire prealabilă; rezultatele sunt rareori aplicabile în forma în care sunt obținute, cerând un efort suplimentar de interpretare și adaptare, la care să participe și decidentul, cu cunoștințele și experința sa în afaceri. Spre exemplu, aplicarea unui algoritm de grupare poate evidenția existența a 20 de clustere diferite; dintre acestea, doar unul se poate dovedi util dar relevanța lor nu poate fi apreciată decât de specialistul sau specialiștii din firmă.

Informațiile obținute anterior au valoarea acțiunilor întreprinse pe baza lor. Tehnicile de data mining permit obținerea de cunoștințe mai bogate privitoare la mediul în care există și funcționează întreprinderea. Acestea trebuie însă transformate în acțiune iar efectul acțiunilor măsurat.

Este posibil ca acțiunea de data mining să fie un eșec și nu o reușită. Este posibil ca măsurile întreprinse să nu fie cele mai adecvate în raport cu informațiile obținute. Atât reușita cât și eșecul pot fi sursă de învățăminte pentru viitor, pot fi stimulii unor noi acțiuni de data mining, mai bine și mai precis orientate și derulate.

Toate aceste conturează ideea unui ciclu în utilizarea data mining, în cursul căruia se parcurg cele patru etape menționate:

identificarea oportunității comerciale și a datelor pe care se poate baza explorarea

extragerea de informații din colecțiile de date existente prin tehnici adecvate de data mining

adoptarea de decizii și întreprinderea de acțiuni pe baza informațiilor obținute

măsurarea rezultatelor concrete pentru a identifica și alte modalități de exploatare a datelor disponibile

Figura 1. Ciclul de utilizare a data mining

Verificarea ipotezelor și căutarea cunoștințelor

Aplicarea tehnicilor de data mining poate fi făcută din perspectiva unui demers ascendent sau descendent.

În abordarea descendentă, efortul este orientat spre confirmarea sau infirmarea unor idei (ipoteze) formulate în prealabil prin alte mijloace. Un demers asemănător se aplică în statistică și în analiza datelor, dar folosind alte tehnici și metode.

Figura 2. Utilizări ale tehnicilor de data mining

Abordarea ascendentă are o cu totul altă finalitate; ea urmărește extragerea de cunoștințe sau informații noi din datele disponibile. Căutarea poate fi dirijată sau nedirijată.

Căutarea dirijată ia în considerare un atribut sau un câmp, ale cărui valori încearcă să le explice prin celelalte câmpuri. Este cea mai folosită în practică.

Căutarea nedirijată are ca scop identificarea relațiilor sau structurilor existente în ansamblul datelor examinate, fără a acorda prioritate unui câmp sau altul. Deși mai spectaculoasă, în practică se recurge mult mai puțin la ea decât la căutarea dirijată.

Tehnici și acțiuni

Ceea ce se exploatează prin data mining sunt colecțiile de date de care dispune o organizație, colecții care au fost însă constituite pentru alte scopuri; în cazurile cele mai frecvente, este vorba de datele privitoare la tranzacțiile derulate într-o anumită perioadă de timp: comenzi, livrări, plăți, încasări etc. La acestea se adaugă, deseori, date provenite din alte surse, cum ar fi, spre exemplu, statistici oficiale privitoare la evoluția economiei în ansamblu, date privitoare la concurență, diverse măsuri legislative sau normative etc. Aceasta explică utilizarea frecventă a calificativului de informații ascunse: volumul mare sau foarte mare și faptul că structura și conținutul lor sunt edificate în perspectiva altor finalități, fac foarte dificilă sau imposibilă detectarea corelațiilor sau raporturilor de ansamblu pe care le încorporează în mod intrinsec.

Rezultatele sunt cu atât mai sigure și relevante, cu cât se bazează pe un volum mai mare de date, din motive lesne de înțeles: o tendință relevată de un număr foarte mare de cazuri practice este mult mai pertinentă decât cea dedusă din doar câteva situații.

Explorarea datelor în vederea obținerii de informații recurge la diverse tehnici, printre cele mai folosite aflându-se:

rețelele neuronale

arborii de decizie

algoritmii genetici

analiza grupurilor

raționamentele bazate pe cazuri

analiza legăturilor

La acestea se pot asocia și tehnici statistice, cum sunt, spre exemplu, regresiile, analiza factorială etc.

Data mining nu este un panaceu universal, capabil să rezolve orice problemă de gestiune. În fapt, aportul său se rezumă la un număr limitat de acțiuni: clasificarea, estimarea, predicția, gruparea, analiza grupărilor, dar care, folosite în mod adecvat, se pot dovedi extrem de utile pentru numeroase probleme și situații din domeniul decizional.

Clasificarea urmărește să plaseze obiectele prelucrate într-un grup limitat de clase predefinite. Spre exemplu, o cerere de credit va fi încadrată, prin clasificare, în una dintre următoarele categorii de risc: scăzut, mediu, ridicat. Obiectele clasificate sunt reprezentate, în general, sub formă de înregistrări, compuse din atribute sau câmpuri. Dintre tehnicile de data mining, cele mai adecvate clasificării sunt arborii de decizie și raționamentul bazat pe cazuri.

Estimarea urmărește să atribuie o valoare unei variabile, pe baza celorlalte date de intrare. Prin intermediul său se poate aprecia, de exemplu, numărul de copii sau venitul total al unei familii. Rezultatele obținute prin estimare sunt valori continue. Rețelele neuronale sunt printre cele mai bune tehnici de data mining pentru acest gen de prelucrări.

Predicția urmărește să claseze înregistrările tratate în funcție de un comportament sau o valoare estimată viitoare. În acest scop, se recurge la o colecție de exemple, bazate pe date din trecut, în care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul acestora se construiește un model care să explice comportamentul observat. Aplicând acest model asupra înregistrărilor de prelucrat, se obține o predicție a comportamentului sau valorilor acestora în viitor. Cu condiția folosirii unui set adecvat de exemple trecute, toate tehnicile de clasificare sau estimare pot fi folosite și pentru predicții.

Gruparea urmărește să determine care sunt obiectele care apar cel mai frecvent împreună. Exemplul tipic pentru acest gen de acțiune este determinarea mărfurilor care se cumpără uzual împreună, de unde și denumirea de “analiză a coșului gospodinei”.

Analiza grupurilor urmărește să dividă o populație eterogenă în grupuri mai omogene, numite “cluster”. Spre deosebire de celelalte tipuri de acțiuni asemănătoare, aici nu există un set predeterminat de clase ca în cazul clasificării și nici exemple trecute. Segmentarea se face în exclusivitate pe baza similitudinilor sesizate între obiecte.

Etapele procesului de explorare a datelor

Existența programelor pentru implementarea algoritmilor specifici tehnicilor de data mining este indispensabilă dar insuficientă. În amonte, programele trebuie alimentate cu date. Cum datele disponibile provin din surse variate și au fost, la origine, organizate și constituite pentru a răspunde altor scopuri, este necesară o fază de pregătire prealabilă, de curățare și uniformizare. În aval, rezultatele nu pot fi folosite în forma în care sunt furnizate de către programele respective; conținutul lor trebuie analizat și interpretat de către specialiști pentru a identifica informațiile pertinente pe care le conțin. Nu este mai puțin importantă selecția tehnicilor adecvate naturii problemei vizate. Este evident, prin urmare, că tehnicile de data mining se pot utiliza numai în cadrul unor procese specifice, relativ complexe și deseori neliniare. În cadrul acestora, se pot distinge următoarele etape:

definirea problemei

identificarea surselor de date

colectarea și selectarea datelor

pregătirea datelor

construirea modelului

evaluarea modelului

integrarea modelului

Definirea problemei

Așa cum s-a precizat anterior, declanșarea procesului este determinată de sesizarea unei oportunități sau necesități de afaceri. În cadrul acesteia, este nevoie să se delimiteze exact ce urmează a fi rezolvat prin data mining, care sunt obiectivele urmărite și rezultatele așteptate.

Problema de rezolvat prin data mining contribuie, ca parte componentă, la valorificarea oportunității sesizate de întreprindere, dar nu se identifică cu ea. În plus, trebuie să primească o formă în care să poată fi tratată prin aceste tehnici. Spre exemplu, inițiativa unei companii de telefonie mobilă de a testa pe piață un nou produs, ca oportunitate, este mult prea complexă și prea generală. Cum este vorba despre o testare, oferta va fi adresată doar câtorva sute dintre zecile de mii de abonați. Care dintre clienții actuali ai companiei ar putea fi cei mai interesați de noul serviciu și a căror apreciere ar fi deci cea mai pertinentă ? Abia aceasta este o problemă de data mining.

Identificarea surselor de date

Odată problema definită, este necesară stabilirea structurii generale a datelor necesare rezolvării sale și a regulilor de constituire a acestora. Urmează localizarea surselor acestora. În cazurile cele mai frecvente, este vorba de date dispersate în diverse sisteme informaatice operaționale, stocate în formate diferite, administrate cu produse software diferite, uneori disponibile numai pe hârtie. Înainte de a trece la etapa următoare, este recomandabilă examinarea conținutului fiecăreia dintre surse, pentru o familiarizare cu conținutul său și pentru identificarea, cât mai precoce, a eventualelor incoerențe sau probleme de definire, care pot compromite rezultatele analizelor următoare.

Colectarea și selecția datelor

Această etapă urmărește extragerea și plasarea într-o bază comună a tuturor datelor ce urmează a fi folosite. Este o muncă relativ anostă, care ocupă până la 80% din timpul global consumat. Existența depozitelor de date constituie un avantaj major.

Una dintre problemele de rezolvat în acestă fază constă în alegerea între prelucrarea întregului fond de date disponibil sau a unui eșantion. Limitele echipamentelor și a produselor program utilizate, bugetul alocat proiectului, cerințele și particularitățile studiului sunt factorii care intervin în această alegere. În cazul opțiunii pentru lucrul cu eșantioane, vor fi respectate toate regulile și cerințele de constituire a acestora.

Pregătirea datelor

Datele selectate în faza anterioară au fost, în marea majoritate a cazurilor, culese și stocate în cu totul alte scopuri. În consecință, trebuie supuse unui proces preliminar de pregătire înainte de a putea fi supuse extracției prin data mining. Alături de cerințele specifice fiecăreia dintre tehnici, care vor fi prezentate în paragrafele următoare, există o serie de transformări comune care vizează:

valorile extreme sau aberante

valorile lipsă

valorile de tip text

rezumarea

codificarea incoerentă

arhitecturile informatice incompatibile

Tratarea valorilor extreme sau aberante se poate face prin mai multe tehnici: încadrarea între limitele cuprinse între medie și un anumit număr de abateri standard prin excludere sau plafonare, izolarea vârfurilor, etc. Tratarea acestor valori trebuie făcută totuși cu mult discernământ deoarece în unele cazuri ele sunt cele care pot evidenția anumite trăsături relevante.

Valorile lipsă pot ridica probleme în funcționarea unor algoritmi de data mining. Și în acest caz, există mai multe acțiuni posibile: eliminarea înregistrărilor având câmpuri cu valori nule, completarea datelor omise cu valori medii, cu valoarea cea mai frecventă sau cu valori calculate după alte relații sau gestionarea distinctă a acestora prin înlocuirea cu constante predeterminate.

Valorile de tip text ridică numeroase dificultăți. Aceleași cuvinte separate de un număr diferit de spații reprezintă, în calculator, valori diferite. Chiar notații cu structură riguros definită, cum sunt numerele de înmatriculare auto, pot genera asemenea probleme. Din această cauză este preferabilă excluderea acestui tip de variabile. Dacă prelucrarea lor nu poate fi totuși evitată, soluția cea mai sigură constă în codificarea prin tabele de corespondențe, în care să figureze toate șirurile valide de caractere.

Rezumarea se poate aplica atunci când detaliile conținute în date sunt nesemnificative pentru rezolvarea problemei abordate, atunci când numărul de exemple analitice este insuficient sau atunci când datele sunt prea numeroase în raport cu capacitățile de prelucrare.

Codificarea incoerentă apare în cazurile în care obiecte identice sunt reprezentate diferit în unele dintre sursele folosite. Spre exemplu, același partener al firmei este referit prin coduri diferite în calitate de furnizor și de client. Dacă nu sunt compensate, aceste diferențe pot conduce la rezultate și concluzii eronate. Aceași situație poate apare în cazul utilizării abrevierilor curente, în care abateri minime de ortografiere conduc la interpretarea lor drept elemente diferite.

Incompatibilitățile arhitecturale informatice vizează, în principal, diferențele în modul de reprezentare internă a valorilor, mai ales atunci când este vorba despre date create cu sisteme din generații diferite.

Pentru multe dintre problemele de genul celor amintite, există programe specializate; de asemenea, numeroase produse program de data mining includ în mod implicit funcții de pregătore a datelor. Din păcate, acestea nu izbutesc să răspundă tuturor cerințelor și solicită adesea intervenții punctuale suplimentare.

Construirea modelului

Aceasta este etapa care se apropie cel mai mult de semnificația termenului de data mining. Având în vedere că întregul proces a fost dirijat de o anumită perspectivă de rezolvare, în care s-au făcut opțiuni privitoare la acțiunile de întreprins pentru explorarea datelor, la structura și la conținutul acestora, etapa se rezumă, în esență, la crearea modelului informatic care va efectua explorarea propriu-zisă.

Demersul aplicat influențează considerabil această etapă, iar uneori și etapele precedente.

În cazul căutării de informații, dirijate sau nu, construirea modelului este acompaniată de o fază de instruire, de învățare. Detaliile acesteia depind de tehnica de data mining folosită. Dar pentru toate se parcurg două momente distincte: al învățării și al testării.

Învățarea se bazează pe un ansamblu de exemple complete, pornind de la care sunt identificate relațiile care leagă între ele valorile câmpurilor sau atributelor. Procesul de învățare se încheie atunci cînd rezultatele furnizate de model se apropie suficient de mult de soluțiile conținute de datele după care s-a învățat. Nu există însă certitudinea că modelul se va comporta la fel de bine și în alte situații. Din acest motiv, este supus testării cu date diferite de cele folosite pentru învățare, dar aparținând aceleiași populații. Urmează, dacă este necesar, o fază de reajustare necesară pentru a-l face să furnizeze rezultate bune și în raport cu datele de test. Doar după încheierea acesteia, modelul poate fi considerat terminat. Aceasta va adăuga la etapele anterioare două sarcini suplimentare: obținerea de date preclasate și distribuirea acestora, după colectare și pregătire, în trei seturi: de învățare, de testare și de evaluare.

Obținerea de explicații privitoare la modul în care un atribut variază în funcție de conținutul altor atribute presupune ca înregistrările de date să includă valori pentru toate aceste câmpuri luate împreună și să reflecte toate cazurile cunoscute cu un număr cît mai mare de exemple. Căutând, spre exemplu, clienții care prezintă riscuri în privința capacității de rambursare a împrumuturilor, va fi nevoie ca datele colectate să marcheze clar acest aspect. În caz contrar, informațiile obținute nu vor putea fi utilizate pentru a face ulterior predicții pe baza lor.

Odată datele preclasate colectate, este necesară divizarea lor în cele trei părți. Acestea se crează din același fișier dar conțin înregistrări diferite. În general, 70-80% din înregistrări sunt alocate învățării, restul rămânând pentru testare sau fiind împărțit egal între aceasta și evaluare.

Figura 3. Schema procesului de creare a modelelor de căutare a informațiilor

După depășirea momentului căruia îi este destinată, fiecare dintre acestea devine inutilizabilă, deoarece nu mai poate aduce nici o ameliorare modelului.

Evaluarea modelului

Evaluarea are scopul de a stabili capacitatea modelului de a determina corect valorile pentru cazuri noi. Pentru aceasta, va fi aplicat asupra ultimei părți a datelor preclasate disponibile, reținute pentru evaluare. Procentul de eroare înregistrat cu acestea poate fi acceptat ca valoare valabilă și pentru datele noi. În general, performanțele unui model se apreciază cu ajutorul unei „matrice de confuzie”, care compară situația reală cu cea furnizată de acesta. Calitatea globală se exprimă prin raportul dintre numărul de predicții exacte și numărul total de predicții.

Integrarea modelului

Această etapă finalizează procesul, prin includerea modelului obținut într-un SIAD, al cărui „inimă” va deveni, sau prin integrarea sa într-un proces decizional mai general din întreprindere.

Două observații finale se impun aici.

Orice model are o durată de viață limitată. Cum construcția sa se face pe baza corelațiilor semnalate în datele existente la un moment dat, schimbările survenite ulterior nu mai pot fi luate în considerare. Deși durata de valabilitate în timp poate fi forate diferită de la un tip de model la altul, unele putând fi folosite fără schimbări timp de mai mulți ani, observația anterioră rămâne strict valabilă: modelele trebuie actualizate permanent, pentru a putea urmările schimbările survenite în domeniul la care se referă.

Rezolvarea unei probleme se obține prin combinarea mai multor tehnici. În fața diversității factorilor ce acționează în realitatea economico-socială actuală, aplicarea unei singure tehnici de data mining poate conduce la rezultate nesemnificative sau la o lipsă completă de rezultate. Combinarea tehnicilor permite obținerea unei viziuni mai largi și mai diversificate, cu implicații lesne de întrevăzut asupra actului decizional, chiar dacă acest lucru este mai costisitor.

Raționamentul bazat pe cazuri

Raționamentul bazat pe cazuri caută răspunsurile la problemele noi în experiențele acumulate în trecut. În fața unei situații noi, vor fi căutate cazurile asemănătoare cunoscute iar concluziile acestora vor fi aplicate și în noua situație. Metoda este aplicabilă atât pentru clasificări cât și pentru predicții și oferă un bun răspuns, pragmatic și evolutiv, pentru o mare diversitate de probleme.

Cazurile pe care se bazează raționamentul sunt memorate sub formă de înregistrări. Înregistrarea este compusă din setul de atribute care descriu fiecare caz în parte. Cazul nou este și el reprezentat ca o înregistrare, în care unul dintre câmpuri – cel al cărui valoare trebuie determinată – este vid. Pentru aflarea sa, se caută înregistrările cu care acesta seamănă cel mai mult – vecinele – și conținutul acestora este folosit pentru a produce un răspuns. Există prin urmare, două funcții de prelucrare fundamentale:

măsurarea distanței dintre membrii fiecărui cuplu de înregistrări, pentru a putea afla vecinele cele mai apropiate

combinarea rezultatelor furnizate de vecine în răspunsul propus pentru cazul curent.

Avantaje și limite ale raționamentului bazat pe cazuri

Raționamentul bazat pe cazuri este o tehnică de data mining deosebit de puternică. Există un număr mare de probleme în care aplicarea demersului său specific poate conduce la soluții. O fraudă nouă va fi, foarte probabil, asemănătoare celor deja cunoscute; prin această tehnică ea poate fi identificată și marcată, în vederea unei examinări ulterioare mai amănunțite. În fața unei acțiuni de promovare de produse, un client va avea, foarte probabil, un comportament asemănător celui manifestat față de campaniile de marketing anterioare; prin această metodă pot fi identificați cei la care acțiunea respectivă poate conduce la cele mai bune rezultate. Și enumerarea aceasta poate continua.

Calitatea rezultatelor depinde direct de volumul de date pe care se bazează. O modalitate de estimare a calității acestuia constă în aplicarea tehnicii asupra propriilor date de învățare. Dacă o anumită situație, supusă votului unui set de testare format din doi, trei și apoi patru vecini, conduce la rezultate discordate sau ambigui, înseamnă că numărul înregistrărilor pe care se bazează raționamentul este prea mic.

Printre avantajele raționamentului bazat pe cazuri se pot enumera:

poate fi aplicat pentru o mare diversitate de tipuri de date, inclusiv pentru structurile de date complexe, cum sunt, spre exemplu imaginile, ale căror tratare este mult mai dificilă cu alte tehnici. Câmpurile de tip text sunt, de asemenea, mai ușor de tratat decât în alte tehnici.

pot fi luate în considerare oricât de multe câmpuri, spre deosebire de alte tehnici la care numărul acestora este limitat (uneori chiar foarte drastic).

rezultatele furnizate sunt explicite; sistemul ajunge la o anumită concluzie în virtutea apropierii sau similitudinii cazului tratat cu alte cazuri produse în trecut.

elementele noi survenite în datele de învățare sunt ușor încorporate și folosite în raționamente, spre deosebire de alte tehnici pentru care asemenea schimbări presupun reluarea întregului proces de “învățare”.

Principalele dezavantaje constau în volumul mare de memorie și în timpii importanți de prelucrare necesari pentru aplicarea funcțiilor de distanță asupra tuturor înregistrărilor și câmpurilor ce participă la aflarea soluției.

În concluzie, raționamentul bazat pe cazuri constituie o tehnică puternică, foarte adecvată situațiilor în care sunt necesare clasificări sau predicții fundamentate pe corelații cu caracter local.

Analiza grupurilor (clustering)

Această tehnică permite identificarea automată a grupurilor existente în ansamblul datelor analizate, fiind una dintre puținele ce pot fi aplicate în căutarea nedirijată a informațiilor. Grupurile – denimite în engleză clusters – rezultă automat în urma procesului de prelucrare, fără a avea ca punct de pornire un anumit criteriu sau proprietate. Este o tehnică ce are capacitatea de a releva realmente caracteristici ascunse – sub volumul și diversitatea detaliilor – într-un anumit set de înregistrări. Grupurile astfel definite pot fi sau nu semnificative; având în vedere că procesul este automat și nedirijat, există întotdeauna riscul de a obține rezultate nerelevante. Totuși, numeroase aplicații ale acestei tehnici au permis descoperirea unor elemente noi în variate domenii de activitate, ceea ce explică interesul de care se bucură.

Avantaje și limite ale analizei grupurilor

Principalul avantaj al acestei tehnici constă în capacitatea sa de căutare nedirijată. Acesta este însă și motivul pentru care nu este, aproape niciodată, utilizată singură. Informațiile privitoare la configurațiile structurale existente în masa de date analizată trebuie examinate în continuare prin alte tehnici, pentru a extrage elemente mai detaliate și mai pertinente. Chiar și în cadrul strict al acestei tehnici, este recomandabil ca înregistrările ce aparțin cluester-elor celor mai puternice să fie eliminate din setul de date inițiale și să se declanșeze un nou proces de grupare asupra datelor rămase. Există astfel șansa descoperirii de noi grupări, mascate inițial de decalajul mare dintre distanțe sau asocieri.

Aplicarea sa este deosebit de adecvată în cazurile în care trebuie examinate structuri de date complexe, cu multe câmpuri.

Alte avantaje constau în ușurința de prelucrare a datelor de diverse tipuri, inclusiv a celor de tip text și în cerințele minimale de pregătire prealabilă a datelor de lucru.

Principalele dezavantaje constau în dificultatea găsirii metricilor potrivite pentru exprimarea distanțelor și a ponderilor. De asemenea, interpretarea rezultatelor poate fi uneori dificilă în virtutea faptului că este vorba despre o căutare nedirijată. Proprietățile care au stat la baza constituirii grupurilor trebuie găsite printr-o analiză suplimentară a componenței fiecărui grup, tehnica neavând capacitatea de a furniza cunoștințe explicite în această privință.

Detectarea automată de cluster-e este recomandabilă ca tehnică de debut pentru un proiect de data mining. Rezultatele furnizate de aceasta urmează a explorate în continuare cu alte tehnici pentru a obține informații mai complete.

Algoritmii genetici

Algoritmii genetici aplică principalele mecanisme ale selecției naturale pentru a favoriza conservarea și reproducerea, dintr-o populație numerosă, a celor mai performanți, mai bine adaptați indivizi. Populația este formată din ansamblul de soluții posibile ale unei probleme; cel mai adaptat individ este prin urmare, cea mai bună soluție. Algoritmii genetici permit așadar găsirea soluției optime și ocupă, prin aceasta, un loc particular în cadrul tehnicilor de data mining, orientate, ca regulă generală, spre efectuarea de predicții sau clasificări.

Termenul algoritm genetic a fost folosit pentru prima oară în anul 1967 de către olandezul J.D.Bagley. Totuși, anul de debut în utilizarea lor efectivă este considerat a fi 1975, când John Holland a prezentat o metodă de optimizare bazată pe principiile de selecție naturală, prin care a demonstrat cu rigoarea necesară de ce funcționează algoritmii genetici și cum reușesc aceștia să producă rezultate atât de performante.

Funcționarea algoritmilor genetici

Algoritmii genetici funcționează prin producerea de generații succesive de indivizi. Indivizii cei mai puternici supraviețuiesc și au descendenți iar indivizii neadaptați dispar treptat. Unitățile elementare care controlează această evoluție sunt genele. Prin reproducere, genele părinților se combină și conduc la o nouă generație, mai bine adaptată.

Materialul genetic este numit cromozom. Un cromozom poate fi compus din una sau mai multe gene. Genele sunt reprezentate printr-o secvență de simboluri – în general 0 și 1. Algoritmii genetici funcționează prin producerea de generații succesive de cromozomi cu aptitudini din ce în ce mai bune, până la atingerea unui punct de stabilitate a acestora, coincizând cu soluția optimă.

Pașii în care funcționează algoritmii genetici sunt:

Definirea cromozomului și a funcției de aptitudine a acestuia;

Crearea primei generații

Modificarea populației existente prin selecție, încrucișare și mutație, în mod repetat, până la obținerea unei stări stabile (care nu mai evoluează).

Definirea cromozomului constă în stabilirea numărului de gene și a semnificației acestora în spațiul problemei. Pentru a putea aprecia cât de apt este cromozomul, este necesară definirea unei funcții de aptitudine. Funcția de aptitudine este cea care permite aprecierea "calității" sau a nivelului de adaptare a cromozomilor produși. Semnificația acesteia, derivată de asemenea din problema de rezolvat, nu are importanță pentru algoritm decât prin aceea că furnizează o valoare de apreciere a nivelului atins.

Utilizări ale algoritmilor genetici

Algoritmii genetici se caracterizează prin ușurință în aplicare și robustețe. Capacitatea de a se orienta rapid spre cea mai bună soluție într-un spațiu complex le face să fie utilizate, cu predilecție, pentru rezolvarea problemelor de optimizare a utilizării resurselor. În special în cazurile caracterizate prin reguli numeroase și date relativ reduse, se dovedesc extrem de utili. Unul dintre cei mai mari producători de whisky din lume a recurs la această tehnică pentru a îmbunătăți depozitarea ingredientelor necesare fabricației. La producerea fiecărui sortiment se folosește un anumit număr de tipuri de whisky, produs în diverse distilerii, din diverse tipuri de malț și cereale, cu un anumit număr de ani de vechime, care se combină în proporții bine stabilite. Toate acestea se păstrează în recipiente distincte, plasate în mai multe încăperi ale spațiilor de depozitare. Numărul de recipiente folosite anual este de ordinul milioanelor, ceea ce justifică preocuparea pentru reducerea manipulărilor acestora, cu atât mai mult cu cât aproape jumătate servesc numai pentru a elibera calea de acces spre cele necesare fabricației în curs. A fost dezvoltată prin urmare o soluție bazată pe algoritmi genetici, care stabilește, în funcție de sortimentele de whisky ce urmează a fi produse în perioada imediat următoare, amplasarea optimă a recipientelor astfel încât să se obțină un minim al numărului de “uși” de încăperi de depozitare prin care trebuie să treacă acestea și al numărului de deplasări pentru a elibera calea de acces. Prin aplicarea sa, numărul de uși tranzitate săptămânal s-a redus la jumătate iar manipulările legate de eliberarea căilor de acces s-au redus la 4% din total, față de aproape 50% inițial.

Algoritmii genetici sunt folosiți frecvent în procesul de învățare al rețelelor neuronale. Cu ajutorul lor, găsirea ponderilor fiecărei unități elementare se face mult mai rapid. În acest scop, fiecare pondere primește o reprezentare binară. Cum valorile sunt cuprinse între 0 și 1, numerele binare folosite pentru reprezentarea lor definesc diviziuni ale acestui interval; spre exemplu, 00000101 va reprezenta 5/255, adică 0,019608 (255 fiind valoarea maximă reprezentabilă cu 8 biți). Cromozomul este format, în consecință, din grupurile de biți aferente tuturor ponderilor din rețea. Funcția de aptitudine măsoară diferențele dintre ieșirea produsă de rețea și ieșirea corectă. Algoritmul va funcționa căutând minimizarea acestei valori sau maximizarea rezultatului scăderii acesteia dintr-o valoare constantă, suficient de mare.

Eficacitatea dovedită de algoritmii genetici în procesul de învățare a rețelelor neuronale a determinat încorporarea acestora în numeroase produse program profesionale.

Avantajele și limitele utilizării algoritmilor genetici

Unul dintre cele mai semnificative avantaje ale algoritmilor genetici este abilitatea lor de a rezolva probleme de optim în situații caracterizate printr-un spațiu vast de soluții. Una dintre concluziile rezultate din studiul făcut de Holland este aceea că, pe o populație de N cromozomi, numărul de explorări realizate este proporțional cu N3. Cu alte cuvinte, la fiecare generație se prelucrează doar cei N cromozomi, dar prin modul de acțiune sunt evaluate din punct de vedere al utilității N3 combinații.

Rezultatele oferite pot fi explicate prin corelarea genelor cu expresia funcției de aptitudine folosită. Aplicarea lor nu ridică problemele ridicate de celelalte tehnici cu privire la tipul datelor tratate. Algoritmii genetici se pot folosi în orice problemă ale cărei date pot fi reprezentate prin șiruri de biți de lungime constantă. Semnificația acestora nu are nici o importanță pentru algoritm; prelucrarea are loc prin selecție, încrucișare și mutație astfel încât să se obțină valori cât mai bune ale funcției de aptitudine, oricare ar fi semnificația acesteia. Comportamentul de tip “cutie neagră” conferă astfel o foarte bună flexibilitate față de problemele tratate.

Unele dintre avantajele amintite sunt și surse de limitare. Utilizarea acestei tehnici este condiționată de găsirea modalității adecvate de expresie a problemei prin cromozomi de lungime fixă și funcție de aptitudine, ceea ce nu este întotdeauna prea simplu. Aceasta presupune, de asemenea, o bună înțelegere a mecanismului specific de funcționare și a importanței valorilor parametrilor de selecție, încrucișare și mutație, pentru a evita anumite riscuri de deviere spre soluții optime locale.

O serie de cercetări în curs pot aduce ameliorări notabile în privința utilității acestei tehnici în rezolvarea problemelor de gestiune.

Alte tehnici și metode de data mining

Tehnicile de data minig prezentate anterior constituie o parte dintr-un ansamblu mult mai cuprinzător, atât în planul metodelor și algoritmilor dezvoltați în condiții de laborator, cât și al celor implementați de diverse produse program și utilizați intens în practică. De altfel, chiar în raport cu enumerarea din paragrafele anterioare, prezentarea este parțială. În completare, vor fi foarte rapid trecute în revistă alte câteva tehnici, urmând ca cititorul intersat să găsească detalii suplimentare în literatura de specialitate.

Analiza asocierilor, denumită și “analiza coșului gospodinei” urmărește să găsească regulile care descriu apariția frecventă împreună a unor obiecte eterogene. Rezultatele generate primesc o formă explicită și simplă, care favorizează înțelegerea și aplicarea lor concretă. Tehnica se poate aplica pentru căutarea nedirijată de informații și este foarte puțin pretențioasă sub aspectul tipului și conținutului datelor tratate. Calculele necesare sunt simple, ceea ce la face aplicabile și pe un procesor de tabele, cu condiția încadrării volumului de date în capacitatea de memorare a acestuia. În principiu, această tehnică poate fi aplicată oricăror tranzacții comerciale, putând servi pentru analiza vânzărilor din supermatek-uri, analiza mișcărilor de fonduri dintr-o bancă, analiza incidentelor de asigurare etc.

Rețelele de tip Bayes urmăresc să exprime legăturile dintre variabile prin analiza probabilităților de apariție și a determinărilor reciproce dintre acestea. În raport cu celelalte tehnici de data mining, posedă calitatea de a comporta foarte bine față de datele lipsă sau deformate de factori aleatori. teriorate. Una dintre utilizările menționate în literatura de specialitate pentru această tehnică vizează predicția riscurilor de neplată. Consumul important de resurse de calcul constituie o explicație a utilizării lor mai restrânse. Cu toate acestea, ultimii ani marchează o creștere o ofertei de produse program care le implementează.

În sfârșit, literatura de specialitate menționează de asemenea aplicații ale unor metode provenite din teoria grafelor, pentru a obține o descriere preliminară a legăturilor dintre elemente, înainte de a trece la aprofundarea studierii lor prin tehnici de genul celor prezentate anterior.

Bibliografie

Florin Gorunescu, Data Mining Concepte, Modele Si Tehnici, ed. ALBASTRA, 2007, ISBN: 973 – 650 – 169 – 8

http://en.wikipedia.org/wiki/Data_mining

http://www.statsoft.com/Textbook/Data-Mining-Techniques

http://www.laits.utexas.edu/~anorman/BUS.FOR/course.mat/Alex/

Similar Posts

  • Influența Concurenței Asupra Eficienței ȘI Progresului Economic

    Cuprins Introducere…………………………………………………………………………………………………..2 Cap. 1 CONCEPTUL DE CONCURENȚĂ ÎN TEORIA ȘI PRACTICA ECONOMICĂ 1.1.Definirea și obiectivele concurenței în gândirea economică clasică și contemporană…………………………………………………………………………………….4 Trăsăturile concurenței contemporane…………………………………6 Teoriile contemporane privind concurența……………………………..8 1.2. Tipuri și funcții ale concurenței………………………………………………………………13 1.3. Structura pieței și tipurile de piață…………………………………………………………..23 1.4. Mecanismul concurenței…………………………………………….………..27 Cap. 2 INFLUENȚA CONCURENȚEI ASUPRA EFICIENȚEI ȘI PROGRESULUI ECONOMIC 2.1….

  • Identificarea Mecanismelor Specifice Companiei Privind Protecția Bunurilor, Personalului și Mediului Ambiant

    Universitatea “Vasile Alecsandri” din Bacău Facultatea de Științe Economice Specializarea: Administrarea Afacerilor LUCRARE DE LICENȚĂ Coordonator științific, Prof. Univ. Dr. Ovidiu-Leonard Turcu Absolvent Radu Tudorel Cătălin Bacău, 2016 Universitatea “Vasile Alecsandri” din Bacău Facultatea de Științe Economice Specializarea: Administrarea Afacerilor Identificarea mecanismelor specifice companiei privind protecția bunurilor, personalului și mediului ambiant Coordonator științific, Prof. Univ….

  • Aquis Ul Comunitar și Politica Externă de Securitate Comună

    ȘCOALA NAȚIONALĂ DE STUDII POLITICE ȘI ADMINISTRATIVE FACULTATEA DE ȘTIINȚE POLITICE LUCRARE DE ABSOLVIRE TEMA: Aquis-ul comunitar și Politica Externă de Securitate Comună Conducător științific: Prof. univ. dr. Iordan Gheorghe BĂRBULESCU Absolvent: POPESCU DRAGOȘ CRISTIAN București, 2012 Cuprins Rezumat Tema lucrării este Aquis-ul comunitar și Politica Externă de Securitate Comună. Lucrarea este structurată în trei…

  • Curtea de Conturi a Moldovei

    ACADEMIA DE STUDII ECONOMICE DIN MOLDOVA FACULTATEA CONTABILITATE CATEDRA „CONTABILITATE ȘI AUDIT” RAPORT PRIVIND STAGIUL DE PRACTICĂ Baza de practică „Curtea de Conturi a Republicii Moldovei” Studenta anului III, specialitatea „Contabilitate” grupa con131, Vîntuleac Irina _______________________ Conducătorul practicii de la catedră Iachimovschi Anatolie _______________________ Chișinău-2016 Introducere Am efectuat practica la Curtea de Conturi a Republicii…

  • Conținutul Contractului Individual DE Muncă Clauza de Mobilitate

    UNI VERSITATEA DIN BUCUREȘTI FACULTATEA DE ADMINISTRAȚIE ȘI AFACERI SECȚIA ADMINISTRAȚIE PUBLICĂ CONȚINUTUL CONTRACTULUI INDIVIDUAL DE MUNCĂ CLAUZA DE MOBILITATE – COORDONATOR ȘTIINȚIFIC Conf. Univ. Dr. Ardeleanu Monica ABSOLVENTĂ Radu Eugenia-Mădălina BUCUREȘTI 2016 CUPRINS INTRODUCERE CAPITOLUL I : Aspecte generale privind contractul individual de muncă 1.1 Definiția și reglementarea contractului individual de muncă 1.2 Trăsăturile…

  • Colorectal Cancer

    Content Introduction ………………………………………………………………………………………..2 Actuality of the topic …………………………………………………………………………………….4 Purpose of thesis……………………………………………………………………………….……4 Objectives of thesis…………………………………………………………………………….…..4 Theoretical importance and value of the work ……………………………………………..……4 Chapter 1 ………………………………………………………………………………………………………5 1.1 General information ………………………………………………….…………….……5 1.1.1. Anatomy of the colon ……………………………………………………….……..5 1.1.2 Blood and nerve supply ……………………………………………………………10 1.2 colorectal cancers …………………………………………………………………………12 1.2.1. Etiopathology ……………………………………………………..…………………….13 1.2.2. Morphopathology …………………………………………………………….…………15 1.2.3. Epidemiology …………………………………………………………………………….17 1.2.4….