Tehnici Data Mining
Capitolul 1
Introducere
În aceasta lucrare mi-am propus ca prin ajutorul a mai multor programe să fac predicții asupra calitații aerului.
În primul capitol sunt prezentate noțiuni introductive despre inteligența artificială, despre domeniile de reprezentare ale inteligenței artificiale si despre sistemele expert.
Inteligența artificială este inteligența mașinilor sau a softurilor. Este un teren de studiu academic care are ca principiu crearea inteligentei. Cei mai multi cercetatori in inteligenta artificiala il definesc ca fiind “studiul si proiectarea agentilor inteligenti”, unde un agent intelligent este un sistem care percepe merdiul inconjurator si ia actiuni care maximizeaza sansa de succes. Inteligenta artificiala este extreme de tehnica si de specializata, si este divizata in parti care de multe ori dau gres in a comunica unele cu celelalte. Acest domeniu a fost infiintat pe baza ca principala proprietate a oamenilor, inteligenta poate fi foarte precis descrisa ca o masinarie o poate simula. Aceasta a ridicat foarte multe probleme despre natura mintii si a etica de a crea lucruri artificiale dotate cu inteligenta umana, probleme care inca din antichitate au fost mituri, fictiuni si psihologii. Inteligența artificială a fost subiectul de un extraordinar optimism, dar a suferit, de asemenea, eșecuri uimitoare. Astăzi a devenit o parte esențială a industriei tehnologiei, oferind rezolvarile cele mai grele pentru multe dintre cele mai dificile probleme în informatică.
În umatorul capitol este prezentată ideea de data mining, tehnicile, algoritmii si aplicatiile acesteia.
Data mining-ul este procesul de calcul al descoperirii modelelor din seturi mari de date implicand metode de la intersecția inteligentei artificiale, masini de învățare, statistici, si sisteme de baze de date.Scopul general al procesului de data mining este de a extrage informații de la un set de date și să o transforme într-o structură ușor de înțeles pentru o utilizarea ulterioară.
În ultimul capitol este prezentată aplicația și pașii urmați pentru a ajunge la un rezultat bun.
Capitolul 2
Inteligența artificială
2.1 Noțiuni introductive in Inteligența artificială
Inteligența artificială este inteligența mașinilor sau a softurilor. Este un teren de studiu academic care are ca principiu crearea inteligenței. Cei mai multi cercetatori în inteligența artificială îl definesc ca fiind “studiul ți proiectarea agentilor inteligenti”, unde un agent intelligent este un sistem care percepe merdiul înconjurator și ia acțiuni care maximizeaza șansa de succes. Inteligența artificială este extreme de tehnica și de specializată, si este divizată în parți care de multe ori dau greș în a comunica unele cu celelalte.
Problemele centrale ale cercetarilor în intelegență artificială includ raționamentul, cunoștințele, planificarea, învățarea, procesarea limbajului natural (comunicare), percepția și capacitatea de a muta și manipula obiecte. Inteligența generala este înca printre problemele centrale de timp îndelungat. În prezent, abordări populare includ metode statistice, inteligența computațională si inteligența artificială traditional simbolică. Există un număr foarte mare de instrumente folosite în inteligența artificială, inclusiv versiuni de căutare și optimizare matematică, logică, metode bazate pe probabilitate și economie, și multe altele. Câmpul de inteligență artificială este interdisciplinar, în care știința și profesii converg, inclusiv informatica, matematica, psihologia, lingvistica, filosofia precum și alte domenii de specialitate, cum ar fi psihologia artificială.
Acest domeniu a fost înființat pe baza că principala proprietate a oamenilor, inteligența, poate fi foarte precis descrisă, și că o mașinarie o poate simula. Aceasta a ridicat foarte multe probleme despre natura minții și a eticii de a crea lucruri artificiale dotate cu inteligență umană, probleme care înca din antichitate au fost mituri, ficțiuni și psihologii. Inteligența artificială a fost subiectul de un extraordinar optimism, dar a suferit, de asemenea, eșecuri uimitoare. Astăzi a devenit o parte esențială a industriei tehnologiei, oferind rezolvarile cele mai grele pentru multe dintre cele mai dificile probleme în informatică.
Raționamentul mecanic sau “formal” a fost dezvoltat de către filosofi și matematicieni înca din antichitate. Studiul de logică a condus direct la inventarea calculatorului electronic digital programabil, bazat pe activitatea matematicianului Alan Turing și altele. Teoria Turing a sugerat că o mașină, prin amestecarea simbolurilor atat de simple precum "0" și "1", ar putea simula orice act imaginabil de deductive matematica. Acest lucru, împreună cu descoperiri concurente in neurologie, teoria informației și cibernetică, a inspirat un mic grup de cercetatori pentru a începe să ia serios în considerare posibilitatea de a construi un creier electronic.
Domeniul de cercetare al inteligenței artificiale a fost fondat la o conferință în campusul din Dartmouth în vara anului 1956. Participanții, printre care John McCarthy, Marvin Minsky, Allen Newell și Herbert Simon, au devenit liderii de cercetare al inteligenței artificiale in mai multe decenii. Ei și elevii lor au scris programe care au fost, pentru majoritatea oamenilor, pur și simplu uimitoare : calculatoarele câștigau la sah, rezolvau problemelor la algebră, dovedind teoremele logice și vorbind fluent engleza. Pe la jumatatea anilor 1960, cercetarea in SUA a fost puternic finantaat de catre Departamentul de Aparare și laboratoarelor au fost stabilite în jurul lumii. Fondatorii inteligentei artificiale au fost foarte optimisti cu privire la viitorul noului domeniu : Herbert Simon a prezis că "mașinile vor fi capabile, în douăzeci de ani, de a face orice lucru pe care un om il poate face ", și Marvin Minsky a fost de acord, scriind că" într-o generație. .. problema creării inteligență artificială va fi rezolvata în mod substanțial ".
Ei nu au reusit sa recunoasca dificultatea unor probleme cu care se confruntau. În 1974, ca răspuns la criticile primite de la Sir James Lighthill și presiunea de la Congresul SUA pentru a finanța proiecte mai productive, atât SUA cat și Guvernul Britanic au taiat toate cercetarile de exploratare nedirectionate în inteligența artificiala. Următorii câțiva ani vor fi mai târziu numiti o "iarnă a inteligentei artificiale", o perioadă în care finanțarea proiectelor de IA au fost greu de găsit.La începutul anilor 1980, cercetareile pentru IA au fost reînviate de succesul comercial al sistemelor expert, o formă de program de IA care a simulat cunoștințele și aptitudinile analitice ale unuia sau a mai multor experți umani. Prin 1985, piața pentru IA a ajuns la peste un miliard de dolari. În același timp, proiectul Japonia a cincea generatie de calculatoare a inspirat SUA și Guvernul Britanic pentru a restabili finantarea pentru cercetarea academică în domeniu.Cu toate acestea, începând cu prăbușirea pieței Lisp în 1987, IA a căzut,inca odata, și a început pentru a doua oara,o iarna IA mult mai lunga.În anii 1990 și la începutul secolului 21, IA a atins cele mai mari succese ale sale, deși oarecum în spatele scenei. Inteligența artificială este folosita pentru logistică, data mining, diagnostica medicala și multe alte domenii în întreaga industria de tehnologie. Succesul s-a datorat mai multor factori : puterea de calcul tot mai mare a calculatoarelor, un mai mare accent pe rezolvarea specifica a subproblemelor, crearea de noi legături între IA și alte domenii de lucru pe probleme similare, precum și un nou angajament de cercetatori pentru a solidifica metode matematice si stiintifice riguroase.
Cercetatorii au dezvoltat algoritmi care imitau gandirea pas-cu-pas pe care oamenii o folosesc atunci când a rezolva puzzle-uri sau cand fac deducții logice. Până la sfârșitul anilor 1980 și 1990, cercetarea IA a dezvoltat, de asemenea, metode de succes pentru tratarea informatiilor incomplete sau incerte,folosind concepte din probabilitate și economie. Pentru probleme mai dificile, majoritatea acestor algoritmi pot necesita resurse de calcul imense. Căutarea unor algoritmi de rezolvare a problemelor mai eficiente este o prioritate pentru cercetatori.
Oamenii isi rezolva majoritatea problemelor, folosind judecăți rapide, intuitive, fata de deducerea pas-cu-pas pe care primii cercetatori au fost capabili să o modeleze. IA a înregistrat unele progrese în imitarea acestui gen de "sub-simbolic" de rezolvare a problemelor : abordări pentru a sublinia importanța competențelor senzitivo-motorii la raționament superior; cercetarea neuronala încearcă sa simuleze structurile din interiorul creierului care conduc la această abilitate; abordări statistice imita natura probabilistică a capacității umane de a ghici.
O ontologie reprezintă cunoașterea ca un set de concepte într-un domeniu și relațiile dintre acestea.
2.1.1 Testul Turing
În 1950, Alan Turing a propus o procedură generală pentru a testa inteligența unui agent acum cunoscut sub numele de testul Turing. Această procedură permite aproape tuturor problemelelor majore ale inteligenței artificiale sa fie testate. Cu toate acestea, este o provocare foarte dificilă și în prezent niciun agent nu a reușit.
Inteligența artificială poate fi, de asemenea, evaluata pe probleme specifice, cum ar fi mici probleme în chimie, recunoașterea scrisului de mână și jocuri. Aceste teste au fost denumite subiecte pentru testul Turing. Probleme mai mici furnizeaza obiective mai realiste și există un număr tot mai mare de rezultate pozitive.
O clasificare pentru rezultatele unui test AI este:
Optimal : nu este posibil să funcționeze mai bine.
Super-uman puternic : se comporta mai bine decat toti oamenii.
Super-uman : se comporta mai bine decat majoritatea oamenilor.
Sub-uman : se comporta mai rău decât majoritatea oamenilor.
De exemplu, performanta la proiecte (de exemplu, dame) este optimă, performanță la șah
este super-uman și se apropie de puternice super-umane și performanța la mai multe sarcini de zi cu zi este sub-uman. O abordare diferita apropie inteligența masinii prin teste dezvoltate din definitii de inteligența matematica. Exemple de astfel de teste încep la sfârșitul anilor nouăzeci cu conceperea testelor de inteligență, folosind noțiuni de complexitate Kolmogorov și de compresie a datelor.Două mari avantaje ale definițiilor matematice sunt aplicabilitatea lor pe inteligențe non-umane și lipsa de o cerință pentru testari umane.Un derivat al testului Turing este testul CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart).Dupa cum sugerează și numele, acest lucru ajută pentru a determina ca un utilizator este o persoană reală și nu o masina care se prezintă precum o persoana. Spre deosebire de testul standard Turing, CAPTCHA este administrat de o mașină și direcționat spre un om, în loc să fie administrată de un om și direcționate către o mașină. Un computer cere unui utilizator pentru a finaliza un test simplu, apoi generează o notă. Calculatoarele nu sunt în măsură să rezolve problema, deci soluțiile corecte sunt considerate a fi rezultatul unei persoane care a efectuat testul. Un tip comun de CAPTCHA este testul care necesită tiparirea de litere distorsionate, cifre sau simboluri care apar într-o imagine indescifrabile de un calculator.
Figura 1 Testul Turing si CAPTCHA [1]
Alan Turing a scris în 1950 "Propun să se ia în considerare problema : poate o mașină gândi ?" și a început discuția care a devenit filosofia inteligentei artificiale. Pentru ca "gândirea" este greu de definit, există două versiuni ale întrebării pe care filosofii au adresat-o. În primul rând, poate o mașină sa fie inteligentă? Adică, poate rezolva toate problemele pe care oamenii le rezolva prin utilizarea inteligentei? Și în al doilea rând, poate o mașină să fie construita cu o gandire și o experiența a conștiinței subiective?
Existența unei inteligențe artificiala care rivalizează sau care depășește inteligența umană ridică probleme etice dificile, atât din partea oamenilor cat și în numele oricărei posibilitati simțitoare IA. Puterea potentialului tehnologiei inspiră atât speranțele cat și temerile pentru societate.
Conventia “politicoasa” a lui Turing
Nu este nevoie sa decidem dacă o mașină poate "gândi"; avem nevoie sa decidem doar în cazul în care o mașină poate acționa inteligent ca o ființă umană. Această abordare a problemelor filosofice asociate cu inteligența artificiala formează baza testului Turing.
Propunerea Dartmouth
"Fiecare aspect al învățării sau orice altă caracteristică a inteligenței poate fi descrisă atât de precis ca o mașină poate fi facuta pentru a o simula”. Acest presupunere a fost tipărită în propunerea de la Conferința Dartmouth din 1956, și reprezintă poziția majorității cercetătorilor IA.
Ipoteza sistemului de simboluri fizice a lui Newell si Simon
"Un sistem de simboluri fizice are mijloacele necesare si suficiente de acțiune generală inteligenta. " Newell și Simon susțin că inteligența constă în operații formale asupra simbolurilor. Hubert Dreyfus a susținut că, dimpotrivă, expertiza umană depinde de subconstient, si nu de manipularea constienta a simbolurilor.
Argumentele lui Gödel
Gödel,Ioan Lucas (în 1961) și Roger Penrose au susținut că oamenii nu pot fi redusi la masini Turing. Argumentele detaliate sunt complexe, dar în esență ele provin de la Kurt Gödel din 1931, dovadă în prima sa teorema de incompletitudine, că este întotdeauna posibil să se creeze situații in care un sistem formal nu a putut fi dovedit. Cu toate acestea, o ființă umană poate vedea adevărul acestor afirmații "Gödel". Orice program Turing care este conceput pentru a căuta aceste declarații poate avea metodele sale reduse la un sistem formal, și așa va avea mereu o "afirmatie Gödel" derivabila in programul său pe care acesta nu a pot sa o descopere. Cu toate acestea, daca oamenii sunt într-adevăr capabili să înțeleagă adevărul matematic, nu este posibil ca noi să putem fi limitati în același mod. Acesta este un rezultat destul de general, dacă este acceptat, atata timp cat se poate dovedi că plase neuronale hardware, calculatoarele bazate pe procese aleatoare și calculatoare cuantice bazate pe “qubiti” toate pot fi reduse la mașinile Turing. Tot ce fac este sa reduca complexitatea sarcinilor, sa nu permita noi tipuri de probleme să fie rezolvate. Roger Penrose speculeaza ca ar putea exista noi fizicii implicate in creierul nostru, poate la intersecția dintre gravitate și mecanica cuantica la scara Planck. Acest argument, dacă este acceptat, nu exclude posibilitatea unei adevărate inteligente artificiale, dar înseamnă că trebuie să fie biologic la baza sau în funcție de noile principii fizice. Argumentul a fost urmat de multe contra-argumente, iar apoi Roger Penrose le-a oferit un raspuns cu exemple iar acum este o dezbatere complexa si complicate.
2.2 Domeniile de reprezentare ale inteligentei artificiale
Reprezentarea cunostintelor și ingineriea cunoștințelor sunt esențiale pentru cercetarea IA. Multe dintre masinile pentru probleme sunt de așteptate să rezolve si vor necesita cunostinte extinse despre lume. Printre lucrurile pe care IA trebuie să le reprezinte sunt : obiecte, proprietăți, categorii și relațiile dintre obiecte; situații, evenimente, stări și timp; cauze și efecte; cunoștințe despre cunoaștere (ceea ce stim despre ce alte persoane cunosc); precum și multe alte domenii, mai puțin bine cercetate. O reprezentare a "ceea ce există" este o ontologie : set de obiecte, relații, concepte și așa mai departe despre care stie masinaria. In general sunt numite ontologii superioare, care încearcă să ofere o bază pentru toate celelalte cunoștințe. Printre cele mai dificile probleme din reprezentarea cunoștințelor sunt:
Rationamentul implicit și problema de calificare
Multe dintre lucrurile pe care oamenii le stiu iau forma de "presupuneri de lucru." De exemplu, dacă o pasăre apare în conversație, oamenii isi imagineaza un animal mic care cântă și zboara.. Nici unul dintre aceste lucruri sunt adevărate cu privire la păsări. John McCarthy a identificat această problemă în 1969, ca fiind o problema de calificare : pentru orice normă de bun simț pe care cercetătorii IA o reprezinta, acolo tind să fie un număr foarte mare de excepții. Aproape nimic nu este adevărat sau fals, în modul în care logica abstracta cere. Cercetare IA a explorat o multime de soluții pe această problemă.
Forma simbolica a unor cunoștințe
O mare parte din ceea ce știu de oameni nu este reprezentat ca "fapte" sau "declarații"pe care le- ar putea exprima verbal. De exemplu, un maestru de șah va evita o poziție de șah pentru că "se simte prea expus" sau un critic de artă poate privi o statuie și imediat sa isi dea seama că este un fals. Acestea sunt intuiții sau tendințe, reprezentate în creier non-conștient și sub-simbolic. Cunoaștere ca aceasta informează, suporta și oferă un context pentru cunoaștere simbolică, conștienta.
Machine Learning
Învățare automata este studiul algoritmilor care îmbunătățesc în mod automat prin experiență și a fost esențială pentru cercetarea IA încă de la începuturile domeniului.
Învățarea nesupravegheată este abilitatea de a găsi modele într-un flux de intrare. Învățarea supravegheată include atât clasificare cat și regresie numerica. Clasificarea este utilizata pentru a determina in ce categorie aparține un anumit lucru, după ce a văzut o serie de exemple de lucruri din mai multe categorii. Regresiea este încercarea de a produce o funcție care descrie relația dintre intrări și ieșiri și prezice modul în care rezultatele ar trebui să se schimbe odata cu schimbarea intrări. Analiza matematică a algoritmilor de învățare mașină și performanța lor este o ramură a informaticii teoretice cunoscuta sub numele de teoria învățării de calcul.
În robotica de dezvoltare, au fost elaborate metode de învățare pentru achiziționarea cumulată, printr-un mechanism de auto-explorare și interacțiunea socială cu profesorii, precum și folosirea mecanismelor de orientare, cum ar fi învățarea active si imitație.
Procesarea limbajului natural
Prelucrarea limbajului natural oferă mașinii abilitatea de a citi și a înțelege limbile pe care oamenii le vorbesc. Un sistem suficient de puternic pentru procesarea limbajului natural ar permite interfețele limbajului natural și dobândirea de cunoștințe direct de la surse umane, scrise, cum ar fi texte. Unele aplicații simple de procesare a limbajului natural includ regăsirea de informații, intrebare si raspuns și traducere automată.
O metodă comună de prelucrare și de extragere a sensului de limbaj natural este prin indexarea semantică. Creșterea vitezei de procesare și scăderea costurilor de stocare a datelor face indexarea volumelor mari de abstracții ale utilizatorului mult mai eficiente.
Percepție
Percepția Masina este capacitatea de a folosi intrarile de la senzori (cum ar fi camere, microfoane, senzori tactili, sonar și altele) pentru a deduce aspecte ale lumii. Viziunea calculatorului este capacitatea de a analiza intrarile vizuale. Câteva subprobleme sunt cele de recunoaștere a vorbirii, recunoaștere faciala și recunoașterea obiectelor.
Robotica
Domeniul de robotica este strâns legat de IA. Inteligența este necesara pentru roboți pentru a putea să se ocupe de sarcini, cum ar fi manipularea obiectelor și navigare, cu subprobleme de localizare, cartografiere, precum și planificarea mișcarii.
Retele neuronale
O rețea neuronală este un grup de noduri interconectate, înrudit cu vasta retea de neuroni din creierul uman.
Studiul de retele neuronale artificiale a început înaintea studiului aspura IA în activitatea lui Walter Pitts și Warren McCullough. Alti cercetatori importanti au fost Frank Rosenblatt, care a inventat perceptronul si Paul Werbos care a dezvoltat algoritmul “backpropagation”.
Principalele categorii de rețele sunt rețele aciclice sau retelele neuronale “feedforward”(în cazul în care semnalul trece într-o singură direcție) și rețele neuronale recurente (care permit un feedback). Printre cele mai populare retele feedforward sunt perceptroni, perceptroni multi-strat și rețele de bază radiale. Dintre rețele recurente, cel mai renumit este Hopfield, o formă de rețea atractor, care a fost descrisa pentru prima data de John Hopfield în 1982.Rețelele neuronale pot fi aplicate la probleme de control inteligent (pentru robotică) sau de învățare, folosind tehnici precum Hebbian și învățarea competitivă.
2.3 Sisteme Expert
În inteligența artificială, un sistem expert este un sistem informatic care emuleaza capacitatea de luare a deciziilor a unui expert uman. Sistemele expert sunt proiectate pentru a rezolva probleme complexe de raționament despre cunoaștere, reprezentată în primul rând ca în cazul în regulilor “if-then”, mai degrabă decât prin convenționalul Cod de procedură. Primele sisteme expert au fost create în anii 1970. Sistemele expert au fost printre primele forme cu adevărat de succes ale software-ului de IA.
Un sistem expert este împărțit în două sub-sisteme : motorul de inferenta si baza de cunoștințe. Baza de cunoștințe reprezintă fapte și reguli. Motorul de inferență se aplică reguli de la faptele cunoscute pentru a deduce fapte noi. Motoarele de inferență poate include, de asemenea, explicații și capabilitatea de depanare.
Figura 2 Sisteme expert [2]
Figura 3 Baza de cunostinte [3]
Arhitectura Software
Un sistem expert este un exemplu de un sistem bazat pe cunoaștere. Sistemele expert au fost primele sisteme comerciale care au utilizat o arhitectură bazată pe cunoaștere. Un sistem bazat pe cunoaștere este compus în principal din două subsisteme:. Baza de cunoștințe și motorul de inferenta
Baza de cunoștințe reprezintă fapte despre lume. La inceputul sistemelor expert, cum ar fi Mycin și Dendral aceste fapte au fost reprezentate in primul rand ca afirmații despre variabile. În sistemele expert ulterioare care au fost dezvoltate au luat mai multa structură și concepte utilizate de programarea orientată pe obiecte. Lumea a fost reprezentata ca clase, subclase, iar cazurile și afirmațiile au fost înlocuite cu valori ale instanțelor obiectelor. Regulile lucrau prin interogare valorilor obiectelor.
Motorul de inferență este un sistem automatizat de raționamente care evaluează starea actuală a bazei de cunoștințe, se aplică normele relevante, iar apoi afirmă noi cunoștințe în baza de cunoștințe. Motorul de inferență poate include, de asemenea, capabilități pentru explicații, astfel încât să poată explica unui utilizator lanțul de raționament folosit pentru a ajunge la o anumita concluzie prin trasarea înapoi a regulilor care au dus la afirmație.
Există în primul rând două moduri pentru un motor de inferență:inductie si deductie. Diferitele metode sunt dictate de motorul de inferenta daca este condus de antecedentul(stanga) sau ca descendentul (dreaptă) regulilor.
Un simplu exemplu de înlănțuire înainte ar fi să-și afirme Man (Socrate) a sistemului și apoi să declanșeze motorul de inferență. Aceasta se potriveste R1 și afirma Mortal (Socrate) în baza de cunoștințe.
Un domeniu important pentru cercetare a fost generarea de explicații din baza de cunoștințe în limba engleză firesc, mai degrabă decât pur și simplu arătând normele mai mult formale, dar mai puțin intuitive.
Ca sisteme expert evoluate multe tehnici noi au fost încorporate în diferite tipuri de motoare de inferență [26] Unele dintre cele mai importante dintre acestea au fost.:
Adevărul de întreținere : Sistemele de mentenanta înregistrează dependențele într-o bază de cunoștințe, astfel încât cunoștințele dependente, atunci când faptele sunt modificate, pot fi modificate în consecință. De exemplu, dacă sistemul învață că Socrate nu mai este cunoscut a fi un om se va revoca afirmația că Socrate este muritor.
Rationamentul ipotetic : În raționament ipotetic, baza de cunoștințe poate fi împărțită în mai multe opinii posibile,de exemplu lumi. Acest lucru permite motorului de inferenta sa exploreze mai multe posibilități în paralel. În acest exemplu simplu, sistemul poate dori să exploreze consecințele a două afirmații, ceea ce va fi valabil în cazul în care Socrate este un om și ceea ce va fi adevărat dacă nu e?
Logica Fuzzy : Una dintre primele extensiile de doar folosire a regulilor pentru a reprezenta cunoștințele a fost, de asemenea, asociata cu o probabilitate din fiecare regulă. Deci, pentru a nu afirma că Socrate este muritor, dar a afirma ca Socrate poate fi muritor cu o valoare de probabilitate. Probabilitățile simple s-au extins în unele sisteme cu mecanisme sofisticate de raționament incert și combinații de probabilități.
Clasificarea ontologiilor : Prin adăugarea de clase de obiecte pentru baza de cunoștințe un nou tip de raționament a fost posibil. Mai degrabă decât simplul motiv despre valorile obiectelor sistemului ar putea fi, de asemenea, motiv despre structura obiectelor. În acest exemplu simplu Omul poate reprezenta o clasă de obiecte și R1 poate fi redefinita ca regulă care definește clasa tuturor oamenilor. Aceste tipuri de motoare de inferență sunt cunoscute ca clasificatoare. Deși nu au fost foarte folosite în sistemele expert, clasificatoarele sunt foarte puternice pentru domeniile volatile nestructurate și sunt o tehnologie cheie pentru Internet și Web-ul Semantic în curs de dezvoltare.
Avantaje
Scopul sistemelor bazate pe cunoaștere este de a face informația critică necesară pentru ca sistemul să funcționeze în mod explicit, mai degrabă decât implicit.Într-un program de calculator traditional, logica este încorporata în codul care poate fi, de obicei, revizuit numai de către un specialist IT. Cu un sistem expert scopul a fost de a specifica normele într-un format care a fost intuitiv și ușor de înțeles, revizuite, și chiar editate de expertii in domeniu, mai degrabă decât de experți IT. Beneficiile acestui tip de reprezentare a cunoaștintelor explicite au fost dezvoltarea rapidă și ușurința de întreținere.
Ușurința de întreținere este beneficiul cel mai evident. Acest lucru a fost realizat în două moduri. În primul rând, prin eliminarea necesității de a scrie codul convențional pentru multe dintre problemele obișnuite minore la un sistem care ar putea fi evitate cu un sistem expert. În esență, fluxul logic al programului (cel puțin la cel mai înalt nivel) a fost pur și simplu un dar pentru sistem, pur și simplu invoca motorul de inferență. Acesta a fost, de asemenea, un motiv pentru al doilea beneficiul : prototipul rapid.
Dezavantaje
Cele mai frecvente dezavantaje citate despre sisteme expert în literatura de specialitate este problema dobândirii de cunoștințe. Obținerea momentului domeniu de catre experti pentru orice aplicație software este întotdeauna dificila, dar pentru sistemele expert a fost deosebit de dificilă, deoarece experții erau, prin definiție, extrem de apreciati și în cerere constantă de către organizații. Ca urmare a acestei probleme o mare cercetare din ultimii ani a sistemelor expert a fost axata pe instrumente pentru dobândirea de cunoștințe, pentru a ajuta la automatizarea procesului de proiectare, depanare, precum și menținerii unor reguli definite de către experți. Cu toate acestea, atunci când se uită la ciclul de viață al sistemelor expert în utilizarea reală, alte probleme par cel puțin la fel de critice ca dobândirea de cunoștințe. Aceste probleme au fost în esență identice cu cele ale oricărui alt sistem mare:.Integrare, acces la baze de date mari și performanțe.
Performanța a fost deosebit de problematica, deoarece sistemele expert timpurii au fost construite folosind instrumente, cum ar fi Lisp, care a executat interpretat mai degrabă decât cod compilat. Interpretarea oferea un mediu de dezvoltare extrem de puternic, dar cu dezavantajul că era practic imposibil să se potrivească eficiența celor mai rapide compilatoare ale timpului, cum ar fi C. Sistemul și integrarea bazei de date au fost dificil de anticipat de sistemele expert, deoarece instrumentele au fost în mare parte în limbajele și platformele care nu au fost nici familiare, nici binevenite în majoritatea mediilor IT corporatiste – limbajele cum ar fi LISP și Prolog și platforme hardware, cum ar fi Lisp Machine si calculatoare personale de programare. Ca urmare un mare efort în etapele ulterioare de dezvoltare a instrumentelor de sisteme expert a fost axat pe integrarea cu medii mai vechi, cum ar fi COBOL, integrarea cu sisteme de baze de date de mari dimensiuni, precum și portarea la mai multe platforme standard. Aceste aspecte au fost rezolvate în primul rând de schimbarea de paradigmă client-server ca PC-urile care au fost acceptate treptat în lumea IT ca o platformă legitima pentru dezvoltarea serioasa a sistemului de afaceri și ca servere de minicalculatoare accesibile prevăzute cu puterea de procesare necesară pentru aplicațiile IA.
Figura 4 Aplicatii bazate pe tehnici de IA [4]
Capitolul 3
Tehnici data mining
3.1. Introducere în data mining
Data mining este procesul de calcul a descoperirii modelelor în seturi mari de date implicand metode de la intersecția inteligentei artificiale, masini de învățare, statistici, si sisteme de baze de date.Scopul general al procesului de data mining este de a extrage informații de la un set de date și să o transforme într-o structură ușor de înțeles pentru o utilizarea ulterioară. În afară de etapa de analiză bruta, implică baze de date și de gestionare a datelor, aspecte, date de prelucrare, considerentele modelulului și inferenței,considerații de complexitate, post-procesarea structurilor descoperite, vizualizare și actualizare on-line.
Termenul este un termen impropriu, deoarece scopul este extracția de modele și cunoștințe din o cantitate mare de date, nu extragerea de date în sine. De asemenea, este frecvent aplicată la orice formă de date la scară larga sau de prelucrare a informațiilor (colectare, extracție, depozitare, analiză, și statistici), precum și orice aplicatie a sistemului de suport decizional de calculator, inclusiv inteligența artificiala si masina de învățare. De multe ori termenii mai generali "(la scară mare) analiza datelor", sau "analitica" -. sau atunci când se referă la metode reale, inteligența artificiala si masina de învățare – sunt mai adecvate.
Sarcina reala de data mining este analizata automat sau semi-automat de cantități mari de date pentru a extrage modele interesante necunoscute anterior, cum ar fi grupurile de înregistrări de date, înregistrări neobișnuite (de detectare a anomaliilor) și dependențe. Aceasta implică de obicei folosind tehnici de bază de date, cum ar fi indici spațiali. Aceste modele pot fi apoi văzută ca un fel de rezumat al datelor de intrare, și poate fi utilizată în analiză suplimentară sau, de exemplu, în procesul de învățare mașină și analiză predictivă. De exemplu, etapa mining ar putea identifica mai multe grupuri în datele, care pot fi apoi utilizate pentru a obține rezultate mai precise de predicție de un sistem de suport decizional. Nici colectarea datelor, pregătirea datelor, nici interpretarea rezultatelor și raportarea sunt parte a etapei de exploatare a datelor, dar fac parte din procesul general KDD ca măsuri suplimentare.
Legate de dragare datelor termeni, pescuit de date, precum și Snooping datele se referă la utilizarea unor metode de data mining pentru a gusta părți ale unui mare set de date populație care sunt (sau pot fi) prea mic pentru concluzii statistice fiabile să fie făcute cu privire la validitatea oricărei modele descoperit. Aceste metode pot fi totuși utilizate pentru crearea de noi ipoteze pentru a testa împotriva populațiilor de date mai mari.
3.2 Arborii de decizie
Arborii de decizie poat produce un model cu reguli care sunt usor de citit si de interpretat de care un om. Dupa spusele lui Hamidah Jantan in 2010, decizia de clasificare, folosind arborii de decizie poate fi realizată fără calcule complicate și tehnica poate fi folosita pentru ambele variabile continue și categorice. Această tehnică este potrivită pentru estimarea rezultatele categorice. Arborii de decizie in clasificare sunt tehnici destul de populare deoarece construcția arborelui nu are nevoie nici de cunoștințe de specialitate in domeniu nici de parametrii pentru stabilire și este potrivit pentru descoperire de cunoștințe. În prezent, există multe cercetări asupra arborilor de decizie în utilizare, cum ar fi consumul de energie în energie electrică (GKF Tso și KKW Yau), pronosticuri de cancer mamar (D. Delen), frecvența accidentelor (LY Chang). Arborele de decizie este printre cei mai puternici aloritmi de clasificare. Pe langa acestia mai sunt clasificatoare precum : C4.5, C5.0, J4,8, NBTree, SimpleCart, REPTree și altele
3.3 Algoritmi de data mining
Algoritmul C4.5
Tehnica C4.5 este una dintre familiile de arbori de decizie, care poate produce atat arbore de decizie cat și seturi de reguli. În plus, modelele C4.5 sunt ușor de înțeles și normele derivate din tehnica au o interpretare foarte simpla. Clasificatorul J48 este printre cele mai populare și puternice clasificatoare de arbori de decizie. C5.0 și J48 sunt versiuni îmbunătățite ale algoritmului C4.5. Programul WEKA contine un set de instrumente cu propria versiune, cunoscuta sub numele de J48,acesta fiind o implementare optimizată a algoritmului C4.5.
Algoritmul JRip
JRip (RIPPER) este unul dintre algoritmii de baza si cel mai popular. Clasele sunt examinate în creșterea dimensiunii și au un set inițial de reguli pentru clasa, acesta fiind generat folosind eroarea redusa. JRip continua prin tratarea tuturor exemplelor de un anumit tip în datele de formare ca o clasă, și sa găseasca un set de reguli care sa acopere toți membrii acestei categorii. După aceea se trece la clasa următoare și se procedeaza in acelasi fel, repetând-ul până când toate clasele au fost acoperite
Algoritmul ID3
ID3 este un urmaș al algoritmului C4.5. Acesta incearca sa creeze cel mai mic arbore decisional, luand toate atributele neutilizate si calculand entropiile lor. Alege atributul cu cea mai mica entropie sau unde informatia obtinuta este la maxim, dupa care face un nod continand acel atribut. Algoritmul ID3 functioneaza prin aplicarea succesiva a procedurii pentru fiecare subset pana cand nodurile “pure” sunt gasite-un nod pur contine elemente dintr-o singura clasa- sau pana cand nu mai sunt atribute.
Procesul de descoperire de cunoștințe din baze de date (KDD) este definit de urmatoarele etape:
Selectie
Pre-prelucrare
Transformarea
Data Mining
Interpretare / Evaluare.
Există, totuși, în mai multe variante pe această temă, cum ar fi Cross Industry Standard Process de Data Mining (CRISP-DM) care definește șase etape:
Înțelegerea afacerilor
Înțelegerea datelor
Prepararea datelor
Modelarea
Evaluare
Dezvoltarea
sau un procedeu simplificat, cum ar fi (1) pre-procesare, (2)data mining, și (3) validarea rezultatelor.
Figura 5 Procese data mining [5]
Sondajele de opinie efectuate în 2002, 2004 și 2007 arată că metodologia CRISP-DM este metodologia cea mai folosita de catre cei care folosesc data mining.Singurul standardul de data mining numit în aceste sondaje a fost SEMMA. Cu toate acestea, de 3-4 ori mai multe persoane au raportat utilizarea CRISP-DM. Mai multe echipe de cercetători au publicat recenziile modelelor de procese data mining, și Azevedo și Santos a efectuat o comparație intre CRISP-DM și SEMMA în 2008.
Pre-procesare
Înainte ca algoritmii de data mining sa poata fi folositi, trebuie sa fie asambal un set de date tinta.Cum data mining poate descoperi numai modele prezente în date, setul de date țintă trebuie să fie suficient de mare pentru a conține aceste modele în timp ce restul sa fie suficient de concis pentru a putea fi exploatate într-un termen acceptabil. O sursă comună de date este un mart de date sau date depozit.Pre-procesarea este esențială pentru analiza seturilor de date multivariate înainte de data mining. Setul țintă este apoi curățat. Curățarea datelor elimină observațiile care conțin zgomot și cele cu date lipsă.
Data mining implică șase clase comune de sarcini :
Detectarea anomaliilor (Outlier / schimba / detectare abatere) – Identificarea înregistrărilor de date neobișnuite, care ar putea fi erori de interese sau de date care necesită investigații suplimentare.
Regulă de asociere learning (modelare Dependența) – Căutări pentru relațiile dintre variabile. De exemplu, un supermarket s-ar putea aduna date privind obiceiurile de cumpărare a clientului. Utilizarea învățare regulă asociere, supermarket poate determina ce produse sunt în mod frecvent cumpărate împreună și de a folosi aceste informații în scopuri de marketing. Acest lucru este uneori menționată ca analiza coș de piață.
Clustering – este sarcina de a descoperi grupuri și structuri în datele care sunt într-un fel sau altul "similare", fără a utiliza structuri cunoscute în datele.
Clasificare – este sarcina de generalizare structura cunoscută a putea aplica la noile date. De exemplu, un program de e-mail va putea încerca să clasifice un e-mail ca "legitim" sau ca "spam".
Regresie – încearcă să găsească o funcție care modele datele cu cel mai puțin eroare.
Sumarizare – oferind o reprezentare mai compactă a setului de date, inclusiv vizualizarea și generarea de rapoarte.
3.4 Aplicatii data mining
Au existat unele eforturi pentru a defini standarde pentru procesul de data mining, de exemplu 1999 Procesul lui european standard pentru industrie de Data Mining (CRISP-DM 1.0) și standardul Utilaje Java datelor din 2004 (JDM 1.0). Dezvoltare privind succesorii acestor procese (CRISP-DM 2.0 și 2.0 JDM) a fost activ în 2006, dar a stagnat de atunci. JDM 2.0 a fost retrasă fără a ajunge la un proiect de final.
Pentru schimbul de modele extrase – în special pentru a fi utilizate în analiză predictivă – standardul cheie este Predictive Model de Markup Language (PMML), care este un limbaj bazat pe XML dezvoltat de Minerit grupul de date (DMG), și sprijinit ca format de schimb de mulți aplicații de data mining. După cum sugerează și numele, se referă numai la modele de predicție, o sarcină de data mining de mare importanță pentru aplicații de business. Cu toate acestea, extensii pentru acoperirea (de exemplu) subspatiu grupare au fost propuse independent de DMG
Jocuri
De la începutul anilor 1960, cu disponibilitatea de oracole pentru anumite jocuri combinatorii, de asemenea, numit tablebases (de exemplu, pentru 3×3-șah) cu orice încep de configurare,-carton mici puncte-si-cutii, mici-board-hex, și anumite finaluri în șah, puncte-si-cutii, și hex; o nouă zonă de data mining a fost deschis. Aceasta este extracția strategii-umane utilizabile din aceste cuvinte. Nu par abordări actuale de recunoaștere model pentru a obtine pe deplin nivelul ridicat de abstractizare necesară pentru a fi aplicate cu succes. În schimb, experimentare extinse cu tablebases – combinat cu un studiu intensiv de tablebase-răspunsuri la problemele bine proiectate, și cu cunoștințe de stadiul tehnicii (de exemplu, cunoștințe pre-tablebase) – este folosit pentru a produce modele de perspicace. Berlekamp (în puncte-si-cutii, etc.) și John Nunn (în finaluri de șah) sunt exemple notabile de cercetători face acest lucru, chiar dacă acestea nu au fost – și nu sunt – implicat în generarea tablebase.
Afaceri
În afaceri, data mining este analiza activităților de afaceri istorice, stocate ca date statice în depozite de baze de date. Scopul este de a descoperi modelele ascunse. Data mining software, utilizează algoritmi avansați de recunoastere pentru a trece prin cantități mari de date pentru a ajuta la descoperirea informațiilor necunoscute anterior. Intreprinderile folosesc data mining pentru efectuarea analizelor de piata pentru identificarea de noi pachete de produse, gasirea cauzei principale a problemelor de fabricație, pentru a dobândi clienți noi, cross-selling pentru clientii existenti.
Întreprinderile care utilizează data mining poat vedea o revenire a investițiilor, dar, de asemenea, ele recunosc că numărul de modele predictive poate deveni rapid foarte mare. De exemplu, mai degrabă decât sa foloseasca un model pentru a prezice câți clienți vor avea, o afacere poate alege pentru a construi un model separat pentru fiecare regiune și client tip. În situațiile în care au nevoie de un număr mare de modele care urmează să fie menținută, unele întreprinderi apelează la metode mai automatizate de data mining.
Data mining poate fi de ajutor la departamentele de resurse umane (HR) în identificarea caracteristicilor celor mai de success angajati. Informațiile obținute – cum ar fi universitățile la care au participat angajații cu succes – pot contribui la eforturile depuse de HR in recrutari. În plus, aplicațiile Strategic Enterprise Management ajuta o companie sa traduca obiectivele la nivel corporativ, cum ar fi obiectivele de profit și cota de marjă, în deciziile operaționale, cum ar fi planurile de producție și nivelurile de forță de muncă.
Data mining este un instrument foarte eficient în industria de catalogare. Cataloagele au o bază de date bogată cu un istoric al operațiunilor pentru milioane de clienți,. Unelte de data mining poate identifica modele în rândul clienților și pot ajuta la identificarea celor mai probabili clienți care vor răspunde la campaniile viitoare.
Data mining pentru aplicațiile de afaceri poate fi integrata într-un proces de modelare și de luare a deciziilor complexe. Reactive Business Intelligence (RBI) pledează pentru o abordare "holistică", care integreaza data mining, modelare, precum și vizualizare interactivă într-o descoperire end-to-end.
În zona de luare a deciziilor, abordarea RBI a fost folosita la cunoștințe dobândite progresiv de la luarea deciziilor, și apoi metoda “self-tune” de decizie.
Știință și inginerie
În ultimii ani, data mining a fost utilizata pe scară largă în domeniul științei și ingineriei, cum ar fi bioinformatica, genetica,pentru medicamente, si educație.
În studiul geneticii umane, secvența de data mining ajută la abordrea obiectivelor importante înțelegerii relației de cartografiere dintre variațiile inter-individuale în secvența ADN-ului uman și variabilitatea în susceptibilitatea bolii. În termeni simpli, aceasta urmărește să afle cum schimbările în secvența ADN a unei persoane afecteaza riscurile de a dezvolta boli comune, cum ar fi cancerul, care este de mare importanță pentru îmbunătățirea metodelor de diagnosticare, prevenire, precum și tratarea acestor boli. O metoda de exploatare a datelor este utilizat pentru a efectua această sarcină cunoscuta ca reducerea dimensionalitatii multifactoriale.
Metode de exploatare a datelor au fost aplicate pentru analiza gazelor dizolvate (DGA) din transformatoarele de putere. DGA, ca o diagnosticare pentru transformatoare de putere, a fost disponibil pentru mai mulți ani. Modalitati cum ar fi SOM au fost aplicate pentru a analiza datele generate și pentru a determina tendințele care nu sunt evidente la metodele standard de raport DGA (cum ar fi Duval Triangle).
În cercetarea de învățământ, unde data mining a fost utilizat pentru a studia factorii care conduc studenții să aleagă să se angajeze în comportamente care reduc învățarea lor, și să înțeleagă factorii care influențează studentii
Metode data mining de date biomedicale facilitate de ontologii, extragerea datelor din studiile clinice, și analiză a traficului cu ajutorul SOM.
Data mining a fost aplicat si la artefacte software în domeniul ingineriei software : Mining Software Repositories.
Data mining in medicina
În 2011 Curtea Supremă a Statelor Unite, a decis că farmaciile pot face schimb de informații cu companii din afara. Această practică a fost autorizata în conformitate cu primul amendament al Constituției, protejarea "libertatii de exprimare". HITECH Act a fost semnat la 17 februarie 2009 ca parte a American Recovery and Reinvestment Act (ARRA) și a ajutat pentru a deschide ușa pentru data mining medical. Înainte de semnarea acestui drept, doar 20% din medici utilizau inregistrarile electronice ale pacientilor. Søren Brunak observă că "fișa pacientului devine din ce in ce mai bogata in informatie" și, prin urmare " maximizează oportunitățile de data mining”. Prin urmare, inregistrarea electronica a pacientilor se extinde în continuare. In ceea ce privește extragerea datelor medicale se deschide astfel calea către o sursă mare de analiză a datelor medicale.
Data mining spațiala
Obiectivul data mining-ului spațial este de a găsi modele în datele cu privire la geografie. Până în prezent, data mining și Sisteme Informatice Geografice (GIS) au existat ca două tehnologii separate, fiecare cu metodele sale, tradiții, și abordări pentru vizualizare și analiză a datelor. În special, cele mai multe GIS contemporane au o foarte extinsă analiză spațială. Explozia imensa din datele menționate geografic ocazionate de evoluția IT, cartografiere digitală, teledetecție, iar difuzarea la nivel mondial a GIS subliniază importanța dezvoltării unor abordări inductive bazate pe date de analiză geografică și modelare.
Data mining ofera mari beneficii potențiale pentru aplicatii de luare a deciziilor pe baza GIS. Recent, sarcina de a integra aceste două tehnologii a devenit de o importanță critică, mai ales ca diferite organizații din sectorul public și privat care posedă baze de date imense cu date tematice și referire geografic începe să realizeze potențialul uriaș al informațiilor conținute în acesta.
Printre aceste organizații sunt:
Birouri care necesită analizari sau difuzarea datelor statistice referitoare la geografie.
Serviciile de sănătate publică care caută explicații pentru anumite boli
Agențiile de mediu pentru evaluarea impactului de schimbare a modelelor de utilizare a terenurilor privind schimbările climatice
Companii de geo-marketing fac segmentarea consumatorilor în funcție de locație spațială.
Provocări în data mining spațial : arhivele de date geospațiale tind sa fie foarte mari. Mai mult decât atât, seturi de date GIS existente sunt adesea fragmentate în funcții și atribute care sunt în mod convențional arhivate în sisteme hibride de gestionare a datelor. Cerințele algoritmice diferă substanțial de la relațională (atribut) la gestionarea datelor și la topologie(optiune) de gestionare a datelor. În legătură cu aceasta este gama și diversitatea de formate a datelor geografice, care prezintă provocări unice. Revoluția digitala de date geografice este crearea de noi tipuri de formate de date dincolo de "vector-ul" traditional și de formate “raster". Arhivele geografice includ din ce în ce mai mult date rău structurate, cum ar fi imagini și se face referire multi-media geo.
Data mining temporală
Datele pot conține atribute generate și pot fi înregistrate în momente diferite. În acest caz, gasirea relatiilor semnificative în date poate fi solicita în considerarea ordinii temporale a atributelor. O relație temporală poate indica o relație cauzală, sau pur și simplu o asociație.
Grila de cunoștințe
Descoperirea de cunoștințe "pe grila de start" se referă în general la efectuarea descoperirilor de cunoștințe într-un mediu deschis, folosind concepte de “grid computing”, care permit utilizatorilor să integreze date din diverse baze de date on-line, de asemenea face uz de resurse de la distanță pentru executarea sarcinilor de data mining. Primul exemplu a fost Discovery Net, dezvoltat la Imperial College din Londra, care a câștigat premiul “Cea mai inovatoare aplicație Date-Intensive" de la ACM SC02 (Supercomputing 2002). Alte exemple includ munca realizata de cercetatorii de la Universitatea din Calabria, care a dezvoltat o arhitectură Grid de cunoștințe pentru a fi distribuită descoperirii de cunoaștinte, pe baza de grid computing.
Probleme de confidențialitate și etică
În timp ce termenul de "data mining" in sine nu are implicații etice, este adesea asociat cu exploatarea informațiilor în legătură cu comportamentul oamenilor (etic și altfel).
Modalitățile în care data mining pot fi folosite, pot în unele cazuri și context, ridica întrebări cu privire la viața privată, legalitate, și etica. În special, guvernul de data mining sau seturi de date comerciale pentru scopuri de securitate sau de aplicare a legii naționale, au ridicat probleme de confidențialitate.
Data mining necesită o pregătire de date care pot fi descoperite, informații sau modele care pot compromite obligațiile de confidențialitate și de confidențialitate. O modalitate comună pentru ca acest lucru să apară este prin agregarea datelor. Agregarea datelor implică combinarea datelor împreună (eventual din diverse surse) intr-un mod care să faciliteze analiza (dar care, de asemenea, s-ar putea face identificarea). Acest lucru nu este de data mining în sine, dar un rezultat al pregătirii datelor înainte – și în scopul analizei.
Se recomandă ca o persoană sa fie informată de urmatoarele lucruri, înainte ca date sa fie colectate :
scopul colectării de date și orice proiecte de data mining;
modul în care datele vor fi utilizate;
cine va fi capabil să exploateze datele și de a folosi datele și derivații acestora;
starea de securitate din jurul accesului la date;
modul în care datele colectate pot fi actualizate.
Datele pot fi, de asemenea, modificate astfel încât să devină anonime, persoanele să nu poata fi ușor identificate. Cu toate acestea, chiar si seturile de date "de identificat" sau "anonime" pot conține potențial informații suficiente pentru a permite identificarea persoanelor fizice, cum sa întâmplat când jurnaliștii au fost în stare să găsească mai multe persoane pe baza unui set de istorii de căutare, care au fost eliberate din neatenție de AOL.
Software open-source de data mining si aplicatii
Carrot2 : Textele și rezultatele căutării sunt intr-un cadru de grupare.
Chemicalize.org : O structura chimica de data mining și un motor de căutare web.
Elki : Un proiect de cercetare universitară cu analize avansate cluster și metode de detectare outlier scrise în limbajul Java.
GATE : un instrument de prelucrare a limbajului natural.
KNIME : Konstanz Informații Miner, un cadru prietenos și de analiză a datelor.
ML-Flex : Un pachet software, executa analize de clasificare în paralel pe noduri de calcul, și pentru a produce rapoarte HTML de rezultate de clasificare.
Bibliotecă MLPACK : o colecție pentru algoritmi de învățare mașină scrise în limbajul C ++.
Analiza Massive Online (MOA) : un stream in timp real de date mari,in limbajul de programare Java.
NLTK (Language Toolkit Natural) : O suită de biblioteci și programe pentru prelucrarea simbolică și statistică a limbajului natural (NLP) pentru limbajul Python.
OpenNN : O bibliotecă deschisa de rețele neuronale.
Orange : O suită pe bază de componente de data mining și machine-learning software scris în limbajul Python.
R : Un limbaj de programare pentru calcul statistic, data mining, și grafică. Acesta face parte din Proiectul GNU.
RapidMiner : Un mediu pentru experimente de machine-learning si data mining.
SCaViS:O platforma Java pentru analiza datelor dezvoltat la Argonne National Laboratory.
API SenticNet : O resursă semantic pentru data mining și pentru analiza sentimentelor.
Tanagra : Un software de data mining orientat spre vizualizare, de asemenea, pentru predare.
Torch : O bibliotecă open source pentru învățare profundă, specil pentru limbajul de programare Lua.
UIMA : UIMA (Unstructured Information Management Architecture) este un component pentru analizarea conținutului nestructurat, cum ar fi text, audio și video – dezvoltat inițial de IBM.
Weka : O suită de aplicații software de machine-learning scrise în limbajul de programare Java.
Software de data mining comerciale si aplicatii
Angoss KnowledgeSTUDIO : instrument de data mining furnizate de Angoss.
Clarabridge : Soluție de analiză de text de clasă enterprise.
HP Vertica Analytics Platform : software de data mining furnizat de HP.
IBM SPSS Modeler : software de data mining furnizat de IBM.
KXEN Modeler : instrument de data mining furnizate de KXEN.
Grapheme : data mining și software-ul de vizualizare oferite de iChrome.
LIONsolver : o aplicație software integrat pentru data mining, business intelligence, și modelare care pune în aplicare abordarea de învățare și de optimizare inteligentă (LION).
Microsoft Analysis Services : software de data mining furnizat de Microsoft.
NetOwl : O suita de text și de analiză produse multilingve care permit data mining.
Oracle Data Mining : date software miniere de Oracle.
SAS Enterprise Miner : software de data mining furnizate de Institutul SAS.
STATISTICA Data Miner : software de data mining furnizate de StatSoft.
Qlucore OMICS Explorer : software de data mining furnizate de Qlucore.
Studiul pietei
Mai multi cercetători și organizații au efectuat recenziile de instrumente de data mining și sondaje de data mining. Acestea identifică unele dintre punctele forte și punctele slabe ale pachetelor software. Acestea oferă, de asemenea, o privire de ansamblu asupra comportamentelor, preferințele și opiniile celor care se ocupa de data mining. Unele dintre aceste rapoarte includ:
2011 Wiley Comentarii interdisciplinare : Data Mining și cunoștințe Discovery
Sondaje Rexer Analytics Data Miner (2007-2013)
Cercetarea Forrester 2010 Predictive Analytics și Data Mining Solutions raport
Gartner 2008 raport "Magic Quadrant"
Robert A. Nisbet, din 2006, a treia parte serii de articole "date unelte de minerit:? Care este cel mai bun pentru CRM"
Haughton 2003 Recenzii asupra pachetelor software de data mining din America Statisticianului
Goebel & Gruenwald 1999 "Un studiu data mining de instrumente si cunoștințe Discovery Software" în SIGKDD Explorari
Capitolul 4
Predictiile asupra calitatii aerului
4.1 Calitatea aerului
Monitorizarea poluantilor, pentru determinarea calității aerului se face cu stații de monitorizare. Acestea sunt de 6 tipuri.
– de tip trafic : aceasta evalueaza influenta traficului asupra calitatii aerului. Raza ariei este de 10-100 de metrii. Aici se pot monitoriza : dioxidul de sulf, oxizii de azot, monoxidul de carbon, ozonul, compusii volatili si pulberile in suspensie.
– de tip industrial : aici se evaluează influența activitaților industriale. Raza ariei este de 100 metri-1 kilometru. Poluantii monitorizați sunt : dioxidul de sulf, oxizii de ezot, monoxidul de carbon, ozonul, compusi organici volatili, pulberile in suspensie dar si parametrii meteo cum ar fii directia și viteza vântului, presiune, temperatura.
– de tip urban : evalueaza influenta locuitorilor. Raza ariei este de 1-5 kilometrii.
– de tip sub : evalueaza influenta ”asezarilor urmane”. Raza ariei este de 1-5 kilometrii
– de tip regional : este stație de referință. Raza ariei este de 200-500 kilometrii.
-de tip EMEP : aceasta monitorizeaza si evaluează poluarea aerului in context transfrontier la lunga distanta. Sunt amplasate in zone montane la altitudini medii.(la noi in tara sunt la Semenic, Fundata si Poiana Stampei)
Sistemul de monitorizare permite autoritatilor locale sa evalueze si sa informeze in permanenta publicul, sa ia in timp util masuri promptepentru diminuarea elementelor de poluare.
Figura 6 Valorile indicelui
4.1.1 Poluanti atmosferici
1.Dioxidul de sulf (SO2)
Dioxidul de sulf este un gaz incolor, amarui, neinflamabil, cu un miros patrunzator care irita ochii si caile respiratorii.
Dioxidul de sulf poate aparea in urma eruptiilor vulcanica, fermentatia bacteriala, oxidarea gazului cu continut mare de sulf. De asemenea poate aparea si in urma activitatilor umane precum sistemele de incalzire care nu utilizeaza gaz metan, centralele termoelectrice.
In functie de concentratie si perioada de expunere, dioxidul de sulf are diferite efecte asupra sanatatii umane.
Expunerea la o concentratie mare de dioxid de sulf, pe o perioada scurta de timp, poate provoca dificultati respiratorii severe, in special persoanele cu astm, copiii, varstnicii si persoanele cu boli cronice ale cailor respiratorii.In cazul in care expunerea este la o concentratie redusa de dioxid de sulf, pe termen lung poate avea ca efect infectii ale tractului respirator.
Acesta afecteaza vizibil si multe specii de plante, efectul negativ asupra structurii si tesuturilor acestora fiind sesizabil cu ochiul liber.
Unele dintre cele mai sensibile plante sunt : pinul, legumele, ghindele rosii si negre, frasinul alb, lucerna, murele.
In atmosfera, contribuie la acidifierea precipitatiilor, cu efecte toxice asupra vegetatiei si solului. De asemenea, cresterea concentratiei de dioxid de sulf accelereaza coroziunea metalelor, din cauza formarii acizilor.
2.Dioxidul de azot (NO2)
Oxizii de azot sunt un grup de gaze foarte reactive, care contin azot si oxigen in cantitati variabile. Majoritatea oxizilor de azot sunt gaze fara culoare sau miros.
Dioxidul de azot in combinatie cu particule din aer poate forma un strat brun-roscat.
In prezenta luminii solare, oxizii de azot pot reactiona si cu hidrocarburile formand oxidanti fotochimici.
Oxizii de azot sunt responsabili pentru ploile acide care afecteaza atat suprafata terestra cat si ecosistemul acvatic.
Dioxidul de azot este cunoscut ca fiind un gaz foarte toxic atat pentru oameni cat si pentru animale (gradul de toxicitate al dioxidului de azot este de 4 ori mai mare decat cel al monoxidului de azot). Expunerea la concentratii ridicate poate fi fatala, iar la concentratii reduse afecteaza tesutul pulmonar.Populatia expusa la acest tip de poluanti poate avea dificultati respiratorii, iritatii ale cailor respiratorii, disfunctii ale plamanilor. Expunerea pe termen lung la o concentratie redusa poate distruge tesuturile pulmonare ducand la emfizem pulmonar.
Persoanele cele mai afectate de expunerea la acest poluant sunt copiii. Expunerea la acest poluant produce vatamarea serioasa a vegetatiei prin albirea sau moartea tesuturilor plantelor, reducerea ritmului de crestere a acestora.
3.Ozonul (O3)
Gaz foarte oxidant, foarte reactiv, cu miros inecacios. Se concentreaza in stratosfera si asigura protectia impotriva radiatiei UV daunatoare vietii. Ozonul prezent la nivelul solului se comporta ca o componenta a"smogului fotochimic". Se formeaza prin intermediul unei reactii care implica in particular oxizi de azot si compusi organici volatili.
Concentratia de ozon la nivelul solului provoaca iritarea traiectului respirator si iritarea ochilor. Concentratii mari de ozon pot provoca reducerea functiei respiratorii. Este responsabil de daune produse vegetatiei prin atrofierea unor specii de arbori din zonele urbane.
4.Monoxidul de carbon (CO)
La temperatura mediului ambiental, monoxidul de carbon este un gaz incolor, inodor, insipid, de origine atat naturala cat si antropica. Monoxidul de carbon se formeaza in principal prin arderea incompleta a combustibililor fosili.
Apare din cauza arderii padurilor, emisiilor vulcanice si descărcărilor electrice.Se formeaza in principal prin arderea incompleta a combustibililor fosili.Producerea otelului si a fontei, rafinarea petrolului, traficul rutier, aerian si feroviar.Monoxidul de carbon se poate acumula la un nivel periculos in special in perioada de calm atmosferic din timpul iernii si primaverii (acesta fiind mult mai stabil din punct de vedere chimic la temperaturi scazute), cand arderea combustibililor fosili atinge un maxim.
Monoxidul de carbon produs din surse naturale este foarte repede dispersat pe o suprafata intinsa, nepunand in pericol sanatatea umana.
Este un gaz toxic, in concentratii mari fiind letalprin reducerea capacitatii de transport a oxigenului in sange, cu consecinte asupra sistemului respirator si a sistemului cardiovascular.
La concentratii relativ scazute:
– afecteza sistemul nervos central;
– slabeste pulsul inimii, micsorand astfel volumul de sange distribuit in organism;
– reduce acuitatea vizuala si capacitatea fizica;
– expunerea pe o perioada scurta poate cauza oboseala acuta;
– poate cauza dificultati respiratorii si dureri in piept persoanelor cu boli cardiovasculare;
– determina iritabilitate, migrene, respiratie rapida, lipsa de coordonare, greata, ameteala, confuzie, reduce capacitatea de concentrare.
Segmentul de populatie cea mai afectata de expunerea la monoxid de carbon o reprezinta : copiii, varstnicii, persoanele cu boli respiratorii si cardiovasculare, persoanele anemice, fumatorii.
5.Pulberi in suspensie (PM10)
Pulberile in suspensie reprezinta un amestec complex de particule foarte mici si picaturi de lichid.
Pulberile apar in urma erupțiilor vulcanice, eroziunilor rocilor, furtuni de nisip si dispersia polenului. De asemenea mai apar și din cauza activităților industriale, sistemul de incalzire a populatiei, centralele termoelectrice. Traficul rutier contribuie la poluarea cu pulberi produsa de pneurile masinilor atat la oprirea acestora cat si datorita arderilor incomplete.
Dimensiunea particulelor este direct legata de potentialul de a cauza efecte. O problema importanta o reprezinta particulele cu diametrul aerodinamic mai mic de 10 micrometri, care trec prin nas si gat si patrund in alveolele pulmonare provocand inflamatii si intoxicari.
Sunt afectate in special persoanele cu boli cardiovasculare si respiratorii, copiii, varstnicii si astmaticii. Copiii cu varsta mai mica de 15 ani inhaleaza mai mult aer, si in consecinta mai multi poluanti. Poluarea cu pulberi inrautateste simptomele astmului, respectiv tuse, dureri in piept si dificultati respiratorii.
Expunerea pe termen lung la o concentratie scazuta de pulberi poate cauza cancer si moartea prematura.
Pentru toti acesti poluanti, timp de cinci luni am luat in fiecare zi, odata dimineata si odata seara, valoarea indicelui de calitate. Intai am luat indicele pentru fiecare in parte, dupa care am luat indicele general.
4.2 Crearea bazei de date
Pentru inceput am folosit programul WampServer pentru a ma conecta la baza mea de date.
WampServer este un program care iti permite sa te conectezi la diferite alte programe cum ar fi MySQL, phpMyAdmin,Apache sau php. Deoarece mie mi-a trebuit pentru a crea o baza de date si pe care sa o pot modifica in fiecare zi, oricand doream, am ales sa folosesc phpMyAdmin. L-am folosit si in timpul facultatii, imi era familiar si era si mai usor de folosit.
Figura 7 WampServer [7]
In phpMyAdmin am creat o baza de date noua pe care am denumit-o „calitate aer”. Aici am facut trei tabele. Prima este in care am trecut de fiecare data in parte indicele pentru fiecare poluant si incele general, numita „indici de calitate”.
In cea de-a doua tabela am trecut date despre vreme pentru fiecare zi in care am scos si indicii de calitate. Aceasta tabela contine „date meteo” in care am trecut caracteristicile zilei respective, „grade” si data zilei respective.
Ultima tabela este pentru a face legatura dintre cele doua tabele si pentru a spune in functie de ce valoare are indicele zilnic, cat de bun este. De exemplu daca valoarea indicelui este 4,caracteristica acestuia este „Bun”, daca este 1, caracteristica este „Excelent”, iar daca este 6, carcteristica este „Foarte rau”. [vezi Figura 8, Figura 9 si Figura 10]
Figura 8
Figura 9
Figura 10
Pentru a arata legatura dintre tabele am folosit programul MySQL Workbench unde am importat toate tabele din baza mea de date. [vezi Figura 11, Figura 12, Figura 13]
Figura 11
Figura 12
Figura 13
4.3 Generarea regulilor si a arborilor pentru predictii
Pentru generarea regulilor am folosit programul Weka.
WEKA este un banc de lucru, care conține o colecție de instrumente de vizualizare si algoritmi pentru analizarea datelor și modelarea predictivă, împreună cu interfețe grafice pentru un acces ușor la această funcționalitate.
Avantajele Weka includ:
• disponibilitatea : este un program gratuity, sub licența GNU General Public
• portabilitate, : deoarece este implementat pe deplin în limbajul de programare Java și, prin urmare, ruleaza pe aproape orice platforma de calcul modernă
• o colecție cuprinzătoare de tehnici de preprocesare și de modelare a datelor
• ușurința de utilizare : datorită interfețele sale de utilizator grafice.
WEKA susține mai multe sarcini standard de data mining, mai precis, preprocesarea datelor, clustering, clasificarea, regresie, vizualizare, și selectarea caracteristică. Toate tehnicile WEKA se bazează pe ipoteza că datele sunt disponibile ca un singur fișier plat sau relație, în cazul în care fiecare punct de date este descrisă de un număr fix de atribute (atribute în mod normal, numerice sau nominale, dar si alte tipuri de atribute sunt, de asemenea, sprijinite ). WEKA oferă acces la baze de date SQL folosind Java Database Connectivity și poate procesa rezultatul returnat de o interogare a bazei de date. Nu este capabil de data mining multi-relational, dar există software-uri separate pentru conversia unei colecții de tabele de baze de date legate într-un singur tabel, care este potrivit pentru prelucrarea utilizarea Weka.
Figura 14
Interfata pe care eu am folosit-o este interfata Explorer.
Interfața Explorer are mai multe panouri care oferă acces la principalele componente ale bancul de lucru:
• Panoul “Preprocess” are facilitati pentru importul de date din baza de date, un fișier CSV, etc. Aceste filtre pot fi folosite pentru a transforma datele (de exemplu, transformarea atributelor numerice în unele discrete) și face posibilă ștergerea instanțelor și atributelor în funcție de criterii specifice.
Figura 15 Preprocess
• Panoul “Classify” permite utilizatorului să aplice algoritmi de clasificare și de regresie la setul de date care rezultă, pentru a estima precizia modelului predictiv rezultat, și de a vizualiza predicții eronate, curbe ROC, etc., sau modelul în sine (dacă modelul este cedat vizualizării ca, de exemplu, un arbore de decizie).
Figura 16 Classify
• Panoul “Associate” oferă acces la reguli de asociere care încearcă să identifice toate relațiile importante între atribute.
Figura 17 Associate
• Panoul “Cluster” oferă acces la tehnici de grupare în Weka.
Figura 18 Cluster
• Panou “Select attributes” oferă algoritmi pentru identificarea atributelor cele mai predictive la un set de date.
Figura 19 Select attributes
• Panoul “Visualize” prezinta o matrice cu fiecare atribut din program, unde acestea pot fi selectate,extinse, precum și analizate în continuare folosind diferite operatii de selecție.
Figura 20 Visualize
Dupa ce am exportat baza de date in format CVS, am modificat fisierul astfel incat sa se incadreze normelor cerute de programul Weka, adica am facut un fisier cu extensia. arff cu atributele necesare.
Am incarcat fisierul in program, dupa care am selectat panoul “Classify”. Pentru a-mi genera regulile si arborele necesar am aplicat pe rand diferiti algoritmi, fiecare avand alt rezultat. Pentru a-mi genera reguli am selectat grupul “rules” si am aplicat : PART si JRip.
Pentru a-mi genera arbori am selectat grupul “trees” si am aplicat J48 si REPTree.
Figura 21 Reguli generate
După cum se poate observa, fiecare algoritm scoate un număr diferit de reguli, timpul de executie este diferit( unul executa în 0.05 secunde, celalalt in 0.09 secunde ). Da, diferența timpului de execuție nu este mare, dar pentru o bază de date din ce în ce mai mare durează din ce in ce mai mult. Algoritmul PART are 23 de instanțe clasificate incorrect, în timp ce JRip are numai 12, motiv pentru care și valoarea Kappa care trebuie sa fie cat mai aproape de 1 este mai bună si valoare erorii absolute, care trebuie să fie cât mai aproape de 0.
Figura 22 Arbore generat
Cu toate că valorile sunt foarte apropiate, unele chiar identice se pot observa micile diferente, dar eu am ales să folosesc numai arborele generat de algoritmul J48. Arborele generat de acesta arată cam așa:
Figura 23 Arbore generat de J48
4.4 Generare sistem expert
Ultimul pas în finalizarea proiectului a fost generarea sistemului expert in programul Vp-Expert.
Figura 24 Vp-Expert
Pentru aceasta am preluat regulile generate de programul Weka și le-am implementat aici.
Procesul de utilizare VP-Expert pentru a rezolva o problemă științifică, in funcție de normele în baza sa de cunoștințe, se numește ”consultare”. În general,utilizatorul nu pune intrebari direct sistemului(acest lucru se face in secțiunea ACTIONS in baza de cunoștințe), dar dă raspunsuri la întrebarile relevante pentru interogare.
Pentru a începe o consultare, se alege ”Consult” din meniul principal, apoi se selectează ”Go”.
După ce am consultat fișierul pe care eu l-am creeat și după ce am răspuns la intrebări, rezultatul lui a fost urmatorul:
Figura 25 Interogarea bazei de cunostinte
Pentru a vedea și ce reguli a interogat, am setat ”Drumul”, acest lucru fiind posibil prin Set->Trace, am interogat din nou baza de cunoștințe, după care am selectat Tree->Text și mi-a arătat exact ce reguli a urmat pentru a da răspunsul final.
Figura 26 VP-Expert Tree
Capitolul 5
Concluzii
Datorită faptului că lumea noastră este continuu poluată, pot spune ca este necesar un astfel de program pentru a ne arata eventualele probleme pe care le putem avea din aceasta cauză.
Eu am făcut numai începutul, de aici se poate modifica și se poate face un program din ce în ce mai evoluat, cu mai multe proprietați.
Eventualele adăugari sau chiar și modificări la acest proiect ar fi inlocuirea indicelor poluantilor cu valorile lor standard, și valorile măsurate în fiecare zi, chiar în fiecare oră, pentru o precizie mai mare. Se poate chiar face o interfața Java, legată la un site pe care fiecare persoană să îl poată accesa și să poată vedea în fiecare zi la ce probleme sunt dispuși in momentul în care ies din casă. De asemenea se poate merge și mai departe, in sensul că ar putea fii facut un program care, de fiecare dată când se modifica indicele și este periculos să ieși afară, acesta să te anunte.
Aceasta este o problem pe care nu mulți o iau in considerare si de asemenea nu li se pare ceva important, dar este, mai ales că acesti poluanți au un efect foarte rau mai ales asupra copiilor si a vârstnicilor.
Abstract
Artificial intelligence is intelligence machinery or software. It is a field of academic study which is basically creating intelligence. Most researchers in artificial intelligence they defined as "the study and design of intelligent agents" where an intelligent agent is a system that perceives the environment and takes actions that maximize the chance of success. Artificial Intelligence is extremely technical and specialized, and is divided into parts that often fail to communicate with each other. This area was founded on the basis that the main property of humans, intelligence can be very accurately described as a machine. This raised many issues about the nature of mind and ethics of creating artificial things endowed with human intelligence issues since ancient times.
Artificial intelligence has been the subject of an extraordinary optimism, but also suffered failures. Today it has become an essential part of the technology industry, providing solutions of the most difficult for many of the most difficult problems in computer science.
In umatorul chapter presents the idea of data mining techniques, algorithms, and applications thereof.
Data mining is the process of calculating the discovery of large data sets using methods involving the intersection of artificial intelligence, machine learning, statistics, and general database systems date. The purpose of this process of data mining is to extract information from a set of data and transform it into a comprehensible structure for later use.
Because our world is continually polluted, I can say that such a program is necessary to show us any problems we may have in this case.
I did only the beginning, hence can change and can make a program of increasingly evolved, with many properties.
Any additions or changes to the project even as indexes pollutants replacing their standard values, and the values measured every day, even every hour, for greater accuracy. We can really make a Java interface, linked to a site that everyone can access and can see every day what matters are disposed in the air when leaving the house. It can also go further, in that we could be make a program that every time the index changes and it is dangerous to go out, it announces you.
This is a problem that many does not take into account and also they donțt find it as something important, but they should, we should and mostly because these pollutants have a very bad effect especially on children and the elderly.
Anexa 1
VP-Expert
Ca o adăugare la ultimul program, am mai făcut unul în care, în loc sa ia numai indicele pentru fiecare poluant atmosferic, se da întai concentrația pentru fiecare în parte, dupa care acesta spune cât este indicele specific și indicele general. De aici se poate face o bază de date unde sa fie intoduse aceste concentrații și de unde să se facă automat, toate acestea pentru un proiect viitor.
Ca un exemplu de reguli ar fii următoarele:
rule 1
if so2>0 and so2<=49.9 then indice_so2=1;
rule 2
if so2>=50 and so2<=74.9 then indice_so2=2;
rule 3
if so2>=75 and so2<=124.9 then indice_so2=3;
rule 4
if so2>=125 and so2<=349.9 then indice_so2=4;
rule 5
if so2>=350 and so2<=499.9 then indice_so2=5;
rule 9
if no2>=100 and no2<=139.9 then indice_no2=3;
rule 10
if no2>=140 and no2<=199.9 then indice_no2=4;
rule 11
if no2>=200 and no2<=399.9 then indice_no2=5;
rule 12
if no2>=400 then indice_no2=6;
rule 15
if ozon>=80 and ozon<=119.9 then indice_ozon=3;
rule 16
if ozon>=120 and ozon<=179.9 then indice_ozon=4;
rule 17
if ozon>=180 and ozon<=239.9 then indice_ozon=5;
rule 25
if pm10>0 and pm10<=9.9 then indice_pm10=1;
rule 26
if pm10>=10 and pm10<=19.9 then indice_pm10=2;
rule 27
if pm10>=20 and pm10<=29.9 then indice_pm10=3;
După aceste reguli, am folosit aceleași reguli pe care le-am folosit și in programul meu.
Bibliografie
Elovici Y; Braha D (2003). "A Decision-Theoretic Approach to Data Mining"
Han J; Kamber M (2001). ”Data mining : concepts and techniques”.
Hutter M (2005).” Universal Artificial Intelligence”.;Berlin
Jiang X (2012). ”Contemporary Artificial Intelligence”; Chapman & Hall/CRC.
Luger G; Stubblefield W (2004) : ”Artificial Intelligence : Structures and Strategies for Complex Problem Solving ”;Benjamin/Cummings. Neapolitan, Richard;
Oprea M (1998). ”Inteligență artificială”, volumul 1, Editura Universal
Oprea M (1999). ”Inteligență artificială”, volumul 2, Editura UPG
Nilsson N (1998). ”Artificial Intelligence : A New Synthesis”; Morgan Kaufmann.
Óscar M, Gonzalo M și Javier S (2009); ”A Data Mining & Knowledge Discovery Process Model”
Russell S; Norvig P (2003), ”Artificial Intelligence : A Modern Approach”
Witten I; Frank E; Hall M (30 January 2011). ”Data Mining : Practical Machine Learning Tools and Techniques”
www.calitateaer.ro
[1] http://os2.zemris.fer.hr/ostalo/2009_zuzak/CAPTCHA.html
[2] http://www.scrigroup.com/term/introducere-transport-inteligent-ppt_c-2.php
[3] http://www.scrigroup.com/finante/SISTEMELE-EXPERT-INTELIGENTA-A15431.php
[4]http://www.scritub.com/stiinta/informatica/Ce-este-inteligenta-artificial1611161915.php
[5] http://www.igniteitpl.com/Datamining.aspx
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Tehnici Data Mining (ID: 150677)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
