Machine Learning
Cap. 1. Introducere
Introducere
In-Field Analytics
Scopul și motivația proiectului
Cap. 2. Machine Learning
2.1 Introducere
Machine learning este un subdomeniu al științelor informatice care a evoluat din studiul recunoașterii de tipare în inteligența artificială. În 1959, Arthur Samuel a definit conceptul de machine learning ca fiind “un domeniu de studiu care oferă computerelor capacitatea de a învăța fără ca acestea să fie explicit programate pentru acest lucru.”
Acest domeniu studiază algoritmi care pot învăța și pot face predicții asupra datelor. Acești algoritmi operează asupra unor modele construite pe baza unor date folosite ca date de învățare sau antrenare, pentru a genera genera decizii sau predicții.
Datorită capacității de extragere a informației din datele furnizate ca și intrare, acest domeniu are o aplicație foarte mare și foarte vastă, atât în mediul academic, cât și în mediul comercial.
Ca și exemple de aplicații ce folosesc la bază algoritmi de machine learning putem include filtrarea de e-mailuri de tip spam, motoare de căutare, bioinformatică și imagistică medicală, aplicații de securitate(recunoaștere facială, recunoaștere retină), analiza textului, controlul predictiv al proceselor etc.
Din punct de vedere al metodologiilor și algoritmilor de învățare, metodele de machine learning se împart în două mari categorii:
Învățare nesupervizată;
Învățare supervizată. [3]
(adaugă și partea de preprocesare a datelor)
(adaugă și clasificare / regresie)
2.2 Noțiunea de învățare nesupervizată
Învățarea nesupervizată se referă la faptul că un model sau un algoritm de machine learning acumulează experiență numai pe baza relațiilor dintre valorile de intrare. În acest caz, predicția sau decizia va fi influențată de frecvența vectorilor de intrare, adică, un vector de intrare cu o frecvență mare în setul de date de antrenare va cauza o predicție mai precisă ai unor vectori din datele de test asemănători cu vectorul de intrare, și invers,. Acest mecanism este folosit atunci când nu avem detalii despre datele de intrare (de exemplu, gruparea elementelor pe clase, sau clustering). [4]
2.3 Noțiunea de învățare supervizată
Spre deosebire de învățarea nesupervizată, învățarea supervizată folosește nu numai valorile de intrare și relațiile dintre ele, ci și o ieșire dorită, astfel predicția oferită de model este mai flexibilă și mai tolerantă la zgomot. [4]
2.4 Regresia ca metodă de învățare supervizată
Inventatorul regresiei a fost vărul lui Charles Darwin, Francis Galton. Galton a făcut prima regresie în 1877 pentru a estima dimensiunea boabelor de mazăre pe baza dimensiunilor boabelor de mazăre părinte. Galton a folosit regresia pentru a estima inclusiv înălțimea oamenilor. El a observat că dacă părinții au înălțimea peste medie, atunci și copii acestora tind să aibe înălțimea peste medie, dar nu așa de mult ca părinții lor, înălțimea copiilor convergând către o valoare medie. Acest comportament a fost observat în multe dintre lucrurile studiate, de unde și numele de regresie.
Pentru a efectua predicția folosind regresia, trebuie să aflăm mai întâi ecuația regresiei. Aceasta este de forma:
unde reprezintă valorile de intrare în model, iar reprezintă ponderile valorilor.
De remarcat faptul că în acest capitol ma voi referi strict la regresia liniară.
Putem observa că predicția este defapt o sumă ponderată a intrărilor, unde ponderile sunt deduse din relațiile dintre intrări și ieșirea reală (pentru că regresia liniară se folosește de conceptul de învățare supervizată, amintit în capitolul precedent).
Să presupunem că datele noastre de intrare sunt sub forma unei matrici notate cu X, iar ponderile regresiei se află într-un vector notat cu w. Pentru o intrare din matricea X, valoarea prezisă y va fi:
Deoarece nu știm ce valori au ponderile, le vom afla minimizând eroarea. Definim eroarea ca fiind diferența dintre valoarea reală și valoarea prezisă. Nu vom folosi ecuația erorii deoarece aceasta nu funcționează corect atunci când avem atât valori pozitive cât și valori negative, în schimb vom folosi eroarea pătratică:
Eroarea pătratică scrisă sub formă matriceală este:
Derivând expresia (2.3) obținem:
Egalând expresia (2.4) cu 0 ne rezultă următoarea ecuație:
Simbolul ne spune faptul că aceasta este cea mai bună soluție cu care putem veni pentru la momentul actual. Valoarea lui se bazează pe datele pe care le avem și se poate întâmpla ca această valoare să nu descrie perfect datele, această valoare fiind cel mai bun estimat pentru datele actuale.
De asemenea de luat în calcul este faptul că ecuația (2.5) folosește inversa matricii , dacă inversa lui nu există, ecuația nu va funcționa. (pag 154-156)
Figura 2.1 (Regresie liniară, sursa: https://wikipedia.org)
În figura 2.1 se poate observa un model de regresie liniară aplicat unor date de intrare (linia roșie urmărește trendul crescător al datelor). În acest caz, putem observa că datele de intrare au o formă pseudo-liniară.
De menționat faptul că acest model de machine learning va funcționa corect numai pentru date de intrare ce au o formă liniară, iar corelația dintre valoarea reală și valoarea prezisă ar trebui să fie pozitivă deoarece dacă corelația este zero atunci nu avem nici o corespondență între ieșirea reală și ieșirea prezisă, iar dacă corelația este negativă atunci avem o corespondență inversă între valoarea reală și valoarea prezisă (de exemplu ieșirea reală tinde să crească in timp ce ieșirea prezisă tinde să scadă).
2.5 Arborii de decizie ca metodă de învățare supervizată
Cap. 3. Arhitectura aplicației
3.1 Prezentare per ansamblu
3.2 Descriere module
3.3 Scenariul de test
Cap. 4. Aplicația practică
4.1 Aplicație Desktop. Implementare
4.1.1 Tehnologii și metodologii software folosite
4.1.2 Serializarea modelelor de machine learning
4.1.3 Modulul de emulare a datelor de test
4.2 Algoritmul CART. Implementare pe microcontroller
4.2.1 Platforma de dezvoltare folosită
4.2.2 Analiza performanței algoritmului
Cap. 5. Concluzii
Bibliografie
Introducere
-statistici date
– nevoie procesare(timp real)
-introducere in-field analytics
In-Field Analytics
motivatia si obiectivelee proiectului
Machine learning(Cap 2)
Sursa wikipedia – machine learning
Cap. 2. Algoritmi de învățare supervizată (Arbori de decizie)
-introducere ml
-invatare supervizata / nesupervizata
-supervizata: regresie si clasificarea
2.1. Descriere
Un arbore de decizie este un model de machine learning ce utilizează partiționarea recursivă a datelor, atribuind fiecărei partiții un model de predicție simplu.
Modelul rezultat poate fi reprezentat grafic sub formă de arbore(de aici și denumirea de arbore). Există două tipuri de mecanisme predictive folosite în cadrul arborilor de decizie: clasificarea și regresia.
Arborii de decizie clasificatori sunt construiți pe baza unor date de intrare categorice și finite ca număr, eroarea de predicție fiind rezultatul clasificării eronate.
Arborii de decizie ce folosesc ca mecanism de predicție regresia sunt construiți pe baza unor date de intrare continue sau discrete, eroarea de predicție fiind rezultatul erorii pătratice dintre valoarea observată și valoarea prezisă. [1]
2.2. Antrenare
2.3. Predicție
Cap. 3. Arhitectura aplicației
3.1. Prezentare per ansamblu
3.2. Descriere module(contributie personala)
3.3. Scenariu de test
Cap. 4. Tehnologii utilizate (ori imbin 3 cu 4 ori 4 merge inaintea 3-ului)
TODO(cap 4 – aplicatie practica imbin (3 cu 4))
Cap. 5. Concluzii
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Machine Learning (ID: 117584)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
