Machine Learning

Cap. 1. Introducere

Introducere

In-Field Analytics

Scopul și motivația proiectului

Cap. 2. Machine Learning

2.1 Introducere

Machine learning este un subdomeniu al științelor informatice care a evoluat din studiul recunoașterii de tipare în inteligența artificială. În 1959, Arthur Samuel a definit conceptul de machine learning ca fiind “un domeniu de studiu care oferă computerelor capacitatea de a învăța fără ca acestea să fie explicit programate pentru acest lucru.”

Acest domeniu studiază algoritmi care pot învăța și pot face predicții asupra datelor. Acești algoritmi operează asupra unor modele construite pe baza unor date folosite ca date de învățare sau antrenare, pentru a genera genera decizii sau predicții.

Datorită capacității de extragere a informației din datele furnizate ca și intrare, acest domeniu are o aplicație foarte mare și foarte vastă, atât în mediul academic, cât și în mediul comercial.

Ca și exemple de aplicații ce folosesc la bază algoritmi de machine learning putem include filtrarea de e-mailuri de tip spam, motoare de căutare, bioinformatică și imagistică medicală, aplicații de securitate(recunoaștere facială, recunoaștere retină), analiza textului, controlul predictiv al proceselor etc.

Din punct de vedere al metodologiilor și algoritmilor de învățare, metodele de machine learning se împart în două mari categorii:

Învățare nesupervizată;

Învățare supervizată. [3]

(adaugă și partea de preprocesare a datelor)

(adaugă și clasificare / regresie)

2.2 Noțiunea de învățare nesupervizată

Învățarea nesupervizată se referă la faptul că un model sau un algoritm de machine learning acumulează experiență numai pe baza relațiilor dintre valorile de intrare. În acest caz, predicția sau decizia va fi influențată de frecvența vectorilor de intrare, adică, un vector de intrare cu o frecvență mare în setul de date de antrenare va cauza o predicție mai precisă ai unor vectori din datele de test asemănători cu vectorul de intrare, și invers,. Acest mecanism este folosit atunci când nu avem detalii despre datele de intrare (de exemplu, gruparea elementelor pe clase, sau clustering). [4]

2.3 Noțiunea de învățare supervizată

Spre deosebire de învățarea nesupervizată, învățarea supervizată folosește nu numai valorile de intrare și relațiile dintre ele, ci și o ieșire dorită, astfel predicția oferită de model este mai flexibilă și mai tolerantă la zgomot. [4]

2.4 Regresia ca metodă de învățare supervizată

Inventatorul regresiei a fost vărul lui Charles Darwin, Francis Galton. Galton a făcut prima regresie în 1877 pentru a estima dimensiunea boabelor de mazăre pe baza dimensiunilor boabelor de mazăre părinte. Galton a folosit regresia pentru a estima inclusiv înălțimea oamenilor. El a observat că dacă părinții au înălțimea peste medie, atunci și copii acestora tind să aibe înălțimea peste medie, dar nu așa de mult ca părinții lor, înălțimea copiilor convergând către o valoare medie. Acest comportament a fost observat în multe dintre lucrurile studiate, de unde și numele de regresie.

Pentru a efectua predicția folosind regresia, trebuie să aflăm mai întâi ecuația regresiei. Aceasta este de forma:

unde reprezintă valorile de intrare în model, iar reprezintă ponderile valorilor.

De remarcat faptul că în acest capitol ma voi referi strict la regresia liniară.

Putem observa că predicția este defapt o sumă ponderată a intrărilor, unde ponderile sunt deduse din relațiile dintre intrări și ieșirea reală (pentru că regresia liniară se folosește de conceptul de învățare supervizată, amintit în capitolul precedent).

Să presupunem că datele noastre de intrare sunt sub forma unei matrici notate cu X, iar ponderile regresiei se află într-un vector notat cu w. Pentru o intrare din matricea X, valoarea prezisă y va fi:

Deoarece nu știm ce valori au ponderile, le vom afla minimizând eroarea. Definim eroarea ca fiind diferența dintre valoarea reală și valoarea prezisă. Nu vom folosi ecuația erorii deoarece aceasta nu funcționează corect atunci când avem atât valori pozitive cât și valori negative, în schimb vom folosi eroarea pătratică:

Eroarea pătratică scrisă sub formă matriceală este:

Derivând expresia (2.3) obținem:

Egalând expresia (2.4) cu 0 ne rezultă următoarea ecuație:

Simbolul ne spune faptul că aceasta este cea mai bună soluție cu care putem veni pentru la momentul actual. Valoarea lui se bazează pe datele pe care le avem și se poate întâmpla ca această valoare să nu descrie perfect datele, această valoare fiind cel mai bun estimat pentru datele actuale.

De asemenea de luat în calcul este faptul că ecuația (2.5) folosește inversa matricii , dacă inversa lui nu există, ecuația nu va funcționa. (pag 154-156)

Figura 2.1 (Regresie liniară, sursa: https://wikipedia.org)

În figura 2.1 se poate observa un model de regresie liniară aplicat unor date de intrare (linia roșie urmărește trendul crescător al datelor). În acest caz, putem observa că datele de intrare au o formă pseudo-liniară.

De menționat faptul că acest model de machine learning va funcționa corect numai pentru date de intrare ce au o formă liniară, iar corelația dintre valoarea reală și valoarea prezisă ar trebui să fie pozitivă deoarece dacă corelația este zero atunci nu avem nici o corespondență între ieșirea reală și ieșirea prezisă, iar dacă corelația este negativă atunci avem o corespondență inversă între valoarea reală și valoarea prezisă (de exemplu ieșirea reală tinde să crească in timp ce ieșirea prezisă tinde să scadă).

2.5 Arborii de decizie ca metodă de învățare supervizată

Cap. 3. Arhitectura aplicației

3.1 Prezentare per ansamblu

3.2 Descriere module

3.3 Scenariul de test

Cap. 4. Aplicația practică

4.1 Aplicație Desktop. Implementare

4.1.1 Tehnologii și metodologii software folosite

4.1.2 Serializarea modelelor de machine learning

4.1.3 Modulul de emulare a datelor de test

4.2 Algoritmul CART. Implementare pe microcontroller

4.2.1 Platforma de dezvoltare folosită

4.2.2 Analiza performanței algoritmului

Cap. 5. Concluzii

Bibliografie

Introducere

-statistici date

– nevoie procesare(timp real)

-introducere in-field analytics

In-Field Analytics

motivatia si obiectivelee proiectului

Machine learning(Cap 2)

Sursa wikipedia – machine learning

Cap. 2. Algoritmi de învățare supervizată (Arbori de decizie)

-introducere ml

-invatare supervizata / nesupervizata

-supervizata: regresie si clasificarea

2.1. Descriere

Un arbore de decizie este un model de machine learning ce utilizează partiționarea recursivă a datelor, atribuind fiecărei partiții un model de predicție simplu.

Modelul rezultat poate fi reprezentat grafic sub formă de arbore(de aici și denumirea de arbore). Există două tipuri de mecanisme predictive folosite în cadrul arborilor de decizie: clasificarea și regresia.

Arborii de decizie clasificatori sunt construiți pe baza unor date de intrare categorice și finite ca număr, eroarea de predicție fiind rezultatul clasificării eronate.

Arborii de decizie ce folosesc ca mecanism de predicție regresia sunt construiți pe baza unor date de intrare continue sau discrete, eroarea de predicție fiind rezultatul erorii pătratice dintre valoarea observată și valoarea prezisă. [1]

2.2. Antrenare

2.3. Predicție

Cap. 3. Arhitectura aplicației

3.1. Prezentare per ansamblu

3.2. Descriere module(contributie personala)

3.3. Scenariu de test

Cap. 4. Tehnologii utilizate (ori imbin 3 cu 4 ori 4 merge inaintea 3-ului)

TODO(cap 4 – aplicatie practica imbin (3 cu 4))

Cap. 5. Concluzii

Similar Posts

  • Combaterea Fraudei Si a Evaziunii Fiscale

    Cuprins CAPITOLUL 1. CONSIDERAȚII PRIVIND POLITICA FISCALĂ ȘI VAMALĂ A UNIUNII EUROPENE 1.1. Politica fiscală a UE În funcție de obiectivele politice, economice și sociale din țară, politica fiscală evoluează și se perfecționează continuu sub imboldul dezvoltării economice, ea nefiind stabilită o dată pentru totdeauna, ci se adaptează corespunzător necesităților ivite într-o anumită etapă. În…

  • Cercetarea Managementului Bancar

    Teoriile promotorilor fundamentali ai cercetarii managementului bancar servesc drept fundament al cercetarii gândirii manageriale si în alte domenii ale economiei. Dezvoltarea gândirii manageriale, mai ales în ultimul secol, vine în întâmpinarea necesitatilor de utilizare a diverselor metode practice si eficiente de conducere a institutiilor de credit. Initial teoriile managementului institutiilor bancare si de credit dezvoltau…

  • Descrierea Activitătilor Desfăsurate în Cadrul Programului Formativ

    Descrierea activităților desfășurate în cadrul programului formativ Care este scorul? Scopul activității: Unul din criteriile principale de evaluare a rezultatelor il reprezintă asocierea corectă a expresiilor specifice limbajului natural (comun) cu expresiile din limbajul matematic. Pentru înbunătățirea performanțelor elevilor în ceea ce privește însușiirea terminologiei matematice am desfășurat o activitate sub formă de Joc didactic….

  • Analiza Diagnostic a Sistemului Motivationaldocx

    === Analiza diagnostic a sistemului motivational === CUPRINS CAPITOLUL I ABORDĂRI TEORETICE PRIVIND MANAGEMENTUL RECOMPENSELOR ÎN MEDIUL MILITAR………………………… 1.1 .Introducere în managementul recompenselor din structurile militare…………………………………………………………………. 1.2.Specificități ale culturii organizaționale în mediul militar 1.2.1.Introducere în managementul culturii organizaționale 1.2.2. Caracateristicile unei culturi organizaționale ………… 1.2.3.Diagnosticarea culturii organizaționale ………………. 1.3. Concepțiile de baza ale conducerii unităților……………

  • Contabilitatea Cheltuielelor Operationale

    Cuprins Introducere Capitolu I: Noțiuni generale privind cheltuielile din activitatea operațională 1.1 Caracteristica, clasificarea și recunoașterea cheltuielilor operaționale 1.2 Contabilizarea cheltuielilor din activitatea operațională 1.3 Modul de reflectarea a cheltuielilor în situațiile financiare   Capitolul II: Analiza veniturilor și cheltuielilor din activitatea operațională 2.1 Analiza veniturilor din activitaea operațională 2.2 Analiza cheltuielilor din activitatea operațională…

  • Elaborarea Strategiei la Sc Ionda Com Srl

    === 734f8200a56870ba9de7a6d17abda7f7a0f491ad_670239_1 === Introducere În condițiile actuale, de intensificare continuă a concurneței implementarea unei strategii este necesară pentru orice companie care doreṣte să prospere ṣi să câṣtige pe piață. Prin urmare, este esențial să se realizeze un diagnostic înainte de stabilirea ṣi punerea acesteia în aplicare. Efectuând acest diagnostic firma poate evalua punctele tari pe…