Business Intelligence cu Ajutorul Sistemului Weka
CUPRINS
INTRODUCERE.
CAPITOLUL 1
BUSINESS INTELLIGENCE
1.1. Concepte si definitii
1.2. Natura inteligenței
1.3. Viitorul sistemelor de business intelligence
CAPITOLUL 2
WEKA
2.1 Prezentarea sistemului WEKA
2.2 Istoria proiectului weka
2.3 Formatarea datelor de intrare si salvarea in format arff folosind WEKA
2.3.1 Preprocesarea datelor de intrare WEKA
2.3.2 Selectarea si filtrarea atributelor WEKA
CONCLUZII
BIBLIOGRAFIE
INTRODUCERE
Business Intelligence la prima vedere este o gamă largă de aplicații sau tehnologii proiectate pentru stocarea, colectarea, analizarea și prelucrarea informațiilor. Aceste aplicații, de asemenea, furnizează acces la date pentru profesioniști și ajuta să ia decizii de afaceri mai bune. Este capacitatea de a analiza in profunzime afacerlei pentru a furniza informații reale și semnificative pentru utilizatori. Software-ul permite utilizatorilor să acceseze și să revizuiască cantități mari de date complexe. Aceasta include capacitatea de a acționa în mod eficient prin exploatarea de informații și resurse umane. În mediul de business intelligence, de asemenea, este nevoie de a analiza în mod eficient și să prezinte informații corecte, care le permite să ia măsurile potrivite, sau de a lua deciziile corecte.
Business Intelligence pune accent pe elementul uman și necesitatea de a nu furniza orice fel de informații, dar informațiile de care vor beneficia sunt de calitate buna pentru luarea deciziilor potrivite activitatii pe care o desfasoara compania. Economia de astăzi se luptă cu concurența de control si este important sa se ia decizii de afaceri solide, bazate pe date complete.
Cu Business propriu implementarea inteligente, companiile pot lua decizii și se simt confortabil că acestea sunt prevăzute cu instrumentele și datele necesare pentru a crede în deciziile lor proprii. Fără soluția corectă de Business Intelligence ,afacerile chiar si cele bine planificate și executate pot eșua.Din păcate, software-ul și aplicațiile de Business Intelligence nu sunt ușor accesibile, prin urmare, acestea sunt cele mai frecvent utilizate în marile corporații, mai degrabă decât de afaceri mici.
Cu toate acestea, există companii noi în creștere, care furnizeaza aplicatii de Business Intelligence pentru organizațiile de dimensiuni medii pentru o anumită ceea ce accesibil comision.
Unele dintre beneficiile de a avea un sistem de Business Intelligence include posibilitatea de a accesa datele într-un format comun din mai multe surse, o modalitate de a măsura obiectivele, pentru a urmări comportamentul clienților, în scopul de a îmbunătăți serviciile și relații.
Acest software poate ajuta, de asemenea, pentru a urmări vânzările de produse specifice și distribuitorii pentru a îmbunătăți oferta și de producție, precum și urmări tendințele externe pentru a îmbunătăți procesele, tendințele pieței, de a îmbunătăți competitivitatea unei organizații.
Deși cererea pentru instrumente de Business Intelligence este în creștere într-un ritm rapid există încă mici critici de pe piata programele deoarece sunt de complexe și dificil de utilizat. Nu au o interfata prietenoasa si necesita specialitate in domeniu pentru o buna organizare si cercetare a acestor sisteme.
CAPITOLUL I
BUSINESS INTELLIGENCE
1.1Concepte si definitii
Termenul de „Business Intelligence” există de foarte mult timp, doar că la noi e mai puțin utilizat din cauza lipsei de înțelegere și înterpretare adecvată. Acesta este caracteristic mai mult țărilor occidentale.
În limba română cuvântul inteligență reprezintă abilitatea de gândire a omului. La prima vedere se pare a fi o bună traducere pentru „Business Intelligence” – analiza intelectulă a datelor, dar imediat se pune întrebarea există o analiză neintelectuală a datelor?
Business Intelligence ca metodă, tehnologie, mijloc de extracție și de reprezentare a cunoștințelor. În conformitate cu definițiile originale, „Business Intelligence” – se referă la sisteme informatice de identificare, extragere și analizare a datelor disponibile într-o companie, sisteme al căror scop este de a oferi un suport real pentru luarea de decizii antreprenoriale. Trebuie remarcat faptul că cele mai multe definiții tratează «business intelligence» ca un proces, tehnologie, metode și instrumente de extragere și de reprezentare a cunoștințelor.
Dezvoltarea aplicațiilor software oferă utilizatorilor posibilitatea de a efectua un astfel de proces pentru a răspunde la problemele de afaceri.
Dicționarele evită traducerea directă a cuvântului business intelligence, deoarece mai mult este vorba despre instrumentele de Business Intelligence (business intelligence tools). Software-ul Business Intelligence Tools – permite utilizatorilor de afaceri de a vedea și de a folosi cantități mari de date complexe, bazate pe cunoaștere (data-based knowledge), care pot fi obținute din date folosind instrumente de business intelligence și procesul de creare și menținere unui depozit de date (data warehousing) ».
BI – cunoaștințe antreprenoriale
O altă parte a definiției nu ia în considerare „Business Intelligence” ca un proces, ci ca un rezultat al procesului de extragere de cunoștințe și însăși cunoștințele de afacere pentru luarea deciziilor.
Astfel, o inteligență antreprenorială (business intelligence), în sensul larg al cuvântului definește:
-Procesul de transformare a datelor în informații și cunoștințe pentru a sprijini îmbunătățirea procesului decizional și informal;
-Tehnologia informației (metode și instrumente), colectarea de date, consolidarea de informații;
-Cunoștințe antreprenoriale, obținute ca urmare a unei analize detaliate a datelor și a informațiilor consolidate.
Locul de amplasare și caracteristicile „Business Intelligence”
La baza tehnologiei BI stă organizarea accesului utilizatorilor finali. BI creează un proces iterativ de utilizatori antreprenori, inclusiv accesul la date și analiza lor, formarea concluziilor, găsirea relațiilor pentru a schimba compania într-un mod cât mai eficient. BI are în cadrul companiei o gamă largă de utilizatori, inclusiv manageri și analiști.
Business intelligence și Knowledge Management Unii tind să interpreteze foarte larg BI, incluzând în acest concept și tehnologiile de gestionare a cunoștințelor de management (KM), care însă are mai mult de a face cu analiza de date nestructurate sau semistructurate (de exemplu: HTML), care nu este supusă analizei de instrumente BI. KM oferă o clasificare inteligentă și o procesare semantică a textelor, precum și o căutare avansată de informații. Tehnologia BI este legată de analiza structurată pe fapte (baze de date, fișiere plate și alte ODBC (Open Database Connectivity) sau OLE DB-surse de date). Corporațiile IBM și Microsoft realizează strategii de integrare software pentru business intelligence și instrumente de gestionare a cunoștințelor, ele și-au propus să creeze o nouă generație de software care se va ocupa atât de date structurate cât și nestructurate.
Termenul de business intelligence a fost introdus de către Gartner Group la mijlocul anilor ‘90s. Ca și concept însă, business intelligence a existat cu mult timp înainte, încă din anii ’70 [Zaman, 2005], folosit în sistemele de raportare cu ajutorul mainframe-urilor. La acea vreme, sistemele de raportare erau statice, bidimensionale, fără a avea capacități analitice. Cererea de sisteme multidimensionale dinamice, care să sprijine procesele decizionale inteligente și cu abilități predictive, a determinat dezvoltarea sistemelor de tip business intelligence. Aceste sisteme devin din ce în ce mai complexe, fiind capabile de analiză multidimensională a datelor, dispunând de capacități de analiză statistică și predictivă pentru a servi mult mai bine sistemelor de asistare a deciziilor.
Nevoia de sisteme de tip business intelligence poate fi cu mare ușurință explicată: pentru a supraviețui pe piață în actualele condiții concurențiale, o companie trebuie să încerce să dezvolte o strategie de succes; pentru a dezvolta o strategie de succes, e nevoie decapacitatea de a anticipa condițiile viitoare; înțelegerea trecutului este modul cel mai bun de a fi în stare a prezice viitorul. Business intelligence face acest lucru.
1.2 Natura inteligenței
În timp ce există o largă plajă de definiții date inteligenței, poate că cea mai reprezentativă este cea oferită de U.S. Central Intelligence Agency (CIA) [Waltz, 2003]:„redus la cei mai simpli termeni, inteligența este cunoștința și modul în care (pre-) simțim lumea din jurul nostru – preludiul deciziilor și acțiunilor politicienilor[…]”.Aceste componente clasice ale inteligenței furnizează înțelegere și determină leaderii în a lua deciziile care furnizează securitate pentru afaceri sau pentru state.
„Inteligența” presupune cunoașterea informațiilor despre competiție, informații precum profitabilitatea sau venitul acestora [Raisinghani, 2004]. Beneficiul suprem al inteligenței este reprezentat de cunoașterea clientului și a potențialului client. Această cunoștință ajută la îmbunătățirea serviciilor acordate clienților și la o mai bună orientare a afacerii pe nevoile acestor clienți. Procesul obținerii informației inteligente este descris mai jos [iptvreports], cu mențiunea că acest ciclu începe cu nevoia de cunoaștere a decidentului (consumatorul informației) și se termină cu livrarea respectivei cunoștințe. Nevoia poate fi o cerință stabilă, o solicitare specială sau o necesitate urgentă în situația unei crize.
Planificare, stabilire cerințe și direcționare: definirea de către decident, la un nivel înalt de abstractizare, a cunoștințelor necesare pentru a lua decizii. Cerințele sunt traduse în termeni de informații solicitate, apoi în date care trebuie să fie colectate.
Colectare: sursele tehnice și umane sunt adresate pentru a se colecta datele brute
cerute. Surse pot fi disponibile în mod deschis sau închis, fiind accesate prin diverse metode. Aceste surse și metode sunt cele mai fragile și protejate elemente ale procesului. Surse de inteligență pot fi: human intelligence (HUMINT), imagery intelligence (IMINT), signals intelligence (SIGINT), electromagnetic signals monitoring (ELINT), open source intelligence (OSINT), și multe altele.
Analiză și procesare: datele colectate sunt procesate (ex. traduceri din alte limbi, decriptări), indexate și organizate. Progresul în atingerea cerințelor planului de colectare este monitorizat, iar modul de abordare poate fi rafinat pe baza datelor primite.
Producția: baza de informații este procesată folosindu-se tehnici de estimare sau inferențiale care combină datele surselor în încercarea de a da răspuns la întrebarea solicitatorului. Datele sunt analizate (descompuse pe componente și studiate) și soluțiile sunt sintetizate (construite plecând de la evidențele acumulate). Topicele subiectelor de studiu sunt modelate și se pot face noi cerințe pentru colectări și procesări adiționale.
Diseminarea. În cele din urmă, informația inteligentă este diseminată către consumatori în formate diverse, plecând de la imagini dinamice ale sistemelor militare de război și până la rapoarte formale către politicieni. Se pot distinge trei categorii de rapoarte de inteligență tactică și strategică formale: current intelligence reports sunt rapoarte tip știri, care descriu evenimente recente sau indicatori și avertismente; basic intelligence reports furnizează descrieri complete ale unei situații specifice (ex. ordinea de luptă sau situații politice) și intelligence estimates, rapoarte care încearcă să prevadă posibile situații viitoare ca rezultat a stării și constrângerilor curente.Produsele inteligenței sunt diseminate către utilizator,furnizând răspunsuri la interogări și estimări ale acurateței produsului livrat.
Facem o observație: chiar dacă procesul este prezentat sub forma unui ciclu, în realitate procesul operează ca acțiuni continue, cu multe feedback-uri (reacții inverse) și feedfoi intelligence estimates, rapoarte care încearcă să prevadă posibile situații viitoare ca rezultat a stării și constrângerilor curente.Produsele inteligenței sunt diseminate către utilizator,furnizând răspunsuri la interogări și estimări ale acurateței produsului livrat.
Facem o observație: chiar dacă procesul este prezentat sub forma unui ciclu, în realitate procesul operează ca acțiuni continue, cu multe feedback-uri (reacții inverse) și feedforward (reacții în avans) care solicită colaborare între consumatori, colectori și analiști.
Natura inteligenței poate fi analizată la mai multe niveluri: inteligență națională (atenția este orientată pe înțelegerea mediului global), inteligență militară (atenția este pe înțelegerea amenințărilor militare străine), inteligența competitivă (este o subdiviziune a business intelligence care are în vedere activitățile curente și viitoare ale concurenței) și, desigur, business intelligence.
Business intelligence este un concept vag și poate reprezenta folosirea de software de mare clasă pentru aplicațiile de afacere [Bernstein]. Într-o altă opinie, business intelligence reprezintă colecția de tehnologii dintre cele mai noi care ajută sistemele de a deveni mult mai „inteligente”. Conform IBM [Almeida, 1999] business intelligence înseamnă folosirea valorilor de tip date pentru a lua decizii mai bune. Este vorba despre acces, analiză și descoperirea de noi oportunități. Conform Asociației Române de Inteligență Economică, business intelligence este ansamblul acțiunilor de cercetare, colectare, tratare și difuzare a informației utile agenților economici, în scopul de a obține avantaje concurențiale, prin exploatarea ei în manieră defensivă sau/și ofensivă.
Lucrarea „Business Intelligence Roadmap” [Moss, 2003], prezintă business intelligence drept o arhitectură și o colecție de aplicații și baze de date operaționale integrate, precum și de sisteme de asistența a deciziilor, care furnizează comunității de afaceri un acces mai ușor la datele despre afacere. Aplicațiile BI de asistare a deciziilor facilitează multe activități, incluzând și analiză multidimesională (ex. OLAP), data mining, capacitatea de previziune, analiza afacerii, facilități de interogare, raportare și realizare a graficelor, analiză geospațială, managementul cunoștințelor etc.
Business intelligence este un proces iterativ: se pornește de la mediul operațional; datele sunt extrase din acest mediu și depozitate în depozite de date (acest depozit de date se prezintă sub forma unui container central de date, separat de datele operaționale); decidentul folosește sistemele de asistare a deciziilor pentru a extrage datele din depozitul de date; deținând aceste informații, un decident poate să creeze planuri de acțiune; această schimbare la nivelul informațiilor operaționale duce la o nouă iterație a ciclului business intelligence. Acest ciclu este prezentat în fig. 2 [Giovinazzo, 2002].
Nu intrăm însă în aspectele tehnice ale sistemului de business intelligence. O abordare mult mai „soft” este necesară pentru a putea înțelege natura multivalentă a acestui concept.
Aminteam la începutul acestei lucrări de natura inteligenței și de ciclul producerii informațiilor inteligente, subliniind faptul că acumularea de astfel de informații reprezintă esența avantajului competițional. Însă acumularea de informații presupune, printre altele, supraveghere. Supravegherea, conform profesorului Silași [Silași, 2000], se materializează în patru tipuri: supraveghere tehnologică (cu atenție pe realizările științifice și tehnice), supravegherea competiției (cu atenție pe competiția prezentă și viitoare), supraveghere comercială (cu atenție pe client, piață, furnizori), supravegherea mediului (cu atenție pe restul mediului companiei)
Acest aspect însă duce la generarea unei noi întrebări: există legătura între business intelligence și spionajul industrial, și dacă da, care este această legătură?
Benjamin și Tamar Gilad [Gilad] consideră că business intelligence nu are legătură cu spionajul industrial. Spionajul industrial este o cale ilegală de a obține avantaj temporar asupra competiției. Conform „Le Petit Larousse”, spionajul industrial reprezintă culegerea de informații din mediul industrial, în special a acelor informații referitoare la metodele de fabricare. Pe când business intelligence reprezintă o activitate organizațională legală, o monitorizare a activității din mediul exterior organizației, cu scopul de a culege informații relevante pentru procesul decizional. Conform „Wikipedia – The free encyclopedia” [wikipedia], spionajul industrial este spionajul derulat cu scop comercial și nu cu scopuri ce privește securitatea națională. Acest tip de spionaj poate fi desfășurat atât de organizații guvernamentale, cât și de organisme private. La nivelul cel mai inofensiv termenul este aplicat metodelor legale de examinare a publicațiilor corporațiilor, a site-urilor web, a patentelor cu scopul de a determina activitățile unei corporații (la acest nivel această activitate încă este considerată o activitate de business intelligence). Culegerea de informații poate însă depăși aceste limite, ajungând până la oferirea de mită, șantaj, supraveghere tehnologică și chiar violență. Asemănări există …
O simplă diferență între aceste două concepte: business intelligence presupune culegerea de informații publice (date publicate) și informații semipublice (date adunate de pe teren, de la clienți, parteneri, furnizori etc.); spionajul industrial presupune folosirea tehnicilor ilegale și imorale pentru a culege informații, de genul secretelor comerciale, care nu sunt oferite în mod benevol de către sursă [Gilad]. Spionajul este ilegal. Pe de altă parte însă, business intelligence reprezintă procesul de colectare a informațiilor folosind o cale legală și etică, transformând informațiile culese, prin intermediul unei analize atente, în cunoștințe de mare valoare. În business intelligence informația este colectată prin adresarea întrebărilor corespunzătoare surselor corespunzătoare, și nicidecum prin forțarea persoanelor. Viața de zi cu zi ne pune însă în fața unor dificultăți, unde e greu a face o distincție între business intelligence și spionajul industrial (ex. cazul Echelon și pactul UKUSA).
1.3 Viitorul sistemelor de business intelligence
Un alt aspect deosebit de important referitor la business intelligence este cel referitor la performanțele acestor sisteme într-un context al creșterii utilizării lor. Se pare că viitorul va pune aceste sisteme în fața imposibilității de a oferi avantajele promise. De ce? Din ce în ce mai multe companii încep să folosească sistemele de business intelligence. Iar aceste sisteme devin din ce în ce mai performante. În astfel de condiții, o companie nu va putea niciodată să dețină un avantaj competițional executând aceleași activități pe care și alte companii le execută. Iar în al doilea rând, business intelligence este exclusiv concentrat pe oferirea de înțelegere asupra datelor; business intelligence nu oferă instrumentele necesare pentru implementările de schimbări operaționale.
Legendarul investitor, Warren Buffet afirma: „nu se câștigă prin prezicerea ploii. Se câștigă prin construirea unei ambarcațiuni.” [Hyperion] Și rândurile următoare vin cu explicația: „în timp ce business intelligence poate furniza înțelegerea condițiilor atmosferice, BPM (n.a. business performance management) este cel care în cele din urmă va împuternici companiile să dețină un avantaj prin construirea unei ambarcațiuni – construirea mult mai rapidă a acestora, cu o mai mare eficiență din punct de vedere al costurilor și proiectate mult mai adecvat pentru a face față furtunii.”
Conform unui studiu recent [sap.info], soluția pentru aceste limitări ale business intelligence, stă în modelul de afacere „Corporate Performance Management (CPM)”, un model care combină business intelligence cu business performance management. Acest nou model de afacere permite companiilor să-și alinieze scopurile și procesele de afacere cu activitățile zilnice de derulare a afacerii. Doar câteva din beneficiile acestui nou model de afacere [technology]: un răspuns mult mai rapid la condițiile și oportunitățile schimbătoare de pe piață, o puternică orientare către client, eficiență operațională sporită, o aliniere mai bună a bugetului, strategiilor de afacere și planificare, profit sporit de pe urma investițiilor în tehnologii informaționale. În afară de corporate performance management, o altă tendință în business intelligence este analitica previzională [Zaman, 2005] – folosită la determinarea rezultatelor viitoare posibile ale unui eveniment sau a probabilității de apariție a unei anumite situații. Analitica previzională este folosită la analiza automatizată a unei cantități imense de date cu diferite variabile; această tehnică include arbori decizionali, analiza coșului de piață, rețele neuronale, algoritmii genetici, text mining etc.
CAPITOLUL II
WEKA
2.1 Prezentarea sistemului WEKA
Weka este o colectie de algoritmi de invatare pentru data mining. Algoritmii pot fi aplicati fie direct pe un set de date sau folositi chiar din codul Java. Weka contine instrumente pentru pre- procesarea datelor, clasificare, regresie, reguli de asociere si pentru vizualizare. De asemenea, este potrivit pentru dezvoltarea de noi scheme de invatare.
Weka este utilizat in cercetare, educatie si in cadrul aplicatiilor. Aplicatia insumeaza un set vast de instrumente de preprocesare a datelor, algoritmi de invatare si metode de evaluare, interfete grafice utilizator (incluzand vizualizarea datelor) si un mediu pentru compararea algoritmilor de invatare.
Weka este un software open source, sub licenta generala publica GNU.
"WEKA" provine de la Mediul Waikato pentru Analiza Cunostiintelor (Waikato Environment for Knowledge Analysis), si a fost dezvoltat la Universitatea Waikato din Noua Zeelanda. WEKA este extensibil si a devenit o colectie de algoritmi pentru invatare in scopul rezolvarii problemelor de data mining din lumea reala. A fost implementat in limbajul Java si ruleaza aproape pe orice platforma.
WEKA este usor de folosit si usor de aplicat pe mai multe nivele diferite. Libraria WEKA poate fi accesata de propriul program Java, si poate implementa noi algoritmi pentru invatare.
Exista trei scheme majore implementate in WEKA. (1) Scheme implementate pentru clasificare. (2) Scheme implementate pentru previziunea numerica. (3) Meta-scheme implementate.
In afara schemelor actuale de invatare, WEKA contine, de asemenea, o varietate mare de instrumente care pot fi folosite pentru preprocesarea seturilor de date, astfel incat este posibila concentrarea pe propriul algoritm fara a se tine cont de detalii precum citirea datelor din fisier, implementarea algoritmilor de filtrare si oferirea de code sursa pentru evaluarea rezultatelor.
Mai mult de doisprezece ani s-au scurs de la prima publicrelease de WEKA. În acest timp, software-ul a fost re-scris în întregime de la zero, a evoluat substanțial și nowaccompanies un text pe minerit de date [35]. Aceste zile, WEKAenjoys acceptare pe scară largă atât în mediul academic și afacerilor, are o comunitate activă, și a fost downloadat de mai mult de 1,4 milioane de ori.
Interfața cu utilizatorul WEKA Explorer.
Proiectul WEKA își propune să ofere o colectre completă de algoritmi de învățare mașină și instrumente de preprocesare a datelor pentru cercetatori si practicieni deopotrivă. Aceasta permite utilizatorilor să încerce rapid și compara diferite metode de învățare mașină pe seturi de date noi. Modular sale, arhitectura extensibila-turii permite procese sofisticate de exploatare a datelor care urmează să fie construit din colecția largă de algoritmi de învățare de bază și instrumente oferite.Extinderea setului de instrumente este foarte ușor datorită unui API simplu, mecanisme și facilități care automatizează integrarea de noi algoritmi de învățare, cu interfețe grafice WEKA lui plugin.
Bancul de lucru include algoritmi de regresie, clasificare, grupare, de regulă asociere minerit și atribuie se-telor. Explorare preliminară a datelor sunt bine îngrijiți de facilități de vizualizare a datelor și mai multe instrumente de preprocesare. Acestea, atunci când sunt combinate cu evaluarea statistică a sistemelor de învățare și de vizualizare a rezultatelor învățării, suporta modele de procese de data mining, cum ar fi CRISP-DM [27].
2.1 Interfețe utilizator
WEKA are mai multe interfețe grafice care permit un acces ușor la funcționalitatea de bază. Principalul interfața grafică este 'Explorer'. Ea are o în-terface, unde panouri diferite corespund la diferite sarcini de exploatare a datelor bazate pe panou. În primul panou, numit 'Preprocess' panou, datele pot fi încărcate și transformate folosind instrumente de preprocesare a datelor WEKA, numite 'filtre'.
Acest panou este prezentată în Figura 1. Datele pot fi încărcate din diverse surse, inclusiv fișierele, URL-uri și baze de date. Formate de fișiere acceptate includ format WEKA propria ARFF, CSV, format LibSVM lui, și format C4.5 lui. Este de asemenea posibil de a genera date utilizând o sursă de date artificială și edita date manual folosind un editor de set de date.Al doilea panou din Explorer oferă acces la clasificare și de regresie algoritmi WEKA lui. Panoul corespunzător se numește 'Clasificare', deoarece tehnicile de regresie sunt considerate ca predictori de 'clase continue'. În mod implicit, panoul ruleaza un cross-validare pentru a selectat învățare al-gorithm asupra setului de date care a fost fost pregătită în panoul Preprocess pentru a estima performanța de predicție.Acesta arată, de asemenea, o reprezentare textuală a modelului construit de la setul de date completă. Cu toate acestea, alte moduri de evaluare, de exemplu, bazat pe un set de test separat, sunt de asemenea suportate. Dacă este cazul, panoul oferă, de asemenea, acces la reprezentări grafice de modele, de exemplu, arbori de decizie. Mai mult decât atât, se poate vizualiza erori de predicție în parcele risipi, și permite, de asemenea, evaluarea prin curbele ROC și alte 'curbe de prag'. Modelele pot fi salvate și încărcate în acest panou.Împreună cu algoritmi supravegheate, WEKA sprijină, de asemenea AP-complicație de algoritmi nesupravegheate, și anume gruparea Al-gorithms și metodele de regulă asociere minerit. Acestea sunt accesibile în Explorer prin, respectiv, al treilea și al patrulea panou. 'Cluster' panoul permite utilizatorilor să ruleze un algoritm de clustering pe datele încărcate în panoul Preprocess.Acesta oferă statistici simple, de evaluare a performanței bazate pe probabilitatea de performanță cluster-ING pentru statistic-CAL algoritmi de clustering și față de 'adevărat' de membru de grup în cazul în care acest lucru este specificat în unul din atributele în datele. Dacă este cazul, vizualizarea clustering struc-turii este de asemenea posibil, și modele pot fi stocate persistent dacă este necesar.Suport WEKA pentru sarcini de grupare nu este la fel de extinsă ca și sprijinul pentru clasificare si regresie, dar are mai multe tehnici de clustering decât pentru minerit regulă de asociere, care are până la acest moment a fost oarecum neglijate. Nev-ertheless, aceasta nu conține o punere în aplicare a mai cunoscut algoritm în acest domeniu, precum și alte câteva cele. Aceste metode pot fi accesate prin intermediul panoului de 'asociat' în Explorer.Poate una dintre cea mai importantă sarcină în minerit practic de date este sarcina de a identifica care atribuie în datele sunt cele mai predictive. În acest scop, WEKA lui Explorer are un panou dedicat pentru selectarea atribut, 'atribute Se-lect', care oferă acces la o mare varietate de algoritmi și criteriile de evaluare pentru a identifica cele mai im-portant atribute într-un set de date. Datorită faptului că este posibil să se combine mai multe metode de căutare cu diferite criterii de evaluare, este posibil să se configureze o gamă largă de tehnici posibile candidate. Robustețea setul atribut selectat poate fi validată printr-o abordare bazată pe cross-validare. Rețineți că panoul de selectare atribut este destinat în primul rând pentru analiza datelor de explorare. WEKA lui 'FilteredClassifier' (accesibil prin intermediul panoului de Clasificare), ar trebui să fie folosite pentru a aplica tehnici de selecție de atribute în legătură cu o clasificare ne-derlying sau algoritm de regresie pentru a evita in-troducerea părtinire optimist în îndeplinirea estimează ob-menținut. Acest avertisment este valabil și pentru o parte din preprocesa-ing-unelte, mai precis, cei care-supravegheate sunt disponibile de la panoul Preprocess.În multe aplicații practice, vizualizare a datelor oferă perspective importante. Acestea pot face chiar posibil pentru a evita o analiză mai aprofundată, folosind masina de învățare și de date min-ING algoritmi. Dar, chiar dacă acest lucru nu este cazul, acestea pot informa procesul de selectare a unui algoritm adecvat pentru problema de la mână.Ultimul panou din Explorer, numit 'Vizualizeazà', oferă un cod de culori scatter complot ma-Trix, împreună cu opțiunea de foraj în jos, prin selectarea parcele în individ cât în această matrice și selectarea porțiuni ale datelor pentru a vizualiza. De asemenea, este posibil să se obțină informații referitoare datapoints individuale, și pentru a perturba aleatoriu date printr-o cantitate aleasă pentru a descoperi date obscure.Explorer este proiectat pentru prelucrarea de date de date de formare pe bază de lot este încărcat în memorie în toate elementele sale și apoi prelucrate. Acest lucru nu pot fi potrivite pentru problemele care implică seturi de date de mari dimensiuni. Cu toate acestea, WEKA are implementari ale unor algoritmi care permit incremental clădire de model, care poate fi aplicat în mod elementare dintr-o interfață linie de comandă.Natura progresivă a acestor algoritmi este ignorată în Explorer, dar pot fi exploatate folosind un plus mai recent de set WEKA de interfețe grafice, și anume așa-numita 'Flow Cunoaștere', se arată în figura 2. Cele mai multe sarcini care pot fi abordate cu Explorer poate fi, de asemenea, manipulate de fluxul de cunoștințe.Cu toate acestea, în plus față de formare pe bază de lot, model de fluxul de date permit actualizări elementare mental, cu noduri de procesare, care poate încărca și cazuri individuale preprocess înainte de hrănirea lor în ap-gistrarea algoritmi de învățare elementare. Acesta prevede, de asemenea noduri pentru vizualizare și evaluare. Odată ce un set-up de noduri de procesare în-terconnected a fost configurat, acesta poate fi salvat pentru mai târziu re-utilizare.Cea de a treia principal interfata grafica in WEKA este 'experimentator' (a se vedea figura 3). Această interfață este conceput pentru a facilita compararea experimentală a predictive pe performanță a algoritmilor bazate pe mai multe criterii diferite eval o efectuați, care sunt disponibile în WEKA. Experimentele se pot implica mai multe algoritmi care sunt rulate pe mai multe seturi de date; de exemplu, folosirea repetată validare încrucișată. Ex-experimente pot fi, de asemenea, distribuite în diferite noduri de calcul într-o rețea de a reduce sarcina de calcul pentru noduri în individ cât. Odată ce un experiment a fost creat, acesta poate fi salvat fie în XML sau binar, astfel încât să poată fi re-vizitat, dacă este necesar. Experimente configurate și salvate pot fi, de asemenea, a alerga de la linia de comandă.
Comparativ cu alte interfețe WEKA, a experi-Menter este, probabil, utilizate mai frecvent de data mining practicieni. Cu toate acestea, odată ce experimentare preliminar a fost efectuat în Explorer, este adesea mult mai ușor să se identifice un algoritm adecvat pentru un anumit set de date, sau, colectarea de seturi de date, folosind această interfață alternativă.Ne-ar dori să încheie această scurtă expunere a principalelor interfețe grafice WEKA prin subliniind că, din ce în mai puțin interfață cu utilizatorul este de dorit, este important de a oferi mașina virtuală Java, care este folosit pentru a rula WEKA cu o cantitate suficientă de morman spațiu.Necesitatea de a pre-specifica cantitatea de memorie necesară, care ar trebui să fie mai mic decât cantitatea de memorie fizică a ma-semișaua care este folosit, pentru a evita schimbarea, este, probabil, cel mai mare piatră de poticnire pentru aplicarea cu succes a WEKA în practică .Pe de altă parte, având în vedere timpul de funcționare, nu mai există un dezavantaj semnificativ, comparativ cu programe scrise în C, un argument frecvent auzit-împotriva Java pentru sarcini de procesare de date intensive, din cauza complexității de just-in-time compilatoare în moderne masini virtuale Java.
2.2 ISTORIA PROIECTULUI WEKA
Proiectul WEKA a fost finantat de catre Noua Zeelanda guver-nul din 1993 până de curând. Cererea de finanțare inițial a fost depusă la sfârșitul anului 1992 și a afirmat obiectivele proiectului ca:
“'Programul are drept scop de a construi o facilitate de stat-of-the-art pentru dezvoltarea de tehnici de învățare mașină și investigarea aplicarea lor în domenii cheie ale economiei Noii Zeelande. În mod specific, vom crea un banc de lucru pentru masina de învățare, determina factorii care contribuie la aplicarea sa cu succes în industria agricolă, și de a dezvolta noi metode de învățare mașină și modalități de evaluare a acestora EF-fectiveness. “
Primii ani ai proiectului axat pe dezvoltarea a interfeței și a infrastructurii de bancul de lucru. Cele mai multe dintre punerea în aplicare a fost făcut în C, cu unele rutine de evaluare scrise în Prolog, și interfața cu utilizatorul produs
Figura 4 Pe atunci WEKA utilizatorului 2.1 banc de lucru inter-față.
folosind TCL / TK. În acest timp, acronimul WEKA1 a fost inventat și formatul Atribut Relația de fișier (ARFF) utilizat de sistemul a fost creat.
Prima lansare a fost WEKA interne și a avut loc în 1994. Software-ul a fost foarte mult în stadiu beta. Prima lansare publică (de la versiunea 2.1) a fost făcută în octombrie 1996. Figura 4 prezinta interfața cu utilizatorul principal pentru WEKA 2.1. În iulie 1997, WEKA 2.2 a fost lansat.Acesta a inclus opt învățare algoritmi (implementari de care au fost furnizate de către autorii lor originale), care au fost integrate în WEKA ambalaje ne-ing, bazate pe script-uri shell și date instrumente de pre-procesare a scris în C. WEKA 2.2 purtat, de asemenea, o facilitate, bazate pe Unix Makefiles, pentru configurarea și rularea de experimente pe scară largă pe baza acestor algoritmi.Acesta a inclus opt învățare Algoritmi (implementari de îngrijire au Fost furnizate de Catre autorii Lor originale), de îngrijire au Fost se integra în WEKA Ambalaje ne-ing, bazate pe script-uri shell data si Instrumente de pre-Procesare a Scris în C. WEKA 2.2 purtat, de asemenea, o facilita, bazate PE Unix Makefiles, a scris configurarea si rularea de experimente pe scara Largă pe Baza acestor Algoritmi.Aceasta a fost o decizie oarecum radical, dat fiind că Java a fost mai puțin de doi ani, la momentul respectiv. În plus, performanța de rulare a Java face o alegere discutabilă pentru mașină de calcul intensiv-plementing im de învățare al-gorithms făcut. Cu toate acestea, sa decis ca avantaje, cum ar fi 'Write Once, Run Anywhere', și ambalare și distribuție simplu compensat aceste neajunsuri și va Facil-itate mai largă acceptare a software-ului. Mai 1998 a văzut lansarea finală de la sistemul TCL / TK-based (WEKA 2.3) și, la mijlocul anului 1999, de 100% Java WEKA 3.0 a fost lansat. Această versiune non-grafice a WEKA însoțit prima ediție a cărții data mining de Witten și Frank [34]. În noiembrie 2003, o versiune sta ble de WEKA (3.4) a fost lansat în anticiparea de la publicarea celei de a doua ediție a cărții [35]. În timp între 3,0 și 3,4, au fost dezvoltate cele trei principale interfețe grafice de utilizator.În 2005, echipa de dezvoltare WEKA primit SIGKDD Data Mining și Discovery Service Award [22].
Figura 5 Capabilitățile și informații tehnice meta-date.
De atribuire a recunoscut longevitatea și adoptarea pe scară largă a WEKA. În 2006, Pentaho Corporation a devenit un sponsor major al software-ului și a adoptat-o pentru a forma componenta de data mining și analiză predictivă de suita lor de business intelligence.Pentaho este acum un activ Nou venit la baza de cod, iar primul autor este în prezent șef de întreținere-in-a software-ului. Ca din acest scris, WEKA 3.6 (lansat în de-cembrie 2008) este cea mai recentă versiune a WEKA, care, având în vedere schema de numerotare versiune chiar, ciudat, este considerat a fi o versiune caracteristică stabil.
CARACTERISTICI NOI DIN WEKA 3.4
Multe caracteristici noi au fost adăugate la WEKA din ver-Sion 3,4-nu numai sub forma unor noi algoritmi de învățare, dar, de asemenea, filtre de pre-procesare, imbunatatiri de uzabilitate și suport pentru standarde. Așa cum a scris, de 3,4 linie de cod com-întreprinderi 690 Java fișierele de clasă, cu un total de 271,447 de linii de cod 2; linia de 3.6 cod cuprinde 1081 de fișiere de clasă, cu un total de 509,903 de linii de cod. În această secțiune, vom discuta despre unele dintre noile caracteristici cele mai importante în WEKA 3.6.
Cea mai mare schimbare de clase de bază WEKA este adăugarea de atribute-de relații evaluate în scopul de a sprijini în mod direct problemele multi-instanță de învățare [6]. Un atribut-relație evaluate permite fiecare dintre valorile sale de referință un alt set de situații (de obicei, definirea unui 'sac' în setarea multi-instanță). Alte adaosuri la formatul de date WEKA includ un format XML pentru fișierele ARFF și suport pentru specificarea exemplu greutăți în fișiere ARFF standard.
Un alt plus față de bază de WEKA este 'Capacități' facilitatea de meta-date. Acest cadru permite individuale de algoritmi și filtre de învățare pentru a declara ceea ce caracteristi-ticuri de date sunt în măsură să se ocupe. Acest lucru, la rândul său, permite interfețe WEKA de a prezenta aceste informații și să ofere feed-back la utilizatorul cu privire la aplicabilitatea unui sistem de datele de la mână.În mod similar, clasele 'TechnicalInformation' permite regimurilor de a furniza detalii citare pentru al-gorithm pe care le pune în aplicare. Din nou, această informație este formatată și expus în mod automat prin interfața cu utilizatorul.
Figura 5 prezintă informații și capabilități pentru clasificatorul LogitBoost tehnic.
4.2 Scheme de învățare
Mulți algoritmi de învățare noi au fost adăugate din WEKA 3.4 și unele deja existente au fost îmbunătățite.
Un exem-plu de a doua categorie este bazată pe învățare exemplu, în cazul în care există acum suport pentru funcțiile de la distanță conectabile și noi structuri de date, cum ar fi copacii cu bile și copaci, pentru KD accelera de cautare pentru cel mai apropiat vecini.
Unii dintre noii algoritmi de clasificare în WEKA 3.6 in-clude
Regresie logistică Bayesian [13] metoda BLR de clasificare de text, cu antecedente atât Gaussian și Laplace.
Arbore de decizie cel mai bun, în primul rând [28] construiește un arbore de decizie, folosind un best-prima strategie de căutare.
Decizia de masă naiv Bayes hibrid [15] un elev hibrid, care combina tabele de decizie și naiv Bayes.
În plus față de aceste algoritmi, un pachet întreg de multi-instanță algoritmi a fost adăugat la WEKA din ver-Sion 3.4, cele mai multe dintre care au fost distribuite pentru prima dată în pachetul LAPTE separat de multi-instanță de învățare [37].
WEKA 3.6 are, de asemenea, noi algoritmi de 'meta', care poate fi înfășurat în jurul valorii de algoritmi de învățare de bază de a extinde aplicarea-litatea sau de a îmbunătăți performanța
4.4 Interfețe utilizator
În afară de expunerea sus-menționat a capacităților și informații tehnice de date meta, nu a fost mai mult de re-finement și îmbunătățire a GUI în WEKA incepand cu versiunea 3.4. Punct-a început grafică GUI Chooser-WEKA a suferit un redesign și acum oferă acces la diverse interfețe de susținere utilizator, informații despre sistem și informații de logare, precum și principalele aplicații în WEKA. Figura 6 prezinta restructurat GUI Chooser.Parcele risipi, curbe ROC, copaci și grafice pot fi ac-procesate de intrări în meniul 'Vizualizare'. Meniul 'Tools' oferă două GUI noi de sprijin
Vizualizator SQL permite introdus de utilizator SQL pentru a fi rulat pe o bază de date, iar rezultatele previzualizate. Acest utilizator inter-față este, de asemenea, utilizat în Explorer pentru a extrage date dintr-o bază de date, atunci când este apăsat butonul 'Open DB'.
Editor rețea Bayes oferă o grafică de Mediu pentru construirea, editarea și vizualizarea clasificatoare rețea Bayesian.
Figurile 7 și 8 arată privitorului SQL și editor rețea Bayes respectiv.
Adesea este util să se evalueze un algoritm pe date sintetice. Așa cum am menționat mai devreme în această lucrare, utilizatorul Explorer în-terface are acum o facilitate pentru a genera seturi de date artificiale
Figura 9 Explorer cu un tab 'Experiment', a adăugat de la un plugin.
folosind instrumente generator de date WEKA lui. Date artificial costum-capabil pentru clasificare pot fi generate din listele de decizie, rețele funcționale radial-bază și rețele bayesiene, precum și domeniul clasic LED24. Datele de regresie artificiale pot fi obținute în conformitate cu expresii matematice. Există, de asemenea, mai multe generatoare pentru producerea de date artificiale în scopuri de clustering.
Interfața Flow Cunoaștere a fost de asemenea îmbunătățit, acum include un nou domeniu de stare, care pot oferi feedback cu privire la funcționarea mai multor componente în data mining pro-proces simultan. Alte îmbunătățiri ale fluxului de cunoștințe includ suport pentru minerit regulă asociere, suport îmbunătățit pentru vizualizarea mai multe curbe ROC și un mecanism de plugin.
Extensibilitate
Au fost adăugate o serie de mecanisme de plugin pentru WEKA incepand cu versiunea 3.4.
Acestea permit WEKA să fie extins în diverse moduri, fără a modifica clasele care alcătuiesc distribuția WEKA.
Noi file din Explorer sunt ușor adăugate prin scrierea unei clase care se extinde javax.swing.JPanel și implementează weka.gui.explorer.Explorer.ExplorerPanel in-terface.
Figura 10 O rețea funcție de bază PMML radial încărcate în Explorer.
Ure 9 prezinta Explorer cu un tab nou, furnizat de un PLU-gin, pentru a rula experimente simple. Noi vizualizări mecanisme similare Al-mici pentru erori clasificator, predictii, copaci și grafice pentru a fi adăugate în meniul pop-up disponibile în lista de istoric 'Clasificare' panoul Explorer. Fluxul cunoștințe are un mecanism de plugin care permite noi componente pentru a fi incluse prin simpla adăugare de fișier lor jar (și toate fișierele necesare jar justificative) la. KnowledgeFlow /plugins în directorul home al utilizatorului. Aceste fișiere jar sunt încărcate în mod automat atunci când fluxul de cunoștințe este pornit și plugin-uri sunt puse la dispoziție de la o filă 'Plugins'.
2.3 Formatarea datelor de intrare si salvarea in
format arff folosind WEKA
Aspecte teoretice
Descrierea formatului ARFF
Formatul arff – Attribute-Relation File Format a fost dezvoltat in cadrul proiectului Machine Learning de catre departamentul Computer Science al Universitatii Waikato pentru a fi utilizat de catre aplicatia Weka.
O descriere scurta a formatului arff este:
Un set de date trebuie să înceapă cu declarația numelui:
@relation name
Acesta este urmat de o listă cu toate atributele de date (inclusiv predictat atribut). Aceste declarații au forma:
@attribute attribute_name specification
* Dacă un atribut este nominal, specificatia poate conține o listă de valori posibile cuprinse intre acolade:
@attribute nominal_attribute {first_value, second_value, third_value}
* Dacă un atribut este numeric, specificatia specifica numarul intreg corespunzator: (valori intregi sunt tratate ca numere reale în cadrului aplicatiei WEKA.)
@attribute numeric_attribute numeric
* În plus față de aceste două tipuri de atribute există un tip atribut string. Acest atribut oferă posibilitatea de a stoca un comentariu sau ID-ul pentru fiecare instanta din cadrul setului de date:
@attribute string_attribute string
După atributul declarații, datele sunt introduse prin eticheta:
@ data
Aceasta este urmata de o listă care cuprinde toate instanțele. Instantele sunt separate prin virgulă, eventual contin un semn de întrebare, reprezentând o valoare lipsă.
Comentariile sunt linii incepand cu%
2.3.1 Preprocesarea datelor de intrare WEKA
WEKA are capacitatea de a citi fisiere in format ".csv" – exemplu bank-data.csv. Avand in vedere ca multe aplicatii pot exporta datele în fișiere ce respecta acest format, rezulta ca WEKA poate fi folosit in cadrul unei succesiuni de prelucrari si procesari de date. Așa cum se poate vedea, primul rând conține numele de atribut (separate prin virgule), urmate de rânduri de date cu valorile atributelor enumerate în aceeași ordine (de asemenea, separate prin virgule). De fapt, o dată încărcate în WEKA, setul de date poate fi salvat în format ARFF. Pentru a converti un fisier din format ".csv" in format ARFF nativ WEKA se poate utiliza următoarea comandă:
java weka.core.converters.CSVLoader filename.csv > filename.arff
In exemplu de mai jos se va incarca un set de date în WEKA, se vor efectua o serie de operații utilizându-se optiunile WEKA, apoi se vor folosi reguli de asociere pe baza carora se vor obtine datele stabilite. Pentru aceasta se va folosi interfață grafica pentru WEKA Explorer.
La primul pas (în tab-ul Preprocess), se va alege optiunea "Open file…" și se va naviga spre directorul care conține fișierul de date ( in format .csv sau .arff). În acest caz se va deschide fișierul de date de mai sus bank-data.csv :
Folosind optiunea „Save…” se pot salva datele de intrare in format arff.
Odată ce datele sunt încărcate, WEKA va recunoaste atributele și pe masura ce datele sunt scanate se vor determina anumite statistici pentru fiecare atribut. Panoul stanga al figurii de mai jos prezinta lista de atribute recunoscute, în timp ce partea de sus este indicat numele relatiei de bază.
Daca se face click pe orice atribut in panoul din stanga se vor afisa statisticile de bază referitoare la atributul curent. Pentru atributele de tip categorie, frecvența pentru fiecare atribut valoare va fi afișată, în timp ce pentru atribute de tip continuu se pot observa valoarea minima, maxima, media, deviația standard.
2.3.2 Selectarea si filtrarea atributelor WEKA
In fisierul folosit ca exemplu, fiecare înregistrare este identificata in mod unic prin intermediul atributului id. Pentru o realizare o procesare de tip data mining trebuie eliminat acest atribut. Pentru a realiza acest lucru se vor utiliza de filtrele de atribute oferite de catre WEKA. În panelul "Filter", se face clic pe butonul "Choose". Acesta actiune va permite afișarea unei ferestre cu listă de filtre disponibile si alegerea filtrului "weka.filters.unsupervised.attribute.Remove”:
Urmatorul pas este reprezentat de alegerea casetei text din dreapta butonului "Choose". În caseta de dialog care rezultă se introduce indexul atributului ce se doreste a fi filtrat (se poate specifica un interval sau o listă de indecsi separati prin virgule). În acest caz, se introduce 1, care este indicele atributului "id"; optiunea "invertSelection" trebuie setată la fals (altfel totul cu excepția atributului cu indexul specificat va fi filtrat).
Se face click pe "Apply" pentru a aplica acest filtru asupra datelor. Acest lucru va elimina atributul "id" și creaza un nou raport de lucru (al cărui nume acum cuprinde detalii cu privire la filtru, care a fost aplicat).
Putem salva aceste date intermediare intr-un fisier arff accesand butonul „Save…”. WEKA determina in mod automat tipul atributelor in functie de valorile corespunzatoare. Mai jos se poate vedea continutul fisierului arff generat:
Discretizarea datelor de intrare
Unele tehnici, cum ar fi regulile de asociere, pot fi aplicate numai pe anumite categorii de date. Aceasta presupune efectuarea discretizarii pe atribute numerice sau pe atribute de tip continuu. Exista 3 astfel de atribute în cadrul setului curent de date: "age" și "children". Pentru atributul "children" gama de valori posibile este alcatuita numai din valorile 0, 1, 2 și 3. În acest caz, s-a optat pentru menținerea acestor valori, în cadrul datelor. Acest lucru înseamnă că pur și simplu discretizarea consta in eliminarea cuvântului cheie "numeric" care desemneaza tipul pentru atributul "children" în fișierul arff, și înlocuirea acestuia cu un set de valori discrete de valori. Acest lucru se poate face direct cu ajutorul unui editor text si se salveaza fisierul astfel modificat într-un fișier separat "banca-data2.arff".
Se va alege un nou filtru de data aceasta de tip discretizare "weka.filters.unsupervised. attribute.Discretize”. Urmatorul pas este reprezentat de alegerea casetei text din dreapta butonului "Choose". În caseta de dialog care rezultă se introduce indexul atributului ce se doreste a fi discretizat (se poate specifica un interval sau o listă de indecsi separati prin virgule). În acest caz, se introduce indexul 1, corespunzător atributului "age". De asemenea, intră 3 ca număr de bins (rețineți că este posibil să se discretize mai mult de un atribut, în același timp folosind o listă de indecsi). Din moment ce vom face simplu binning, toate celelalte opțiuni disponibile vor fi setate la "false".
Se face click pe "Apply" pentru a aplica acest filtru asupra datelor si se salveaza datele intr-un nou fisier arff.
Continutul fisierului arff rezultat, care poate fi considerat ca fisier arff finale, este:
CONCLUZII
Managerii văd în solutiile de tip Business întregesc sistemul IT si le este oferit un plus de eficientă în conducerea afacerii. Astfel, companiile mari urmăresc să-i implementeze strategii de business orientate către client, alegându-i o solutie care să le dea un avantaj competitiv si o valoare adăugată afacerii. Acelasi lucru si-l doresc si firmele mici si mijlocii, singura problemă e că au capacităti tehnice limitate sau infrastructura informatică nu este cea corespunzătoare, ori pur si simplu au alte priorităi în desfăsurarea activitătii.
În modul acesta, se poate face următoarea comparatie, în cazul firmelor mici se pot folosi instrumente de raportare precum Excel-ul din pachetul Office, dar totui pentru IMM-uri ar fi necesară o soluie de tip BI.
Trebuie să amintim că nici costurile unei astfel detehnologii nu sunt deloc mici, pornind de la câteva mii de dolari. Iar cum piaa românească este formată preponderent din firme mici, acestea nu-i permit să adopte o astfel de solutie in activitatea lor.
În cele din urmă, simplificarea și colectarea de date din surse multiple într-o organizație permite utilizatorilor să se bazeze pe memorie informațional pentru a ajuta la procesul de luare a deciziilor și de rezolvare a problemelor de strategii pentru a înțelege mai bine clienții și de comportamentul pe piață.
Analiza datelor este o parte foarte mare de Business Intelligence. Programele de Business Intelligence sunt concepute pentru a colecta în trecut, precum și datele actuale ale unei organizații, fie că este vorba financiare, date de productivitate, datele clienților, date de trend, sau de orice altă societate de date legate de date care trebuie să fie modificate pentru a fi clar și ușor de urmat. Următorul pas este de a analiza cu atenție datele care au fost colectate. Unele companii prefera sa foloseasca diagrame si grafice altele pot utiliza tabele. Indiferent de mijloacele în care este analizat datele se face într-un mod precis și detaliat orientat.
Sistemele moderne de Business Intelligence sunt concepute pentru a analiza și trans analiza volume mari de date nestructurate. Acest lucru poate varia de la valori de producție la cifrele de uzură client. Aceste sisteme oferă vederi istorice, actuale, și predictive de operațiuni de afaceri. Instrumentele de analiză a datelor casa sisteme care pot fi aplicate la aproape orice zonă a unei organizații, și să prezinte datele într-un mod clar, concis.
Există mai multe instrumente diferite utilizate pentru a analiza și de a organiza datele colectate de către sistemele de Business Intelligence. În funcție de companie are nevoie de furnizori de Business Intelligence de proiectare a sistemelor de a beneficia de această societate și satisface nevoile companiei care le lui. Unele dintre instrumentele incluse într-un sistem de Business Intelligence sunt; Monitorizarea Activitatea de afaceri, Analiza competitivă, finanțe și bugetare, analiza tendințelor, și analize multidimensionale.
Marile companii au nevoie pentru a colecta cantități masive de date pentru procesarea și analiza, în scopul de a lua decizii cu privire la prezenta organizației lor și nevoile viitoare. Pentru a face acest lucru fără ajutorul unui sistem de Business Intelligence ar fi nu numai o sarcină aproape imposibil, dar una care ar putea fi foarte consumatoare de timp. Când ia în considerare importanța de timp, relevanță, și meticulozitate aceste organizații ar beneficia cel mai mult de sisteme de Business Intelligence care oferă instrumente de analiză a datelor. Proiectele de business intelligence sunt concepute pentru a permite organizațiilor să ia decizii strategice pe termen lung mai bune, cu toate acestea ceea ce este prezentat in teorie nu se regaseste si practica.
BIBLIOGRAFIE
Business Intelligence (2nd Edition), Efraim Turban, Ramesh Sharda, Dursun Delen and David King, ISBN-10: 013610066X | ISBN-13: 978-0136100669, Prentice Hall, 2010
Business Analytics for Managers: Taking Business Intelligence Beyond Reporting (Wiley and SAS Business Series), Gert H. N. Laursen, Jesper Thorlund , Wiley, 2010, ISBN-10: 0470890614 ISBN-13: 978-0470890615
Successful Business Intelligence: Secrets to Making BI a Killer App, Cindi Howson, McGraw-Hill Osborne Media, 2007, ISBN-10: 0071498516, ISBN-13: 978-0071498517
www.wikipedia.ro
www.regielive.ro
BIBLIOGRAFIE
Business Intelligence (2nd Edition), Efraim Turban, Ramesh Sharda, Dursun Delen and David King, ISBN-10: 013610066X | ISBN-13: 978-0136100669, Prentice Hall, 2010
Business Analytics for Managers: Taking Business Intelligence Beyond Reporting (Wiley and SAS Business Series), Gert H. N. Laursen, Jesper Thorlund , Wiley, 2010, ISBN-10: 0470890614 ISBN-13: 978-0470890615
Successful Business Intelligence: Secrets to Making BI a Killer App, Cindi Howson, McGraw-Hill Osborne Media, 2007, ISBN-10: 0071498516, ISBN-13: 978-0071498517
www.wikipedia.ro
www.regielive.ro
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Business Intelligence cu Ajutorul Sistemului Weka (ID: 137114)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
