ACADEMIA DE STUDII ECONOMICE BUCUREȘTI FACULTATEA DE CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ SPECIALIZAREA CIBERNETICĂ ECONOMICĂ LUCRARE DE… [631637]
ACADEMIA DE STUDII ECONOMICE BUCUREȘTI
FACULTATEA DE CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ
SPECIALIZAREA CIBERNETICĂ ECONOMICĂ
LUCRARE DE LICENȚĂ
Coordonator Științific, Absolvent: [anonimizat]. univ. dr. Crișan Albu Irimia Tudor Ștefan
Conf. univ. dr. Aldea Anamaria
ACADEMIA DE STUDII ECONOMICE BUCUREȘTI
FACULTATEA DE CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ
SPECIALIZAREA CIBERNETICĂ ECONOMICĂ
Evoluția comportamentului consumatorului din
perioada crăciunului: studiu de caz folosind mediul r .
Coordonator Științific, Absolvent: [anonimizat]. univ. dr. Crișan Albu Irimia Tudor Ștefan
Conf. univ. dr. Aldea Anamaria
Cuprins
Introducere………………………………………………………………………………………. …………………………. 4
Capitolul 1. Trăsături comport amentale în perioada Crăciunul ui, efectul sezonier in
practică și elemente ale seriilor de timp ………………………………………………………………………….5
1.1 Stadiul actual al cercetării………………………………………. ………………………………………………….5
1.2 Elemente teoretice ale seriilor de timp și tehnicile folosite în analiză…… ………………………..10
Capitolul 2. Analiza și previziunea vânzărilor din SUA ……………………………………………….. 15
2.1 Descrierea datelor și analiza preliminară ……………………………………………………………………. 15
2.2 Modelare și previziune eliminând efectul sezonier ……………………………………………………….23
2.3. Modelare și previziune incluzând efectul sezonier …………………………………………………….. 32
Concluzii…………………………………………………… ……………………………………………………………….37
Bibliografie………………………………………………………………………………………………….. …………….39
4
Introducere
Ce reprezintă Crăciunul în secolul XXI al zilelor noastre? În ce mod este afectată una dintre
cele mai populare sărbători de pe planetă de tendința consumeristă din societatea contemporană?
Cum reflectă acest fapt comportamentul consumatorului de rând de -a lungul timpului și în ce
măsură? Care este mentalitatea colectivă în apropierea sărbătorii și ce se întâmplă per total în
societate?
Motivul principal pentru care am abordat această temă este lipsa unei înglobări a informațiilor
atât dintr -o perspectivă teoretică/psihologică/comportamentală a consumatorului individual, cât și
efectele economice ce rezultă din comportamentul său. Consider că tema aleasă are o importanță
unică și originală, întrucât face referire la o tradiție ce s -a păstrat de s ute de ani și în continuare își
lasă amprenta în viețile noastre. Această lucrare poate servi cititorului de rând care dorește să afle
informații noi sau să confirme/infirme anumite teorii previzibile despre cum acționează o persoană
obișnuită și deci soci etatea în perioada Crăciunului. Pe de altă parte, acest studiu va avea o utilitate
și pentru un cititor mai avansat în domeniul economic care dorește să observe, pe lângă rezultatele
finale, tehnicile și metodele cantitative folosite pe anumite seturi de d ate relevante subiectului.
Deși unele concluzii vor fi relevante pentru mai multe țări ce sărbătoresc Crăciunul, acest studiu se
va baza preponderent pe situația din Statele Unite ale Americii, întrucât majoritatea cercetărilor
anterioare și accesul la o m ultitudine de seturi de date vizează această națiune.
Lucrarea va fi structurată în două capitole. Cel dintâi vizează diverse selecții din literatura de
specialitate ce vor contura un comportament general al consumat orului din perioada Crăciunului și
scena rii în care s -au folosit modelele cantitative pe care se bazează această lucrare. De ase menea
se vor explica de ce tehnicile și metodele alese vor fi folositoare în analiza cantitativă din a doua
parte. În general, esența acestei lucrări este de a ilustra atât tendințe comportamentale generale cât
și de a studia într -o manieră cantitativă impact ul economic în această perioadă, folosind seriile de
timp.
5 Capitolul 1 . Trăsături comportamentale în perioada Crăciunului, efectul sezonier in
practica și elemente ale seriilor de timp
1.1.Stadiul actual al cercetării
În domeniul nostru de referință, cercetările nu au făcut referire exclusiv la sărbătoarea
Crăciunului, ci la natura comportamentului consumatorului în diferite scenarii generale (de ex:
perioada s ărbătorilor). Astfel că s -a construit o „frescă” a intențiilor și tendințel or omului de rând
când se află în această perioadă a anului.
Crăciunul este o sărbătoare de origine creștină care încurajează comportamentul filantropic, în
special donațiile carita bile, dar îi face asta pe oameni mai altruiști? (Mathias Ekstrom, 2018). E
destul de greu pentru a răspunde la această întrebare, deoarece sunt câțiva factori mai proeminenți
în luna decembrie: scutiri mai mari de taxe prin donații caritabile, dogma reci procității și
campanii de strângeri de fonduri mult mai ample. Acesta a făcut un studiu cu 50 de milioane de
observații de -a lungul a 9 ani în care a eliminat acești factori și a ajuns la următoarele concluzii:
luna decembrie este caracterizată de o crește re cu 14% a probabilității de a se face o donație,
exemplificându -se astfel noțiunea de altruism sezonier; jumătate din „creșterea generozității”
continuă în ianuarie, revenind la nivelul obișnuit în luna februarie.
În Danemarca, s -a studiat nivelul de co lesterol și riscul apariției hipercolesterolemiei înainte și
după sărbătoarea Crăciunului (Signe Vedel -Krogh, Camilla J. Kobylecki, B ørge G. Nordestgaard,
Anne Langsted, 2019). Studiul s -a realizat pe 25764 de indivizi cu vârste cuprinse între 20 și 100
de ani. Instrumentele de măsură au fost nivelele medii de colesterol și colesterol LDL,
hipercolesterolemia fiind definită ca total colesterol > 193mg/dL sau LDL -colesterol > 116
mg/dL. Rezultatele au fost că nivelele medii de colesterol ale unei persoane a u crescut în luna
decembrie si ianuarie față de lunile de vară. Indivizii examinați în decembrie -ianuarie au avut
nivelul de colesterol cu 15% mai mult decât cei examinați în mai-iunie (p < 0.001). Un rezultat
concludent este că dintre indivizii examinați în prima săptămână a lunii ianuarie, imediat după
sărbătorile de Crăciun, 77% au avut nivele ale colesterolului LDL de peste 116 mg/dL și 89% au
avut colesterolul total peste 193 mg/dL. Concluzia studiului a fost că riscul previzibil de
îmbolnăvire datorită excesului grăsimilor de după Crăciun este justificat și că analizele pentru
hipercolesterolemie nu ar trebui efectuate în preajma acestei sărbători.
6 În ciuda climatului pozitiv reprez entativ pentru această sărbătoare, nu putem ignora
statisticile „negre”, ci din contră, trebuie sa fim perfect conștienți de ele: probabilitatea de
omucidere este mai mare în perioada Crăciunului (Bridges, 2004). În restul anului, rata de
omucidere este de 27 de morți zilnice per 100.000 de locuitori în Statele Unite ale Americii,
crescând la 31 ,7 în perioada sărbătorii, mai exact cu 17 ,4% mai mare. Studiul lui Bridges este în
concordanță cu cercetările anterioare ale lui Lesteris (1979) și Cheatwoods (1988 ) pe aceeași
temă. Mai mult de atât, situația capătă o gravitate adițională deoarece numărul de decese din
cauze naturale crește de asemenea. De mai mulți ani încoace, cercetătorii găsesc că numărul de
persoane ce mor din cauza bolilor cardiovasculare (și nu numai) ating un vârf în perioada
Crăciunului: „Am estimat o dreaptă de regresie polinomială (LOESS) bazată pe mortalitatea
zilnică pentru a estima numărul de decese așteptate în perioada sărbătorilor, folosind ipoteza nulă
că mortalitatea din cauze natu rale este neafectată de Crăciun/Anul Nou.” (Philips & Kloner,
2004). Apoi, s -a comparat numărul de decese așteptate având ipoteza nulă cu numărul de decese
observate. Atât pentru bolile cardiovasculare cât și pentru cele non -cardiovasculare apare o
creșter e în perioada sărbătorilor de Crăciun și de Anul Nou. Creșterea persistă chiar și după
ajustarea factorilor sezonieri și de trend și are în special valori mari pentru indivizii care sunt
decedați la sosirea în spital, în secția de urgențe sau ca pacienți e xterni. Pentru această grupă de
persoane în perioada sărbătorilor, șansele unui deces sunt cu 4 ,65% mai mari (boli
cardio -vasculare) și cu 4 ,99% mai mari (boli non -cardiovasculare) decât valorile așteptate dacă
sărbătorile nu ar avea un impact asupra morta lității.
De câteva decenii, economiștii dezbat dacă a oferi un cadou de Crăciun este o risipă de bani
(resurse) sau nu; o serie de studii empirice investighează această problemă. Ipoteza este simplă și
directă: „Dăruitul cadourilor este o risipă de resurse ” (Waldfogel, 1993). Acesta a făcut un studiu
și a întrebat diverse persoane dacă și -ar cumpăra individual cadourile primite, acestea fie negând,
fie afirmând că nu ar cheltui atât de mulți bani cât valorează cadoul respectiv. Cifrele estimează
că darurile fizice (non -valută) pierd între 10% si 33% din valoarea lor în comparație cu banii
(dacă darul ar fi fost direct în bani). În medie, studenții lui Waldfogel apreciază valoarea unui
cadou primit cu 13% mai puțin decât costul estimat. O altă descoperire, fa ptul că doar 11 ,5%
dintre cadouri sunt reprezentate în mod direct de bani fizici, sugerează că doar 88% dintre
cadouri își „pierd” din valoarea lor. De asemenea, cea mai mare proporție a cadourilor în bani
fizici aparține categoriilor de persoane care ar o feri un cadou cu cea mai mare posibilă pierdere
din valoare. Cu alte cuvinte, cei care oferă cadouri tind să realizeze că nu pot găsi cel mai bun
dar fizic, apelând astfel la o metoda mai practică, banii. Cadourile în bani sunt foarte întâlnite în
7 cadrul p ersoanelor în vârstă (bunicii), cu 43% din total, unde ponderea de pierdere din valoare
este cea mai mare, cu 37%. Un exemplu de bază ar fi când o bunică oferă nepotului său un
pulover de 100 de lei, acesta l -ar fi cumpărat personal doar dacă prețul de ach iziționare ar fi fost
de 63 de lei. La polul opus, se află darurile de la prieteni, unde cadourile în bani întâlnesc
minimul de 6%, cu ponderea de pierdere din valoarea minimă (<2%).
În încercarea de a defini un comportament al consumatorului în perioada C răciunului trebuie
luat în calcul si influențele pe care mass -media care le exercită asupra individului. Astfel, s -a
făcut un studiu pe români cu scopul de a „prezenta opiniile consumatorilor asupra campaniilor de
promovare din perioada iernii, având în ve dere faptul că România este o societate tradițională,
bazată pe un fundal religios solid. Caracteristici de piață specifice, simboluri ale Crăciunului și
relația dintre planul global și cel local (glocalizarea) au devenit mijloace relevante de a se adresa
românilor care sunt deopotrivă fascinați de Santa Claus și de tradițiile locale.” (Mădălina Moraru,
2013). Metoda de cercetare s -a bazat pe un chestionar aplicat unui număr de 700 de persoane,
majoritatea fiind alcătuită din studenți de 23 -28 de ani conect ați foarte bine la mass -media și cum
funcționează . Rezultatele au fost că, în primul rând, toată lumea apreciază varietatea tradițiilor de
Crăciun fără să neglijeze simbolurile și valorile globale. În unele cazuri, respondenții nu au putut
face diferența d intre aspectele internaționale și cele locale, fiind cam cel mai bun semn al
glocalizării. Așadar, s -a pus un accent sporit asupra conceptului de glocalizare în campaniile de
promovare, deoarece cei ce au luat parte la chestionar au putut separa două dimen siuni: tradițiile
și ramura religioasă indiferent de perceperea Crăciunului ca brand, împrumutându -se spiritul
sărbătorilor multor altor mărci cunoscute. Această sărbătoare nu constă doar în Coca -Cola și
“Santa Claus”; scopul ei a fost să creeze o cultură în adevăratul sens al cuvântului ce s -a
răspândit pe tot globul. Acest studiu arată un lucru care -i separă de consumatorii români de alții:
ei consideră că aspectul religios ar trebui promovat mai mult în reclame, exprimându -se nevoia
puternică de dezvolta re a influențelor locale. În concluzie, aspectele locale și globale sunt foarte
ușor de recunoscut în campaniile de promovare din România, iar opinia celor intervievați de a
se pune mai mult accent pe consumul domestic sugerează evidențierea aspectelor tr adiționale și
religioase, care în continuare sunt cea mai bună metodă de a face o marcă recunoscută pe plan
global.
Pe partea de analiză cantitativă a unor serii de timp afectate de sezonalitate s -au efectuat o
serie de studii ce au încorporat modelul SARIMA pentru a efectua previziuni. Un prim exemplu
este modelarea și previziunea precipitațiilor din Warri Town, Nigeria (Eni, Adeyeye, 2015).
Este cunoscut faptul că precipitațiile au implicații asupra inundațiilor, cu implicații ulterioare
8 asupra erozi unii solului, agriculturii, sistemului de canalizare și a turismului. Din aceste motive,
avertismentele timpurii asupra ploilor sunt importante în administrarea resurselor de apă.
Modelarea și previziunea precipitațiilor este complicată datorită naturii fo arte complexe a
proceselor atmosferice ce produc ploile. Orașul Warri este un important centru de prelucrare a
petrolului, localizat regiunea Deltei Nigeriei. Acesta prezintă două perioade distincte din punct
de vedere meteorologic: sezonul ploios, din mai până în octombrie, și sezonul uscat (secetos) ,
din noiembrie până în aprilie. Metoda de lucru a presupus obținerea unor date anterioare, din
perioada 2003 -2012 pentru a previziona cantitatea de precipitații pe anul 2013. Identificarea
celui mai bun model s-a realizat prin compararea mai multora candidate pe baza corelogramei,
unde se află graficele funcțiilor de aucorelație și de corelație parțială. Criteriul de comparație a
fost minimizarea criteriului informațional Akaike (AIC) și a criteriului informați onal Scwharz
(SIC). Pentru a se stabili dacă seria este staționară, s -a observat pe graficul funcției de
autocorelație și de autocorelație parțială tendința valorilor de a nu se anula. În acest stadiu al
studiului, nu s -a putut decide dacă există o influen ță sezonieră sau nu . S-au logaritmat datele și
s-a efectuat o diferențiere de ordinul întâi și pe noua corelogramă s -au observat maxime
recurente la fiecare al 12 -lea lag. După o diferențiere sezonieră la al 12 -lea lag, p rocesul
devenind staționar, s -a mer s mai la etapa de identificare vizuală a posibilelor modele și apoi
modelul optim a fost considerat cel cu valorile minime pentru AIC și SIC,
SARIMA(1,1,1)(0,1,1)[12]. Acesta s -a considerat adecvat pentru previziune, având în vedere
diferențele mici dintre valorile previzionate și cele observate: pnetru luna aprilie, de exemplu,
cantitatea de precipitații previzionată a fost de 193,07 mm iar cea observată a fost de 189,5
existând o eroare de 3,57.
S-a efectuat o altă cercetare în Africa de Sud în încercarea găsirii unui model optim
SARIMA pentru a previziona cazurile lunare de malarie în provincia KwaZulu -Natal (KZN)
(Ebhouma, Gebreslasie, Magubane, 2018). Unul din scopurile Africii de Sud este de a eradica
malaria până în anul 2020 și de a preveni reapariți a bolii în anii următori. Așadar, există o nevoie
persistentă de a se dezvolta modele solide de predicție care să vină în ajutorul serviciului public
de sănătate. Este o parte vitală a supravegherii bolii, permițând conducerii politice și a celor din
servi ciul public de sănătate să acționeze proactiv având o proiecție a aparițiilor viitoare ale bolii.
Modelul optim SARIMA a fost construit pe baza cazurilor lunare de malarie din ianuarie
2005 până în decembrie 2013 și s -a efectuat o previziune pentru anul 2014. A fost nevoie de
patru pași, în care la început s -au efectuat diferențierea de ordin 1 și diferențierea sezonieră de
ordin 1 pentru staționarizarea seriei de timp și apoi s -au identificat parametrii modelului prin
9 inspecția grafica a corelogramei. Apoi, s -a verificat semnificația coeficienților termenilor
auto-regresivi (AR) și de medie mobilă (MA), sezonieri sau nu, ai modelelor candidate. S -a ales
modelul optim prin minimizarea criteriului informațional Akaike (AIC) și a criteriului
informațional (SIC) apoi s -au efectuat o serie de teste pe reziduurile modelului: testul Ljung -Box
pentru corelarea reziduurilor și test ul Shapiro -Wilk pentru verificarea ipotezei de normalitate a
erorilor. La ultimul pas, s -a efectuat previziunea efectivă pe anul 2014 și s -a comparat cu valorile
observate.
Acest studiu are totuși o limitare importantă: s -a încercat găsirea unui singur mod el pentru
modelarea întregii suprafețe infectate de malarie din KZN, mai exact provinciile Limpopo și
Mpumalanga. Este posibil ca identificarea câte unui model pentru fiecare municipiu al
districtelor ar putea oferi o evaluare mai în adâncime a trendului c azurilor de malarie. Acest fapt
ar ajuta la identificarea diferențelor în implementarea măsurilor de prevenție, comportamentul
pacienților și migrație. De asemenea, structurarea datelor pe luni ar putea fi responsabilă pentru
erorile de estimare, o soluție fiind analiza unei serii de timp zilnice care are putea fi ulterior
agregată în previziuni săptămânale și abia apoi lunare. Nu în ultimul rând, un motiv al
subestimării și supraestimărilor cazurilor de malarie ar putea fi analiza univariată a datelor.
Încorporarea unor serii de timp cu variabilă independentă (cu excepția timpului) în modelul
SARIMA, cum ar fi factori de risc de îmbolnăvire, ar crea modele de tip SARIMA multivariate
ce ar oferi previziuni mai precise.
Concluzia studiului a fost că modelul S ARIMA(0,1,1)(0,1,1)[12] previzionează cel mai bine
cazurile de malarie, raportat la valorile observate în anul 2014, iar acest model poate fi mai
departe îmbunătățit.
10
1.2.Elemente teoretice ale seriilor de timp și tehnicile folosite în analiză
NOTĂ: informațiile și formulele mai jos ilustrate s -au realizat având ca reper următoarele surse:
1. Adhikari, R., Agrawal, R. K (2013) ”An Introductory Study on Time Series Modeling and Forecasting”
2. Cowpertwait, P.S.P., Metcalfe, A.V. (2009) ”Introductory Ti me Series with R”
Analiza seriilor de timp vine în ajutorul înțelegerii trecutului și prezicerii viitorul, permițând
managerilor și oamenilor din politică să ia decizii argumentate, informate și realiste. Analizând o
serie de timp, putem cuantifica trăsăt urile importante ale setului de date, și mai ales variația
efectului aleator. Puterea computațională din ziua de astăzi, alături de motivele anterior
menționate, permit metodelor seriilor de timp să fie aplicabile într -un sens larg în industrie, guvern
și comerț (Cowpertwait, Metcalfe, 2009).
În general, o serie de timp este influențată de patru componente ce pot fi izolate de valorile
reale, observate. Acestea sunt componenta de trend, componenta ciclică, componenta sezonieră și
componenta aleatoare (sau r eziduală). În continuare se vor descrie sumar aceste patru componente.
Tendința generală a unei serii este de a stagna (rămâne constantă), scădea sau crește pe
parcursul unei perioade mai lungi de timp. Astfel, este general acceptat că trendul este un
comp ortament pe termen lung într -o serie de timp. De exemplu, seriile de timp ce vizează creșterea
populației sau numărul de imobiliare dintr -un oraș indică un trend crescător. Pe de altă parte, serii
ce urmăresc rata mortalității într -o țară în curs de dezvol tare sau numărul epidemiilor prezintă un
trend descrescător.
Componenta sezonieră reprezintă fluctuații pe perioada unui an. O serie de factori principali ce
cauzează variațiile sezoniere sunt condițiile meteorologice și climatul, obiceiurile tradiționale, etc.
Un exemplu previzibil ar fi vânzările de înghețată în lunile de vară și, în cazul acestui studiu,
vânzările per -total în perioada Crăciunului. Acest efect sezonier este de interes pentru oamenii de
afaceri, vânzătorii retail și a producătorilor pentr u plănuirea unor strategii viitoare.
11 Variația ciclică descrie modificări pe termen mediu în seria de timp, fiind cauzată de anumite
circumstanțe ce se repetă în cicluri. Durata unui ciclu se întinde pe o perioadă mai îndelungată de
timp (în general, pe o perioadă de minim doi ani). Mare parte din seriile de timp financiare și
economice prezintă într -o oarecare măsură variație ciclică. De exemplu, etapele de viață ale unei
întreprinderi constau în patru faze: prosperitate, declin, criză și revenire, ilustra te în figura de mai
jos.
Variabilele aleatoare sau neregulate într -o serie de timp, denumite și reziduuri au la bază
anumite influențe neprevizibile, care nu sunt nici regulate și nici nu se repetă după un tipar
oarecare. Aceste modificări sunt cauzate de incidente cum ar fi diverse fenomene naturale
(cutremure, inundații), factori sociali (revoluții,proteste) sau militari (războaie).
Având în vedere aceste patru componente, pentru a exprima matematic o serie de timp, se
folosesc în general două modele: ce l aditiv și cel multiplicativ (Adhikari, Agrawal,2013 ).
Modelul aditiv: Y(t) = T(t) + S(t)+ C(t) + I(t) (1.2.1)
Modelul multiplicativ: Y(t) = T(t) x S(t) x C(t) x I(t) (1.2.2)
În ecuațiile de mai sus, Y(t) reprezintă o valoare observată iar T(t), S(t), C(t) și I(t) sunt trendul,
componenta sezonieră și cea aleatoare, toate la momentul t. Modelul multiplicativ este structurat
pe ideea că există o oarecare legătură între cele patru componente și că ele se influențează într -o
anumită măsură una pe alt a. Acest fundament vine în ajutorul identificării metodei optime de
descompunere a unei serii de timp prin metoda grafică, când amplitudinea dintre un minim și un
maxim local se mărește odată cu trendul (figura…). Metoda aditivă, astfel, este mai indicat ă când
componentele sunt independente.
Ideea de staționaritate a unui proces stochastic poate fi văzut ca o formă de echilibru statistic.
Media și dispersia unui proces staționar sunt independente de componenta temporală. Condiția
staționarității se impun e când se dorește crearea unui model bazat pe seria de timp folosit în
previziuni. Staționaritatea este un concept construit pentru a simplifica procesul de dezvoltare
teoretică a unui model stochastic. De multe ori seriile de timp ce prezintă staționarita te sau efecte
12 sezoniere sunt non -staționare prin natura lor. În aceste cazuri, cea mai comună metodă este
diferențierea de ordin 1 sau 2. Diferențierea ajută la stabilizarea mediei seriei de timp.
Diferențierea de ordinul întâi este cea mai des întâlnită, întrucât majoritatea seriilor de timp
nestaționare devin staționare prin integrarea de ordinul întâi. Mai exact, seria diferențiată este
modificarea valorii de la un moment de timp la cel anterior:
yt=yt-yt-1
În cadrul seriilor de timp, proprietățile de o rdin doi (media, dispersia și autocorelația) joacă un
rol foarte important precum media și dispersia în studiul distribuțiilor statistice: ele oferă o
imagine de ansamblu asupra tendinței centrale și asupra împrăștierii valorilor. (Cowpertwait,
Metcalfe, 2 009). Considerând o serie de timp staționară (media și dispersia sunt constante și nu
depind de t), valorile pot fi corelate. Se spune că modelul este staționar de ordinul doi atunci când
corelația dintre variabile depinde doar de momentele de tip ce le se pară. Acestea din urmă poartă
denumirea de „lag”.
Un model ARMA(p,q) este o combinație de procese AR(p) și MA(q) ce sunt potrivite pentru
modelarea seriilor de timp univariate. Într -un proces auto -regresiv AR(p) valoarea viitoare a unei
variabile este o co mbinație liniară de un număr p de observații anterioare, împreună cu o constantă
și o eroare aleatoare. Matematic, modelul AR(p) poate fi exprimat astfel:
𝑦𝑡=𝑐+∑ 𝜑𝑖𝑝
𝑖=1 𝑦𝑡−1+𝜀1=𝑐+𝜑1𝑦𝑡−1+𝜑1𝑦𝑡−2+⋯+𝜑1𝑦𝑡−𝑝+𝜀𝑡 (1.2.3)
În această ecuație, y t și εt reprezintă valoarea la momentul actual și eroarea aleatoare, la
perioada de timp t; ϕi (i = 1,2,…, p) reprezintă coeficienții modelului iar c este termenul constant,
acesta din urmă fiind uneori evitat pentru a simplifica modelul. Ordinul modelului este dat de
constanta p.
Bazat pe regresia între valorile anterioare ale seriei precum modelul AR(q), un model medie
mobilă MA(q) se folosește de erorile anterioare ca variabile cauzale. Matematic, modelul MA(q)
se poate scrie astfel:
𝑦𝑡=𝜇+∑ θj𝑞
𝑗=1𝜀𝑡−𝑗+𝜀𝑡=𝜇+𝜃1𝜀𝑡−1+𝜃1𝜀𝑡−2+⋯+𝜃𝑞𝜀𝑡−𝑞+𝜀𝑡 (1.2.4)
În acest model, μ reprezintă media seriei de timp, θ j(j= 1,2,…,q) sunt coeficienții modelului
iar q, la fel ca p în cazul modelului anterior, reprezintă ordinul modelului. Șocurile ale atoare se
consideră a fi un proces de tip zgomot alb (serie de variabile aleatoare independente și identic
distribuite cu medie 0 și dispersie constantă). Erorile aleatoare se presupun a avea distribuție
13 normală. Conceptual vorbind, un proces medie mobilă reprezintă o regresie liniară între valoarea
curentă ca variabila dependentă și erorile aleatoare ale uneia sau mai multora observații anterioare.
Aceste două tipuri de procese pot fi îmbinate eficient pentru a forma o clasă generală de
modele de serii de timp, cunoscute sub denumirea de ARMA. Matematic, modelul ARMA(p,q) se
scrie astfel:
𝑦𝑡=𝑐+𝜀𝑡+∑ φiyt−i+𝑝
𝑖=1∑ θjεt−jq
𝑗=1 (1.2.5)
De cele mai multe ori, model ARMA sunt rescrise folosind operatorul de lag, care transforma șir ul
yt într -unul cu aceleași elemente, dar decalate cu un lag. Acesta este scris sub forma Lyt=yt-1.
Polinoamele operatorului de lag vin în ajutorul reprezentării modelelor ARMA în felul următor:
Model AR(p): 𝜀𝑡=𝜑(𝐿)𝑦𝑡 (1.2.6)
Model MA(q): 𝑦𝑡=𝜃(𝐿)𝜀𝑡 (1.2.7)
Model ARMA(p,q): 𝜑(𝐿)𝑦𝑡=𝜃(𝐿)𝜀𝑡 (1.2.8)
Mai sus s -au descris modelele ARMA care pot fi folosite doar în cazul seriilor de timp
staționare. În practică, comportamentul nestaționar este foarte des întâlnit în multe s erii de timp,
cum ar fi cele legate de factori social -economici. Seriile de timp ce prezintă trend și efect sezonier
sunt nestaționare prin natural or. Așadar, modelele ARMA nu sunt potrivite pentru a explica seriile
de timp nestaționare ce apar atât de fr ecvent în practică. Așadar, se propune modelul ARIMA ce
reprezintă un model ARMA general, ce tratează și cazurile de nestaționaritate. În cazul acestor
modele, staționaritatea se obține efectuând diferențieri finite pe valorile seriei de timp. Matematic,
ARIMA(p,d,q), folosind polinoamele de lag, se exprimă astfel:
𝜑(𝐿)(1−𝐿)𝑑𝑦𝑡=𝜃(𝐿)𝜀𝑡 (1.2. 9)
(1−∑ 𝜑𝑖𝑝
𝑖=1 𝐿𝑖)(1−𝐿)𝑑𝑦𝑡=(1+∑ 𝜃𝑗𝐿𝑗 𝑞
𝑗=1)𝜀𝑡 (1.2.10)
1. Aici, p,d și q sunt numere naturale mai mari sau egale cu 0 și exprimă ordinul termenilor
autoregresivi, ordinul diferențierii și ordinul termenilor medie -mobilă.
2. Numărul d indică ordinul diferențierii: de cele mai multe ori, o serie devine staționară după
d=1. Când d=0, modelul reprezintă de fapt ARMA(p,q), indicând faptul ca a nu a fost
necesară o diferențiere pentru obținerea staționarității (au fost necesare 0 diferențieri).
14 3. Un model ARIMA(0,0,q) este de fapt un model MA(q) iar un model ARIMA (p,0,0) este
un model AR(q).
4. ARIMA(0,1,0), mai exact 𝑦𝑡=𝑦𝑡−1+𝜀𝑡 este un caz specia l numit modelul „mersului
aleator”, popular în cazul seriilor de timp nestaționare ce vizează serii economice și ale
prețurilor acțiunilor la bursă.
Modelul ARIMA sus -prezentat este folosit pentru o serie de date nestaționară și neinfluențată
de sezonalita te. Modelul ARIMA sezonier (SARIMA) a fost propus pentru a generaliza la rândul
său modelul ARIMA (Box, Jenkins, 1979). În acest model se folosește o diferențiere sezonieră de
un anumit ordin potrivit pentru a elimina nestaționaritatea din seria de timp. O diferențiere
sezonieră de ordin 1 este diferența dintre o observație și cea care îi corespunde cu o perioadă în
urmă.
Modul de calcul este: 𝑧𝑡=𝑦𝑡−1+𝜀𝑡−1.
Pentru seriile de timp lunare, s=12 iar pentru cele trimestriale, s=4. Acest model este în gen eral
notat 𝑆𝐴𝑅𝐼𝑀𝐴 (𝑝,𝑑,𝑞)∗(𝑃,𝐷,𝑄)𝑠
Exprimarea matematică a modelului 𝑆𝐴𝑅𝐼𝑀𝐴 (𝑝,𝑑,𝑞)∗(𝑃,𝐷,𝑄)𝑠 folosind polinoamele de
lag este:
ɸ𝑃(𝐿𝑠)𝜑𝑝(𝐿)(1−𝐿)𝑑(1−𝐿𝑠)𝐷𝑦𝑡=𝛩𝑄(𝐿𝑠)𝜃𝑞(𝐿)𝜀𝑖 (1.2.11)
ɸ𝑃(𝐿𝑠)𝜑𝑝(𝐿)𝑧𝑖=𝛩𝑄(𝐿𝑠)𝜃𝑞(𝐿)𝜀𝑖 (1.2.12)
Cea mai cunoscută metodă de a alege modelul optim de previziune este minimizarea criteriilor
informaționale Akaike (AIC) și Bayesian (sau Schwartz, BIC sau SI C), care sunt definite mai
jos:𝐴𝐼𝐶 (𝑝)=𝑛ln(𝜎̂𝑒2
𝑛)+2𝑝 (1.2.13)
𝐵𝐼𝐶 (𝑝)=𝑛ln(𝜎̂𝑒2
𝑛)+𝑝+𝑝ln𝑛 (1.2.14)
În aceste formule, n reprezintă numărul de observații folosit pentru a crea modelul, p este
numărul parametrilor modelului iar 𝜎̂𝑒2 este suma pătratelor reziduurilor eșantionate.
În continuare, se vor stabili ipotezele testelor folosite în analize:
1) Testul Dickey -Fuller Augmentat pentru verificarea staționarității (Dickey, Fuller, 1979)
H0: seria are rădăcină unitate
H1: seria nu are rădăcină unitate
15 2) Testul Ljung -Box aplicat pe seria reziduurilor (Ljung, Box, 1 978)
H0: reziduurile sunt necorelate (distribuite independent)
H1: reziduurile sunt corelate
Statistica testului: 𝑄=𝑛(𝑛+2)∑𝜌̂𝑘2
𝑛−𝑘ℎ
𝑘=1 (1.2.15) , unde n este numărul observațiilor, 𝜌̂𝑘
este valoarea funcției de autocorelație eșantionului la lagul k ia r h este numărul de lag -uri testate.
Regiunea critică pentru respingerea ipotezei nule pentru un nivel de semnificație alfa este:
𝑄>𝑋1−𝛼,ℎ2, unde 𝑋1−𝛼,ℎ2 este cuantila de ordin 1 -alfa a distributiei chi -pătrat.
3) Testul ARCH -LM de homoscedasticitate a reziduurilor (Engle, 1982):
Fiind dată seria reziduurilor 𝑒𝑡=𝑦𝑡−𝜇̂𝑡 :
H0: nu există efect ARCH (heterodasticitate condiționată auto -regresiv, 𝛼0=𝛼1=
⋯=𝛼𝑚=0)
H1: există efect ARCH ( 𝑒𝑡2=𝛼0+𝛼1𝑒𝑡−12+⋯+𝛼𝑚𝑒𝑡−12+𝑢𝑡)
4) Testul Jarque -Bera de no rmalitate a distribuției erorilor (Jarque, Bera, 1987).
H0: erorile sunt normal distribuite
H1: erorile nu sunt normal distribuite
Statistica testului: 𝐽𝐵=𝑛−𝑘+1
6(𝑆2+1
4(𝐶−3)2) (1.2.16 ), unde n este numărul erorilor, S
reprezintă coeficientul de asimetrie, C reprezintă coeficientul de aplatizare iar k este numărul de
variabile independente.
16
Capitolul 2. Analiza și previziunea vânzărilor din SUA
2.1 Descrierea datelor și analiza pr eliminară
Principala analiză din capitolul al doilea va urmări o serie de timp a veniturilor lunare din
vânzările de tip „Bunuri și servicii alimentare și generale ” din Statele Unite ale Americii, din anul
1992 până în anul 2018 (măsurate în milioane de dolari ) valabile pe site -ul oficial . Consider datele
cu cea mai mare relevanță de până acum, deoarece, în definitiv, perioada sărbătorilor de Crăciun
este caracterizată de un consum general crescut; orice consumator este mai constrâns față de restul
anului la achiziționa diverse bunuri, de a efectua diverse cheltuieli, indiferent dacă sunt orientate
spre utilizare personală sau nu. Astfel vom arăta și influența pe piață a comportamentului
consumatorului și cum s -a modificat aceasta de -a lungul timpului. Scopul principal este de a
efectua o analiză completă a seriei de timp, de a izola factorul sezonier, care în cazul nostru este
perioada Crăciunului (cel mai preponderent) și de a oferi predicții cât mai precise în legătură cu
vânzările în viitor . Previziunile vor fi comparate cu valorile observate ale anului 2018.
NOTĂ: Vor fi eliminate efectele zilei de Black -Friday și ale valorificării cardurilor -cadou și a
voucherelor anterior menționate, care se află la extremitățile lunii decembrie (29 noie mbrie
respectiv începutul lunii ianuarie).
Sursa datelor este site -ul guvernamental al Statelor Unite ale Americii ce se ocupă de
recensământ (US Census Brueau). Am ales setul de date neajustat pentru factorii sezonieri
(ex:sărbători) și mai departe l -am transformat în valori reale cu ajutorul indicelui prețului de
consum. Sursa datelor pentru indicele prețului de consum a fost de pe site -ul Ministerului Muncii
Statelor Unite ale Americii (U.S. Bureau of Labor Statistics). Inflația este o componentă
semni ficativă în orice aparentă creștere dintr -o serie ce are o anumită valută ca unitate de măsură
(în cazul nostru, dolari). Ajustând în funcție de inflație se reflectă adevărata creștere, dacă
într-adevăr aceasta există. Setului inițial de date se adaugă acu m IPC din luna decembrie a fiecărui
an, urmând a folosi următorul algoritm pentru a transforma valorile nominale în cele reale.
Împărțim fiecare IPC la IPC -ul din decembrie 2017, care este anul de bază la care ne raportăm.
17
Împărțim valoarea vânzărilor nominală cu fiecare IPC raportat calculat la pasul interior și
înmulțim cu 100%.
Datorită faptului că avem un număr mare de observații (324), am împărțit seria de timp în
jumătate. Mai exact, pentru primii 13 ani și apoi pentru următorii 14, facem o anali ză comparativă
a vânzărilor din fiecare lună, pentru a observa importanța ajustării în funcție de inflație.
Figura 2.1.1 Vânzări neajustate și ajustate cu IPC pentru primii 13 ani
Prelucrare personală folosind R 3.5.1
Se observă imediat efectul sărbătorilor de Crăciun în cazul ambelor grafice. Toate maximele
anilor sunt aferente lunii decembrie când vânzările sunt considerabil mai mari. Diferența dintre
cele două grafice este vizibilă de la primele valori înregistrate. Valorile vânzărilor reale s unt per
total mai mari în cazul ajustării cu indicele prețului de consum, acest rezultat fiind unul previzibil:
cifrele mai mici nu marchează neapărat faptul că oamenii aveau tendința de a cheltui mai puțin în
general și mai ales în perioada Crăciunului, c i faptul că un dolar avea putere de cumpărare mai
mare față de vremurile contemporane. Cu alte cuvinte, se puteau cumpăra mai multe lucruri cu
aceeași bani față de zilele noastre. Pe de altă parte, trendul este crescător și după ajustare, acest fapt
sublin iind tendința consumeristă crescândă în societatea contemporană. De asemenea, se observă
că a doua serie de timp este mult mai volatilă, cu amplitudinile de la luna decembrie la luna
ianuarie mult mai mari.
18
Figura 2.1.2: Vânzările neajustate și ajustate cu IPC pentru ultimii 14 ani
Prelucrare personală folosind R 3.5.1
Comparând valorile vânzărilor neajustate și ajustate pe următorii 14 ani, vom observa
diferențe mai pronunțate. Trendul crescător este și de această dată prezent în ambele păr ți, doar că
în cazul seriei ajustate, acesta este mai redus. Acest fapt subliniază că tendința crescătoare a
consumatorilor de a cheltui mai mult în fiecare an nu mai cunoaște o amploare ca în perioada
precedentă. Se observă, evident, impactul crizei econo mice din 2008 care aproape persistă și în
anul următor de Crăciun. Ambele serii sunt mai volatile decât cele anterioare, observându -se
fluctuații mai mari și mai frecvente.
Figura 2.1.3. Vânzări ajustate cu IPC pe perioada celor 27 de ani.
Prelucrare personală folosind R 3.5.1
19 Mai departe în capitolul al doilea vom efectua o analiză preliminară a datelor, mai exact vom
interpreta amănunțit rezultatele statisticilor descriptive.
NOTĂ: Pe parcursul lucrării, termenul de vânzări va face referire la cele ajustate cu IPC, nu
la cele inițiale.
La început am rezumat în tabelul 2.1.1. câteva informații de bază (milioane de dolari ).
Tabel ul 2.1.1 . Statistici descriptive
Prelucrare personală folosind R 3.5.1
Valoarea minimă de $263,489 miliarde de dolari este aferentă lunii februarie din anul 1993 iar
valoarea maximă de $572,119 miliarde de dolari corespunde lunii decembrie 2017. Amplitudinea
de $308,63 miliarde de dolari subliniază tendința consumeristă în general și nu doar în perioada
Crăciunlui, această valoare reprezentând o creștere cu aproximativ 117,13% față de luna cu
vânzările minime.
Media aritmetică de $409,832 miliarde de dolari semnifică faptul că, în medie, vânzările de
tip ”Retail and Food” din Statele Unite ale Americii sunt de $409,832 miliarde de dolari. Mediana
indică faptul că în jumătate din lunile observate, valoarea vânzărilor a fost sub $401,904 miliarde
de dolari.
În tabelul 2.1.2. am gr upat rezultatele indicatorii variației, ai coeficienților de asimetrie și de
aplatizare pentru a verifica omogenitatea seriei de date și de a trage o concluzie privind forma
distribuției.
Minim $263489
Q1 $367527
Mediana $411904
Media aritmetică $409832
Q3 $453655
Maxim $572119
Amplitudinea (Max -Min) $308630
20 Tabel 2.1.2. Indicatori ai variației și ai formei distribuț iei
Prelucrare personală folosind R 3.5.1
Abaterea standard sugerează că valorile vânzărilor se abat în medie cu $61,066 miliarde de
dolari de la media de $409,832 miliarde de dolari. Datorită valorii coeficientul de variație de 0,149
< 0,3 putem concluziona ca seria este omogenă și media este rep rezentativă pentru setu l de date.
Coeficientul de asimetrie de -0,101<0 indică o asimetrie ușor negativă, ceea ce înseamnă că
predomină valorile mai mari în setul de date, dar nu într -o măsură proeminentă. Coeficientul
aplatizare de 2,67 < 3 indică faptul că seria este ușor platicurtică, mai exact valorile tind într -o
măsură redusă să nu se grupeze în jurul mediei aritmetice. Observând valorile coeficienților de
asimetrie și de aplatizare care diferă ușor de valorile de referință 0 și 3, se poate afirma că
distribuția setului nostru de date se apropie de o distribuție normală. V investiga acest aspect și
grafic, în figurile de mai jos:
Figura 2.1.4. Histograma vânzărilor
Prelucrare personală folosind R 3.5.1 Abatere standard $61066,416
Media aritm etică $409832
Coeficient de variație 0,149
Coeficient de asimetrie -0,101
Coeficient de aplatizare 2,67
21
În figura 2.1.4 este histograma vânzărilor, cu valorile de pe axa OY schimbate, de la frecvența
de apariție la probabilitate și astfel s -a adăugat și curba funcției de densitate de probabilitate (cu
albastru). Asimetria ușor negativă se observă în partea din dreapta a cu rbei, unde panta este mai
abruptă decât în partea stângă. Dreapta verticală cu roșu reprezintă media aritmetică iar dreapta cu
verde reprezintă mediana setului de date iar distanța foarte scăzută dintre cele două sugerează
apropierea distribuției de una no rmală.
Figura 2.1.5. Boxplotul vânzărilor
Prelucrare personală folosind R 3.5.1
Rezultatele obținute mai sus sunt susținute și de analiza boxplot -ului. În seria noastră de date,
nu s-a găsit nicio valoare extremă, fie pozitivă sau negativă, semn că tendințele cumpărătorilor nu
s-au schimbat radical în anumiți ani de -a lungul celor 26 observații.
Concluzia după această analiză preliminară a datelor este că tendința consumatorilor nu a
suferit schimbări majore de -a lungul celor 26 de ani; trendul crescător al vânzărilor lunare poate fi
ușor explicat de unii factori ce indică nivelul dezvoltării unei țări pe plan economic, cum ar fi
produsul intern brut al țării respective. Mai jos, în figura 6 se poate observa creșterea produsului
intern brut real pe cap de locuitor al Statelor Unite ale Americii pe parcursul mai multor ani.
Figura 2.1.6. Evoluția PIB -ului real pe cap de locuitor din SUA
Sursa: Biroul de analiză economică SUA https://fred.stlouisfed.org
22
2.2. Modelare și previziune eliminând efectul sezonier
În continuare, se pune problema dacă este mai bine de a îngloba componenta de trend,
sezonieră și reziduală a seriei de timp printr -un model aditiv sau unul multiplicativ. Acest pas este
foarte important, deoarece în toate analizele următoare vom folosi modelul cel mai potrivit ales
acum. Vom folosi valorile din anii 1992 -2015 ca date de antrenare pentru a găsi modelele de
previziune și perioada 2016 -2018 ca perioada de tes tare a predicțiilor.
NOTĂ: O perioadă de previziune de 3 ani este destul de mare pentru a previziona cu modelele
ulterior folosite; s -a ales această perioadă tocmai pentru a ilustra limitările modelelor folosite.
În linii mari, un model multiplicativ este mai potrivit atunci când unui trend crescător îi
corespund amplitudini crescânde ale efectului sezonier. Cu alte cuvinte, activitatea sezoniera se
mărește pe măsura ce crește și trendul. Un exemplu ar fi traficul de utilizatori pe site -urile web,
unde atun ci când numărul de utilizatori al serviciilor de internet per total crește, crește și numărul
utilizatorilor ce accesează magazine virtuale în perioada Crăciunului.
În cazul modelului aditiv, unui trend crescător îi corespund amplitudini aproximativ consta nte
pe tot parcursul seriei de timp. Cel mai adesea, acestea sunt întâlnite în cazul seriilor de timp
indexate, unde modificările rămân la fel deși modificările absolute cresc.
Primul pas este de a descompune seria de date în componentele sale. Folosim ma i întâi
descompunerea prin metoda multiplicativă iar apoi prin metoda aditivă. Vom compara graficele
efectului sezonier extras prin cele două metode și îl vom alege pe cel cu valorile cele mai volatile,
deoarece înseamnă că seria de date desezonalizată est e mai netedă, fiind izolată de partea
sezonieră cu amplitudinile mai mari și variate. S -a ales o perioadă aleatoare de un an pentru
ușurința observării pe grafic.
.
Figura 2.2.1 . Seria componentei sezoniere pe perioadă de un an
Prelucrare personală folosind R 3.5.1
23
Se poate afirma că diferențele sunt insesizabile cu ochiul liber, ceea ce înseamnă că nu este
relevantă această metodă de a decide. Mai departe, se verifică cât de multă corelație dintre valorile
observate este încapsulată în rez iduuri. Aceasta se calculează prin funcția de auto -corelație. Se
poate ca unele corelații să fie negative, astfel că vom calcula pentru ambele seturi de valori ale
reziduurilor suma pătratelor valorilor corelațiilor. În definitiv, o vom alege pe cea mai mi că.
Tabel ul 2.2.1 : Suma pătratelor corelațiilor reziduale izolate prin cele două metode
Sursa: Prelucrare personală folosind R 3.5.1
Așadar în continuare vom folosi modelul aditiv pentru a exprima relația dintre cele trei
componente.
Figura 2.2.2. . Descompunerea seriei în cele trei componente ale sale
Prelucrare personală folosind R 3.5.1
De asemenea, se poate observa și grafic faptul că metoda aditivă este indicată, deoarece odată
cu evoluția trendului, modificările sezoniere de la o perioadă la alta tind să fie constante. Acest fapt Suma pătratelor corelațiilor reziduurilor izolate
prin modelul multiplicativ 1,785
Suma pătratelor corelațiilor reziduurilor izolate
prin modelul aditiv 1,763
24
sugerează că mentalitatea c onsumatorilor a rămas per total aceeași înainte și după Crăciun privind
cheltuielile, pe perioada celor 26 de ani analizați.
Valoarea vânzărilor în luna ianuarie a anului 1992 se poate scrie după modelul aditiv, astfel:
y= 297432,781 -39096,289+7941,696 , unde:
Valoarea componentei trend este $297432,781 milioane dolari.
Valoarea componentei sezoniere este $ -39096,289 de dolari.
Valoarea componentei reziduale este $7941,696 milioane de dolari.
Pentru a realiza predicții ale vânzărilor pe perioadele următoare și eventual de a estima care
vor fi cifrele pentru următorul sezon al sărbătorilor, trebuie să ne asigurăm că seria de timp este
desezonalizată și staționară .
În continuare vom analiza staționaritatea seriei grafic cu ajutorul funcției de autoco relație și
apoi analitic prin testul Dickey -Fuller Augmentat (ADF) pentru a vedea dacă seria noastră are sau
nu rădăcină unitate.
Figura 2.2.3 . Corelograma seriei de timp desezonalizată
Prelucrare personală folosind R
25
Se observă că majoritatea lagurilor depășesc intervalul de încredere funcției de autocorelație,
ceea ce prevestește o serie nestaționară. Rezultatul căutat este invers, în care doar un număr redus
de laguri să depășească intervalul de încredere.
Pentru a confirma această presupuner e se va folosi testul ADF, cu rezultatele în tabelul de mai
jos.
Tabel ul 2.2.2. . Testul Dickey -Fuller augmentat pentru seria de timp desezonalizată
Prelucrare personală folosind R 3.5.1
Pentru că p -value = 0,389> 0,05 înseamnă că se acceptă ipoteza nulă, aceea ca seria de timp
are rădăcină unitate și deci este nestaționară. Se transformă seria de date într -o serie de ordinul
întâi prin prima diferențiere. Se ef ectuează testul ADF pe noua serie de timp:
Tabel ul 2.2.3. . Testul Dickey -Fuller augmentat pentru seria de timp desezonalizată și integrată de ordin 1
Prelucrare personală folosind R 3.5.1
Întrucât p -value = 0,029 < 0,05 se acceptă ipoteza alternativă, seria de timp nu are rădăcină
unitate și deci este staționară. Mai jos, în figura … avem graficul seriei de timp staționare în raport
cu graficul seriei de timp n estaționare (desezonalizate).
Figura 2.2.4. . Seria de timp înainte și după staționarizare
Prelucrare personală folosind R 3.5.1 Dickey -Fuller Lag order p-value
-2,44 12 0,389
Ipoteza alternativă: Seria e staționară
Dickey -Fuller Lag order p-value
-3,637 12 0,029
Ipoteza alternativă: Seria e staționară
26
În continuare, va trebui să alegem un model pentru a previziona valorile vânzărilor,
bazându -ne pe seria de date staționară prezentă. Pentru că în prelucrarea datelor seria a fost
desezonalizată, încercăm să găsim cel mai bun model ARIMA(p,d,q) prin identi ficarea
estimatorului minim AIC (criteriul informațional Akaike).
Pentru modelul ARIMA(p,d,q) este posibil să identificăm grafic, vizualizând corelograma, ce
includ funcțiile de autocorelație și de corelație parțială.
Figura 2.2.5 . Corelograma seriei de timp staționară
Prelucrare personală folosind R 3.5.1
Singura informație evidentă pe care o putem colecta din analiza vizuală este că în graficul
funcției de autocorelație parțială, cel mai semnificativ lag în afară de primul este al doilea, iar în
graficul funcției de autocorelație, valorile posibile ar fi 0,1 sau 2.
Folosindu -se anumiți algoritmi interni (funcția auto.arima ), au fost propuse mai multe modele
candidate, cu sau fara termen liber și s -a alcătuit o coloană cu v alorile coeficientului informațional
Akaike aferent (AIC).
27 Tabel ul 2.2.4 . cu modelele propuse cu valoarea coeficientului informațional Akaike (AIC) aferent
Prelucrare proprie folosind R 3.5.1
În urma grupării rezultatelor, s -a găsit modelul optim din cele candidate, cu valoarea minimă a
coeficie ntului informațional Akaike (AIC) de 5869,232.
În tabelul 2.2.5. de mai jos am grupat rezultatul diferitelor statistici referitoare aplicate pe seria
reziduurilor modelului.
Tabelu l 2.2.5 . Statisticile reziduurilor modelului
Prelucrare proprie fo losind R 3.5.1
Tipul modelului, cu sau fără termen liber Valoarea AIC
ARIMA(2,1,2) cu termen liber 5894,72423
ARIMA(0,1,0) cu termen liber 6023,53847
ARIMA(1,1,0) cu termen liber 5947,12013
ARIMA(0,1,1) cu termen liber 5922,60503
ARIMA(0,1,0) 6023,03428
ARIMA(1,1,2) cu termen liber 5914,88631
ARIMA(2,1,1) cu termen liber 5892,77054
ARIMA(1,1,1) cu termen liber 5918,57208
ARIMA(2,1,0)(1,0,0)[12] cu termen liber 5896,83924
ARIMA(3,1,1)(1,0,2)[12] cu termen liber 5894,74225
ARIMA(3,1,0)(0,0,1)[12] cu termen liber 5894,15026
ARIMA(3,1,2)(0,0,1)[12] cu termen liber 5896,65065
ARIMA(2,1,1) cu termen liber 5898,73059
Model Testul
Ljung -Box Testul
ARCH -LM Testul
Jarque -Bera AIC SIC
ARIMA(2,1,1) cu termen liber 0,00000489 0,013 0,33 5892,77 5911,06
28
NOTĂ: Valorile din celule pentru cele trei teste reprezintă p -value.
Un model de previziune ideal ar trebui să aibă următoarele caracteristici:
Să nu existe corelație între reziduuri, ceea ce înseamnă că ar trebui să fie validă ipoteza
nulă a testului Ljung -Box (p -value > 0,05).
Erorile să fie homoscedastice, ceea ce înseamnă că ar trebui validată ipoteza nulă a te stului
ARCH -LM (p -value > 0,05).
Erorile să fie normal distribuite, ceea ce înseamnă ca ar trebui validată ipoteza nulă a
testului Jarque -Bera (p -value > 0,05).
Valorile coeficient ului informațional Akaike (AIC) și ale criteriului informațional
Schwartz (S IC) cât mai mici
Având în vedere rezultatele statisticilor, modelul optim ale s dintre cele candidate trece testul
Ljung -Box, cu p -value=0,000… <0,05 și nici testul ARCH -LM de homoscedasticitate a erorilor.
Trece testul Jarque -Bera de normali tate a erorilo r, cu p -value=0,33 > 0,05, ceea ce înseamnă că per
total, modelul nu este atât de potrivit pentru previziune.
În tabelul 2.2.6. sunt coeficienții primului model (ARIMA(2,1,1 )) cu termen liber pe baza
cărora vom scrie forma generală a modelului după care vo m previziona valorile vânzărilor pe
perioada următoare:
Tabelul 2.2.6 . Valorile coeficienților modelului cu abaterile standard. Notă: „C” reprezintă termenul liber (constantă).
Prelucrare proprie folosind R 3.5.1
În cea de -a patra coloană, toate valorile sunt mai mari decat valoarea critică 2 pentru un
interval de incredere de 95%, ceea ce înseamnă că toți coeficienții termenilor sunt semnificativi
din punct de vedere statistic.
Forma generală a modelului este: Yt= -0,975*AR(1) -0,455*AR(2)+0,34*MA(1)+618,87 Termeni Coeficienți Abateri standard | t calculat |
AR(1) -0,975 0,1 0,975
AR(2) -0,55 0,06 9,166
MA(1) 0,34 0,12 2,833
C 618,87 215,287 2,874
29
În continuare, se vor previziona v ânzările pe anul 2018. Cum a fost menționat și la începutul
acestei părți practice, datele de la sursa originală nu au fost ajustate pentru factorii sezonieri. În tot
procesul de a găsi cele mai bune modele, s -a lucrat pe date ajustate pentru factorii sezo nieri, astfel:
Seria de timp a fost descompusă aditiv în cele trei componente: trend, sezonalitate și
reziduuri.
Valorile vânzărilor ajustate din fiecare lună reprezintă suma dintre componenta de trend și
componenta aleatoare izolate anterior.
Setul de da te de testare, mai exact valorile vânzărilor în anii 2016 -2018 trebuie și el la rândul
său să fie desezonalizat pentru a putea testa precizia de predicție a modelului. Mai exact, dorim să
vedem evoluția vânzărilor și deci comportamentul general al consumat orului neinfluențat de
factori sezonieri:
Figura 2.2.6 . Previziunea vânzărilor pe anii 2016 -2018
Prelucrare personală folosind R.
Linia albastră reprezintă valorile prezise propriu -zise, iar cele două porțiuni semnifică
intervale de previziune. Porțiunea cu albastru -închis semnifică faptul că există o probabilitate de
80% ca o valoare viitoare să se încadreze între limita minimă și maximă. Porțiunea cu gri
semnifică faptul că există 95% șanse ca o valoare viitoare să se încadreze într e limita minimă și
maximă. Mai specific, dacă am fi calculat valorile viitoare pe eșantioane repetate de testare,
acestea s -ar încadra în limitele intervalului în 80%/95% dintre ele. În tabelul 2.2.7. sunt grupate
30
valorile previzionate, intervalele de prev iziune și valoarea efectivă (observată) pentru pr imele
patru luni ale anului 2016 .
Tabelu l 2.2.7 . Rezultatul predicțiilor pe primele patru luni ale anului 2017.
Prelucrare folosind R 3.5.1
De exemplu, valoarea vânzărilor p entru luna ianuarie a anului 2016 previzionată a fost de
$479,591 miliarde de dolari, față de valoa rea vânzărilor observată de $477,058 miliarde de dolari.
Au existat 80% șanse ca valoarea vânzării să se î ncadreze în intervalul [$470,781:$488,401 ]
miliarde de dolari. Au existat 95% șanse ca valoarea vânzării să se î ncadreze în intervalul
[$466,118:$493,065 ] miliarde de dolari.
În graficul următor sunt ilustrate împreună valorile observate (ajustate sezonier) și cele
estimate cu ajutorul modelului de previziune. Linia albastră și cele două porțiuni colorate au
aceeași semnificație iar linia punctată cu negru reprezintă vânzările observate ajustate sezonier.
Figura 2.2.7 . Previziunea pe anii 2016 -2019 față de valorile observate ajustate
Prelucrare personală folosind R 3.5.1 Luna Valoarea
previzionată Lower 80% Higher 80% Lower 95% Higher 95% Valoarea
observată
Ianuarie $479591,580 $470781,775 $488401,385 $466118.146 $493065,014 $477058,772
Februarie $479796,289 $470393,762 $48919,817 $465416.365 $494176,214 $491626,615
Martie $484333,304 $474191,888 $494474,721 $468823.346 $499843,262 $476777,48
Aprilie $481359,847 $469392,261 $493327,433 $463057.004 $499662,691 $485093,916
31 Trendul vânzărilor se află între limitele ambelor intervale de predicție, ceea ce înseamnă că
valorile previzionate cu ajutorul modelului sunt relativ bune. Singura problemă este că modelul nu
reușește să trateze efectul aleator al seriei de timp, acest fapt observându -se în diversele puncte de
minim și maxim local ale liniei punctate (trendul+efectul al valorilor observate). Cu alte cuvinte,
în mare, valorile previzionate se apropie de cele reale, dar modelul nu poate reproduce micile
modificări în sus sau în jos ale trendului. Se observă liniarizarea trendului modelului de predicție
pentru o perioadă de previziune mai mare de un an, ceea ce înseamnă o limitare a capacităților
modelului.
32
2.3. Modelare și previziune incluzând efectul sezonier
Se propune găsirea unui model suplimentar care să poată fideliza oscilațiile trendului. Prin
metoda folosită, de a ajusta sezonier datele originale și apoi de a le integra până când seria a
devenit staționară (de ordin 1), am obț inut cel mai bun model posibil. Se impune deci schimbarea
modului de a privi seria de timp. De această dată , nu se mai a justează seria originală pentru factorii
sezonieri, ci se încearcă a se folosi o diferență sezonieră pe lângă cea de ordin întâi.
Figura 2.3.1 . Funcția de autocorelație parțială a seriei de timp neajustată sezonier integrată de ordin 1.
Prelucrare proprie folosind R 3.5.1
Corelograma seriei de timp neajustată, pe setul de antrenare 1992 -2015, impune o diferențiere
sezonieră la lagul al 12 -lea, unde valoarea funcției de autocorelație este maximă (în afară de lagul
1). Mai există tipare recurente, cu m ar fi lagurile 2 -13-25 sau 11 -23-35, ce sugerează același
comportament al consumatorului înainte și după perioada Crăciunului. După diferențierea
sezonieră de ordin 1 la lagul 12, corelograma arată astfel:
Figura 2.3.2 . Corelograma seriei de timp n eajustată
Prelucrare personală folosind R 3.5.1
33 Staționaritatea noii serii de timp este ve rificată prin rezultatul testului Dickey -Fuller, datorită
unui p -value=0,01 < 0,05.
Tabel ul 2.3.1 . Testul Dickey -Fuller augmentat pentru seria de timp neajustată sezonier
Prelucrare proprie folosind R 3.5.1
Ca la seria ajustată sezonier integrată de ordin 1, valoarea lag -ului 2 în funcția de autocorelație
parțială prevestește termenul AR(2) și mai puțin probabil AR(3) iar comportamentul funcției de
autocorelație nu oferă o informație clară asupra unui termen medie -mobilă, considerând posibile
valorile 0,1 sau 2 ca la modelul anterior
Se aplică același algoritm ca la seria aju stată sezonier și integrată de ordin 1, mai exact se vor
propune o serie de modele considerate a fi cele mai bune și le vom alege după criteriul
informațional Akaike.
Tabel ul 2.3.2. . cu modelele propuse cu valoarea coeficientului informațional Akaike (AIC) aferent
Prelucrare proprie folosind R 3.5.1
Conform criteriului informațional Akaike, cel mai bun model este ARIMA(2,1,0 )(2,1,2)[12].
Și pentru acest model, vom calcula o serie de statistici pe seria reziduurilor acestuia. Dickey -Fuller Lag order p-value
-5,38 12 0,01
Ipoteza alternativă: Seria e staționară
Tipul modelului, cu sau fără termen liber Valoarea AIC
SARIMA(2,1,2)(2,1,2)[12] 5667,08115658
SARIMA(2,1,2)(1,1,2)[12] 5666,05872
SARIMA(2,1,0)(2,1,2)[12] 5658,02577
SARIMA(2,1,0)(1,1,1)[12] 5662,49318
SARIMA(1,1,0)(2,1,2)[12] 5678,8889
SARIMA(3,1,0)(2,1,2)[12] 5659,13162
34
Tabelul 2.3.3 . Statisticile reziduurilor modelului
Prelucrare folosind R 3.5.1
Modelul optim trece testul ARCH -LM pentru homosc edasticitate, cu p -value = 0,449> 0,05 și
testul Jarque -Bera pentru normalitate a erorilor, cu p -value = 0,33 > 0,05. Cum p -value
corespunzător testului Ljung -Box este de 0,017 < 0,05, seria reziduurilor nu trece testul necorelării
reziduurilor. Din analiz a testelor de până acum, se poate intui că acest model este mai bun pentru
previziune decât cel anterior.
NOTĂ: În testarea Ljung -Box, s -a folosit numărul de laguri după care reziduurile nu mai trec
testul, mai exact pragul după care începe să existe core lațiile între reziduuri. Și pentru modelul
SARIMA(2,1,0)(2,1,2)[12] și pentru modelul ARIMA(2,1,1), de la al 10 -lea termen al seriei
reziduurilor apare corelație semnificativă.
În tabelul 13 sunt coeficienții celui de -al doilea model (ARIMA(2,1,1)(2,1,2)[1 2]) cu termen
liber pe baza cărora vom scrie forma generală a modelului după care vom previziona valorile
vânzărilor pe perioada următoare:
Tabelul 2.3.4 . Valorile coeficienților modelului cu abaterile standard
.
Prelucrare proprie folosind R 3.5.1
Notă: “C” reprezintă termenul liber (constantă). Model Testul
Ljung -Box Testul
ARCH -LM Testul
Jarque -Bera AIC SIC
ARIMA(2,1,0)(2,1,2)[12] 0,017 0,449 0,33 5658,03 5683,34
Termeni Coeficienți Abateri
standard | t calculat |
AR(1) -0,565 0,064 8,282
AR(2) -0,31 0,064 4,843
SAR(1) 0,712 0,123 5,788
SAR(2) -0,43 0,096 4,479
SMA(1) -1,253 0,122 10,27
SMA(2) 0,457 0,118 3,872
35
În cea de -a patra coloană, toate valorile sunt mai mari decât valoarea critică 2 pentru un
interval de încredere de 95%, ceea ce înseamnă că toți coeficienții termenilor sunt semnificativi
din punct de vedere statistic. Forma generală a model ului este:
Yt= -0,565*AR(1) -0,31*AR(2)+0,712*SAR(1) -0,43*SAR(2) -1,253*SMA(1)+0,457*SMA(2)
În continuare, în figurile de mai jos vom analiza grafic previziunile modelului și, pe setul de
testare reprezentat de valorile vânzărilor în anii 2016 -2018, vom compara valorile previzionate cu
cele observate.
Figura 2.3.3 . Previziunea pe anii 2016 -2018 față de valorile originale neajustate
Prelucrare proprie folosind R 3.5.1
De această dată, se observă cum modelul intuiește mult mai precis și componenta aleatoare,
linia albastră reprezentând previziunile și linia punctată reprezentând valorile reale uneori fiind
suprapuse. În niciun moment, linia punctată nu depășește intervalul de pred icție de 95%
reprezentat de porțiunea gri deschis. Se vor alege ultimele patru luni ale anului 2018 pentru a
vedea intervalele de predicție și de a compara valorile previzionate cu cele observate.
36
.
Tabelul 2.3.5 . Rezultatul predicțiilor pe ultimele patru luni ale anului 2018
Prelucrare personală folosind R 3.5.1
Pentru luna decembrie a anului 2018, a celui mai recent Crăciun, valoarea previzionată a fost
de $490,049 miliarde de dolari, față de valoarea vânzărilor observată de $490,407 miliarde de
dolari. Au existat 80% șanse ca valoarea vânzării să se încadreze în intervalul
[$534211,4 86:$612201,22] miliarde de dolari. Au existat 95% șanse ca valoarea vânzării să se
încadreze în intervalul [$513568,85:$632483,855] miliarde de dolari.
Rezultatele acestei analize pe seria de timp a vânzărilor a ilustrat faptul că o diferențiere
sezonieră a datelor a dus la rezultate mult mai bune și apropiate de valorile observate când s -a
efectuat o previziune decât când s -a utilizat metoda clasică de a lucra cu o serie desezonalizată.
Acest fapt nu demonstrează decât efectul foarte mare sezonier strâns l egat de componenta
reziduală, care odată redus sau chiar eliminat din seria originală împiedică modelul clasic de
previziune să mai trateze componenta aleatoare. Previzionarea unor valori neinfluențate de factorii
sezonieri este foarte importantă în orice domeniu, întrucât și sursa de unde au fos t preluate datele
folosite oferă acest set de date ajustat sezonier. Așadar, o altă idee de final este că este foarte greu
a se ignora efectul sezonier și de a oferi predicții cât mai realiste, mai ales când vine vo rba de
perioada sărbătorilor de Crăciun, cu cea mai mare amploare dintr -un an.
Luna Valoarea
previzionată Lower 80% Higher 80% Lower 95% Higher 95% Valoarea
observată
Septembrie $484540,221 $447618,871 $521461,571 $428073,889 $541006,553 $479540,868
Octombrie $499995,082 $462369,552 $537620,612 $442451,799 $557538,364 $503631,159
Noiembrie $509026,261 $470709,960 $547342,563 $450426,535 $567625,988 $522874,759
Decembrie $573206,353 $534211,486 $612201,220 $513568,850 $632483,855 $565553
37
Concluzii
Acest studiu în definitiv a oferit o serie de informații legate atât de comportamentul
consumatorului aflat în această perioadă, cât și de comportamentul unei serii de timp afectată de un
profund efect sezonier.
Legat de consumator, acesta tinde să fie mai darnic de Crăciun iar tendința consumeristă
excesivă își lasă amprenta, din nefericire, și asupra stării de sănătate, crescând cazurile de
hipercolesterolemi e și al bolilor cardio -vasculare în perioada sărbătorii. Oamenii conștientizează
atunci când nu sunt inspirați în alegerea unui cadou fizic, alegând în subconștient să ofere un cadou
în bani pentru maximizarea utilității primitorului. Cele două extreme sun t prietenii apropiați, care
sunt foarte iscusiți în alegerea unui cadou fizic și de cealaltă parte sunt bunicii care realizează
intrinsec rămânerea în urmă față de trendul noilor generații. Legat de țara noastră, tradițiile și
obiceiurile locale se îmbină armonios cu valorile internaționale. Consumatorul român recunoaște
Crăciunul conturat ca pe o marcă internațională pe toate canalele mass -media, televizorul cu
reclamele sale fiind cel mai influent mediu de transmisie de -a lungul timpului.
Legat de modelel e seriilor de timp cu efect sezonier din literatura de specialitate, acestea
vin în ajutorul previziunii precipitațiilor din Nigeria, facilitându -se procesul de administrare a
resurselor de apă prin avertismente timpurii. De asemenea, in Africa de Sud, s -a folosit modelarea
SARIMA a cazurilor de malarie, în lupta către eradicarea bolii până în anul 2020. Dezvoltarea de
modele optime de predicție este o parte importantă a supravegherii bolii, permițând conducerii
politice și a celor din serviciul public de s ănătate să acționeze proactiv.
Partea aplicativă a acestei lucrări s -a bazat pe o serie de timp a vânzărilor de tip „Bunuri și
servicii alimentare și generale” din Statele Unite ale Americii, din anul 1992 până în anul 2018
(măsurate în milioane de dolari). S -a ilustrat importanța inflației și diferența setului de date înainte
și după ajustarea cu indicele prețului de c onsum lunar. După o analiză generală a setului de date și
determinarea formei distribuției a început procesul găsirii unui model optim de previziune. S -a
alcătuit un set de antrenare, pe anii 1992 -2015 și unul de testare, pe anii 2016 -2018, ale căror
valor i observate se vor fi comparat cu valorile previzionate. Ideea de bază a analizei a fost
38 ilustrarea efectului sărbătorii Crăciunului în vânzări, care are cea mai mare amploare, și s -a
procedat într -o manieră oarecum inversă.
Mai întâi, s -a desezonalizat se ria, urmărindu -se a se găsi un model ce previzionează valori
ale vânzărilor viitoare neafectate de componenta sezonieră. Aceasta analiză este una realistă,
întrucât sursa datelor oferă și setul de date ajustat sezonier. Modelul optim găsit a întâmpinat
câteva probleme, întrucât nu reușea să ia in considerare și componenta aleatoare, mai ales după ce
s-a încercat previziunea pe o perioadă mai mare de un an. Etapa următoare a fost modelarea seriei
cu efectul sezonier încorporat, folosind avantajele modelului SARIMA. De data aceasta, s -a
efectuat o diferențiere sezonieră în loc de o desezonalizare completă. iar rezultatele au fost mult
mai bune și mai precise, pe toata durata celor 3 ani de testare. O altă concluzie a fost că toată
componenta sezonieră se află în strânsă corelație cu seria reziduurilor, astfel că atunci când s -au
efectuat previziuni pe seria de timp cu efectul sezonier inclus, modelul a reușit să redea aproape
fidel toate oscilațiile trendului. În linii mari, această sărbătoare a Crăciunului rep rezintă un efect
sezonier cu cea mai mare amploare dintr -un an asupra vânzărilor din SUA, iar încercarea izolării
lui duce la dezechilibre în modelele de previziune ale valorilor seriei de timp neinfluențate de
componenta sezonieră.
39 Bibliografie
Adhikari, R., Agrawal, R. K (2013) ‘An Introductory Study on Time Series Modeling and
Forecasting’
Cowpertwait, P.S.P., Metcalfe, A.V. (2009) ‘Introductory Time Series with R’
Ekström , M. (2018) ‘The (Un)Compromise Effect’,
Vedel -Krogh,S., J.Kobylecki,C., Nordestgaard, B.G., Langsted, A. (2019) ‘The Christmas
holidays are immediately followed by a period of hypercholesterolemia’, Atherosclerosis
Bridges, F. S. (2004) ’Rates of Homicide and Suicide on Major National Holidays’,
Psychological Reports 94, pp. 723 -724
Lester, D. (1979) ’Temporal variation in suicide and homicide’, American journal of
epidemiology , 109 (5), pp. 517 -520
Cheatwood, D. (1988) ’Is there a season for Homicide?’ Criminology 26 (2), pp. 287 -306
Phillips, D .P., Jarvinen, J.R., Abramson, I.S., Phillips, R. R. (2004) ‘ Cardiac Mortality Is
Higher Around Christmas and New Year's Than at Any Other Time: The Holidays as a Risk Factor
for Death’, Circulation
Waldfogel, J (1993) ’The deadweight loss of Christmas’, The American Economic Review,
Vol. 83, No. 5, pp. 1328 -1336
Moraru, M. (2013) ‘ Appealing to Romanian Consumers During Christmas Campaigns by
Means of Religious and Traditional Aspects’
Eni, D., Adeyeye, F. J. (2015) ‘ Seasonal ARIMA Modeling and Forecasting of Rainfall in
Warri Town, Nigeria’, Journal of Geoscience and Environment Protection , 2015,3, pp. 91 -98
Ebhouma, O., Gebreslasie, M., Magubane, L. (2018) ’ A Seasonal Autoregressive Integrated
Moving Average (SARIMA) forecasting model to predict monthly malaria cases in
KwaZulu -Natal, South Africa’, SAMJ , Vol. 108, Nr. 7
Sursa datelor: https://www.census.gov/
Mediul de programare folosit: https://www.r -project.org/
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: ACADEMIA DE STUDII ECONOMICE BUCUREȘTI FACULTATEA DE CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ SPECIALIZAREA CIBERNETICĂ ECONOMICĂ LUCRARE DE… [631637] (ID: 631637)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
