Statistica Economica

Statistica reprezintă știința colectării datelor, a prezentării lor într-o formă sistematică, a analizării acestora și a interpretării informațiilor numerice obținute.

Practic, dacă ar fi să găsim un limbaj comun al tuturor științelor, putem spune că statistica este un “numitor comun” al acestora. deopotrivă, un set de instrumente ce poate fi aplicat în toate domeniile cercetării, dar și “arta” de mânuire corectă a acestor instrumente.

În viața de zi cu zi, statistica ne oferă o paletă largă de tehnici cu aplicabilitate în cele mai variate domenii de interes care ne ajută să rezolvăm problemele practice și ne învață să raționăm corect. Pentru unii, statistica înseamnă numărul de goluri, de lovituri libere sau de kornere înscrise într-un meci de fotbal, pentru alții înseamnă nivelul Produsului Intern Brut, numărul șomerilor, rata de ocupare a forței de muncă, indicele prețurilor sau rata inflației, alături de alte asemenea date regăsite într-o publicație de specialitate, așa cum pentru alții statistica poate însemna o ramură a științei, o știință de sine stătătoare sau o disciplină de învățământ. “Instrumentarul” acestei științe se poate aplica, practic în toate celelalte științe, fie că este vorba de psihologie, de medicină, fizică, chimie, meteorologie sau istorie.

Rolul ei nu estes acela de a emite decizii, ci de a orienta decidentul pe o bază fundamentată asupra deciziei optime pe care o va adopta.

Deși etimologia cuvântului “statistică” este de origine latină, de la termenul “status”, ceea ce reprezintă o stare, o situație, un fapt, astăzi, statistica reprezintă un ansamblu de principii și metode cu ajutorul cărora putem obține informații utile despre un set de date.

Concepte de bază

Domeniul statisticii este subdivizat în două arii:

statistica descriptivă

statistica inferențială.

De obiecei, statistica descriptivă este sensul mai cunoscut, mai uzual al colectării, organizării, sintetizării, prezentării și descrierii datelor numerice și nenumerice, într-o formă convenabilă, în timp ce termenul de “inferență” se referă la tehnicile de interpretare a rezultatelor obținute prin metodele statisticii descriptive, utilizate apoi la luarea deciziilor. Deseori, decidenții sunt nevoiți să adopte decizii pe baza datelor care nu provin de la toate unitățile colectivității investigate, ci de la o parte a acestora și, cu ajutorul statisticii inferențiale, ei pot formula concluzii valabile, în anumiți termeni probabilistici, pentru întreaga colectivitate.

Exemplul 1

Metodele statisticii descriptive pot ajuta pe managerul unei rețele de magazine de articole de birotică să compare vânzările săptămânale din ultimul an în două puncte de vânzare diferite, astfel: sunt sintetizate vânzările săptămânale în câteva niveluri numerice:

nivelul mediu al vânzărilor săptămânale,

gradul de variație al vânzărilor față de media lor.

Tabelele și graficele ajută la prezentarea mai facilă, mai clară și mai ușor de reținut a informațiilor obținute, astfel încât să poată fi repede identificate diferențele esențiale între vânzările celor două puncte de vânzare.

În cazul în care managerul doreaște deschiderea a încă unui punct de vânzare într-o zonă a unui oraș; el poate organiza o cercetare statistică selectivă în cadrul căreia să afle dacă cetățenii incluși într-un eșantion apreciază ca pozitivă această inițiativă și dacă ar fi interesați a-și face cumpărăturile în noul punct de vânzare. Managerul va extinde rezultatele cercetării eșantionului la nivelul întregii populații și astfel spunem că el face o inferență statistică.

Fenomenele care constituie obiectul de studiu al statisticii sunt fenomene de masă. Acestea prezintă următoarele caracteristici:

se întâlnesc la un număr mare de unități;

variază ca nivel de la o unitate la alta;

sunt entități distincte circumscrise în timp, în spațiu și ca structură organizatorică.

Pentru a putea cunoaște aceste fenomene este necesar să avem viziunea întregului ansamblu. Acestea sunt fenomene nedeterministe.

În antiteză cu fenomenele stochastice, există fenomene deterministe care apar sub influența unui număr restrâns de cauze și care se manifestă cu aceeași valoare/nivel, dacă și cauzele care le-au generat sunt aceleași.

Diferența majoră dintre fenomenele deterministe și cele nedeterministe este aceea că cele din cea dea a doua categorie pot fi cunoscute, identificate și cercetate doar pe cale experimentală. Iar, valabilitatea lor poate fi probată la nivelul fiecărui caz individual în parte.

Astfel, statistica, ca orice știință și-a elaborat procedee și metode speciale de cercetare, cum sunt cele ale observării de masă, ale centralizării și grupării, procedee și modele de analiză și de interpretare statistică.

Metoda statisticii este constituită din „totalitatea operațiilor, tehnicilor, procedeelor și metodelor de investigare statistică a fenomenelor ce aparțin unor procese de tip stochastic”.

Pentru a efectua o cercetare statistică asupra unui fenomen și pentru a comunica rezultatele și concluziile studiului, sau pentru a înțelege concluziile la care au ajuns alți specialiști în cercetările lor, trebuie să avem cu toții un limbaj statistic comun. Vocabularul de bază al statisticii cuprinde următorii termeni:

Populația statistică (colectivitatea statistică)

Reprezintă totalitatea elementelor de același fel, cu trăsături observabile comune, studiate atunci când vrem să inițiem un demers statistic.

O populație se consideră integral definită, specificată dacă s-a elaborat lista completă a unităților care o compun. Unele populații statistice, având foarte multe elemente și fiind, deci, foarte numeroase, pot fi considerate cu caracter infinit.

Exemplul 2

Populația tuturor absolvenților unei instituții de învățământ superior economic este infinită, deoarece ea poate include absolvenții din trecut, prezent și viitor.

Dacă facem însă anumite precizări, delimitări (circumscrieri în timp, în spațiu și ca organizare), populațiile infinite pot căpăta caracter infinit.

Populația absolvenților din Constanța, din anul universitar 2012-2013, de la Universitatea ”Andrei Șaguna”, Facultatea de Științe Economice, Specializarea: Marketing, Anul I.

De remarcat un lucru: cu cât o colectivitatea este mai numeroasă, cu atât devine mai dificilă cercetarea tuturor elementelor ei. Pentru a evita costurile materiale și pentru a evita timpul necesar pentru o astfel de cercetare putem extrage o subcolectivitate din colectivitatea generală. Aceasta poartă numele de colectivitate parțială, eșantion sau colectivitate de selecție.

Eșantionul reprezintă un subset de elemente selectate dintr-o colectivitate statistică.

Unitatea statistică

Este elementul unei populații statistice care are o serie de trăsături caracteristice ce îi conferă apartenența la populația studiată.

Se pot întâlni două tipuri de unități statistice:

simple: un student, un slariat, un agent economic, un obiect, o părere;

complexe: o grupă de studenți sau o echipă de salariați, o familie sau o gospodărie, o categorie de mărfuri.

Variabila statistică (caracteristică statistică)

Reprezintă o însușire, o proprietate măsurabilă a unei unități statistice, întâlnită la toate unitățile care aparțin aceleiași colectivități (populații) și care prezintă variabilitate de la o unitate statistică la alta.

Clasificarea variabilelor statistice

după dimensiunea în care sunt definite:

de timp;

de spațiu;

atributive.

după natura variabilelor și modul lor de exprimare:

variabile cantitative sau numerice;

variabile calitative sau nenumerice

după tipul variației:

cu variație continuă – când pot lua, practic, orice valoare într-un interval din domeniul lor de valori;

cu variație discontinuă (discrete), atunci când pot lua doar anumite valori, strict determinate într-un interval din domeniul lor de valori.

după numărul de variante pe care îl poate avea o variabilă, întâlnim:

variabile alternative, binare sau dihotomice, de tipul variabilelor logice („adevărat/fals”), care pot avea doar două variante de răspuns (exemplu: stagiul militar – satisfăcut/nesatisfăcut, starea civilă – căsătorit/necăsătorit, genul – masculin/feminin etc.)

variabile nealternative, sunt cele care pot avea cel puțin trei variante de răspuns, de manifestare (exemplu: salariul – 1.500 lei, 1.700 lei, 2.000 lei).

Variabilele nealternative se pot transforma în variabile alternative printr-un proces de dihotomizare (prin impunerea unei limite, a unui prag – în cazul variabilelor numerice, sau prin regrupări ale variantelor – în cazul variabilelor nenumerice). Exemplu: nota: mai mică decât 5 și mai mare sau egală cunota 5; profesia: economist și alte profesii).

după modul de obținere:

variabile primare;

variabile derivate.

după relația de cauzalitate:

variabile independente;

variabile dependente (exemplu: dacă pentru 30 de magazine s-au înregistrat: suprafața comercială și valoarea vânzărilor, atunci suprafața comercială este variabila independentă, cauzală, iar valoarea vânzărilor reprezintă variabila dependentă, rezultativă).

Varianta statistică

Nivelul sau valoarea unei variabile, indiferent de natura/tipul acestei variabile, întâlnită la o anumită unitate se numește variantă.

Exemplul 3

Un angajat al unei companii are o vechime de 7 ani în muncă.

Angajatul reprezintă unitatea statistică, vechimea în muncă este variabila urmărită, iar 7 este varianta acestei variabile.

Frecvența unei variante

Exemplul 4

2 angajați ai unei companii sunt de profesie „analiști financiari”, atunci: angajatul este unitatea statistică, profesia este variabila studiată, „analist financiar” reprezintă o variantă a acestei variabile, iar „2” este frecvența acestei variante.

Date statistice

Clasificarea datelor statistice în funcție de tipul variabilelor ale căror valori le reprezintă:

temporale, spațiale sau atributive – dacă se referă la o caracteristică de spațiu, de timp sau atributivă);

cantitative sau calitative – dacă se referă la o variabilă numerică sau nenumerică;

datele cantitative pot fi continue sau discrete. În cazul în care datelor calitative li se acordă coduri numericeacestea pot fi exprimate numeric.

Clasificarea datelor statistice în funcție de numărul variabilelor la care se referă:

date univariate – datele statistice analizate se referă la o singură variabilă sau caracteristică statistică;

date bivariate – datele statistice se referă la două variabile; în acest caz, se poate studia separat fiecare caracteristică în parte, sau se poate analiza una dintre variabile, în relație cu cealaltă variabilă, punându-se în evidență posibila legătură dintre ele;

date multivariate – atuci când datele statistice se referă la trei sau mai multe variabile statistice; și în acest caz se pot analiza separat datele, pentru fiecare variabilă statistică în parte, sau interdependența dintre mai multe caracteristici.

Clasificarea datelor statistice de După momentul sau perioada de timp la care se referă datele înregistrate, putem întâlni:

date dinamice – batunci când datele se referă la mai multe momente sau perioade de timp succesive;

date statice – atunci când ele se referă la același moment / perioadă de timp.

Scale de măsurare a datelor statistice

Pentru ca datele statistice să poată fi supuse prelucrării prin metode statistice, ele trebuie măsurate, adică exprimate cantitativ, cu ajutorul numerelor. Modalitatea prin care se atribuie această valoare numerică, precum și semnificația ei depinde de nivelul de măsurare.

Fiecărui nivel de măsurare îi corespunde o anumită scală de măsurare, care poate fi identificată în funcție de operațiile matematice ce pot fi efectuate cu datele statistice. De remarcat că toate operațiile matematice permise pentru o anumită scală sunt valabile și pentru toate scalele inferioare ei, dar nu și pentru cele următoare.

Scala nominală (categorială)

Este scala cu cel mai scăzut nivel al preciziei, utilizată pentru a atribui variantelor caracteristicii măsurate „însușiri”, cu scopul de a stabili diferențe calitative între observații.

Rolul scalei nominale este acela de a încadra unitățile statistice în grupe/clase/categorii diferite, după un anumit criteriu, fără a indica dacă o categorie este mai bună sau mai puțin bună decât alta, dacă o categorie este mai largă sau mai restrânsă decât alta.

Operațiile admise pe scala nominală sunt echivalența și non-echivalența. Astfel, o unitate statistică poate avea caracteristica definitorie pentru o anumită clasă (=) sau nu (≠). Putem spune, de exemplu, „masculin” (≠) „feminin”, dar nu și „masculin” > „feminin”.

Exemplul 5

Pentru ușurarea procesului de prelucrare a datelor, aceste variante/categorii nominative se pot codifica numeric, sub forma: (0 = masculin, 1 = feminin); (1 = inginer, 2 = informatician, 3 = profesor etc.).

Aceste numere nu sunt purtătoare ale vreunei informații cantitative, ci doar separă subiecții în clase/categorii distincte din punctul de vedere al statutului civil, al sexului, al profesiei etc. La fel cum numerele de pe tricourile unor jucători dintr-o echipa din sport nu reflectă importanța jucătorilor sau nivelul la care evoluează în timpul unui meci, ci în principal au rolul de a identifica jucătorii.

De reținut: cu aceste coduri numerice nu se pot determina medii sau alți indicatori statistici și nu se pot efectua comparații, dar se pot determina frecvențele de apariție ale ficărei categorii.

Scala ordinală (categorială)

Oferă un plus de precizie în „măsurare”, față de scala nominală, deoarece ea nu numai că împarte unitățile colectivității studiate în clase/grupe omogene diferite, din punct de vedere al unei caracteristici, ci permite și stabilirea unei relații de ordine între aceste clase/grupe.

Exemplul 6

Evaluarea anuală unui profesor de catre studenții (1 = deloc popular, 10 = foarte popular); preferințele consumatorilor față de o marcă de băuturi răcoritoare (1 = nu este deloc bună; 5 = foarte bună); ordinea în care sosesc cicliștii dintr-o cursă (primul, al doilea, al treilea etc., fără a putea spune cu câte minute și secunde a sosit primul clasat mai repede decât al doilea); calificativele obținute de școlarii claselor I-IV la o materie (insuficient, sufficient, bine, foarte bine); autopercepția unor persoane privind greutatea lor corporală (sub greutatea normală, cu greutate normală, peste greutatea normală); salariul obținut de angajații unei companii (sub salariul mediu, egal cu salariul mediu, peste salariul mediu); temperatura înregistrată într-o stațiune montană în 10 zile din luna august (sub cea normală, normală, peste cea normală sau foarte scăzută, scăzută, normală, ridicată, foarte ridicată).

Scala ordinală indică poziția unui element într-o serie ordonată, nu și magnitudinea sau mărimea diferenței existente între două poziții ale scalei, dar nu ne permite să afirmăm cu câte „unități de măsură” diferă o categorie de categoria învecinată

Scala de interval (cardinală)

Caracteristici:

este prima scală numerică (se aplică variabilelor numerice);

permite, pe lângă stabilirea unei relații de ordine între variantele numerice ale acestei scale și determinarea și interpretarea diferențelor dintre acestea;

valorile numerice acordate pe această scală au semnificație cantitativă, de aceea este permisă însumarea sau scăderea lor;

fixarea punctului de origine (zero) poate fi făcută arbitrar (originea nu este fixă);

unitatea de măsură poate fi aleasă arbitrar.

Exemplul 7

Să presupunem că avem caracteristica „temperatura medie zilnică într-o localitate în 20 de zile consecutive din luna decembrie”. Dacă în una din zile s-a înregistrat o temperatură de 0 grade Celsius, acest lucru nu înseamnă că în acea zi nu a existat temperatură., ci acesta este nivelul temperaturii înregistrat în acea zi.

Scala de raport (proporțională)

Caracteristici:

se aplică variabilelor numerice, având cel mai înalt nivel de precizie;

două valori, măsurate pe această scală se află, indiferent de unitatea de măsură folosită, în același raport una față de alta;

pe această scală sunt permise și operațiile de multiplicare și de divizare;

punctul de origine (zero) este unul fix, rigid, este zero absolut, matematic și reprezintă absența caracteristicii;

unitatea de măsură poate fi aleasă arbitrar.

Exemplul 8

În practică este posibil ca o aceeași variabilă să se măsoare cu ajutorul mai multor scale de măsurare. Alegerea scalei adecvate se face, în funcție de variantele acelei caracteristici.

Dacă avem caracteristica „salariu”, ne gândim imediat la o scală numerică – scala de raport, de exemplu. Acest lucru este adevărat dacă variantele sunt: 750 RON, 1200 RON, 500 RON etc. Dacă variantele utilizate sunt: „sub salariul mediu”, „egal cu salariul mediu”, „peste salariul mediu”, atunci vom utiliza o scală calitativă – scala ordinală.

Surse de date statistice

În scopul aplicării metodelor statistice de analiză a fenomenelor și proceselor social-economice este necesar să avem la dispoziție date statistice. Sursele de date statistice se pot clasifica în: surse primare și surse secundare de date.

Dacă datele statistice sunt obținute direct prin organizarea unei observări statistice, indiferent dacă acestea sunt totale (recensământ) sau parțiale (sondaj statistic), atunci persoana sau instituția care a realizat o astfel de observare este o sursă primară de date statistice.

Dacă datele sunt deja prelucrate în tabele și grafice și publicate de persoane sau instituții specializate, ele vor fi surse secundare de date.

Exemplul 9

Spre exemplu, Direcția Generală de Statistică Regională București a publicat, în septembrie 2012, în Buletinul statistic pentru trimestrul II al anului 2012, mișcarea naturală a populației orașului în semestrul I al anului 2012, veniturile personalului salariat, numărul șomerilor la 30 iunie 2012, producția principalelor produse industriale fabricate în Municipiul București, dinamica cifrei de afaceri pentru întreprinderile cu activitate principală de comerț cu amănuntul și servicii de piață etc.

Toate aceste informații publicate se constituie în surse secundare de date statistice.

Observarea statistică: conținut, necesitate, obiective.

Orice proces de investigație statistică începe cu observarea statistică, modul în care este ea organizată și realizată influențează, în continuare celelalte etape ale procesului de cercetare statistică, deoarece obținerea unor date autentice, reale, exacte determină calitatea etapelor de prelucrare, analiză și intepretare a rezultatelor.

Observarea statistică este prima etapă a investigației statistice, care constă în culegerea și înregistrarea în mod sistematic și unitar a datelor statistice, de la unitățile colectivității, referitoare la toate caracteristicile include în programul cercetării.

Indiferent de amploarea observării, totale sau parțiale, culegerea datelor se poate face prin:

observări curente – înregistrare permanentă (evenimentele demografice: natalitate, mortalitate etc.);

observări periodice – datele se înregistrează la intervale de timp precizate;

observări directe – datele sunt înregistrate de către operator sau cercetător direct de la unitățile statistice;

observări indirecte – datele se înregistrează din diverse surse care au consemnat anterior fenomenul studiat (documentele contabile).

Observarea trebuie fie corespunzătoare sub aspect cantitativ și calitativ.

îndeplinirea condiției de cantitate – obținerea în timpul prestabilit a întregului volum de date necesar pentru atingerea tuturor obiectivelor investigației statistice;

îndeplinirea condiției de calitate – presupune asigurarea autenticității, a caracterului real al datelor, astfel încât rezultatele obținute prin prelucrarea acestor date să fie cât mai exacte și să ducă la adoptarea unor decizii cât mai pertinente.

În cazul în care pentru obținerea datelor statistice este necesară organizarea unei cercetării statistice, atunci ea trebuie făcută după anumite etape:

observarea statistică – etapă în care se obțin date de la unitățile colectivității studiate, pentru toate caracteristicile urmărite;

prelucrarea statistică – etapă în care datele obținute sunt agregate/sistematizate și sunt calculați indicatorii statistici adecvați tipului de date și tipului de analiză solicitat;

analiza și interpretarea rezultatelor – etapă în care sunt verificate ipotezele de lucru, sunt formulate concluziile și fundamentate procesele decizionale.

Planul observării statistice

Observarea statistică nu se desfășoară la întâmplare, deoarece culegerea datelor implică anumite costuri, dacă vrem să obținem date autentice. Ea se desfășoară pe baza unui plan (program), elaborat în funcție de scopul cercetării statistice.

Scopul observării

Este subordonat scopului general al cercetării statistice și influențează în continuare toate celelalte elemente din programul observării. Stabilirea obiectivelor ce trebuie atinse prin investigarea organizată este punctul de pornire al elaborării programului și depinde de scopul general al investigației statistice.

Delimitarea populației studiate

Acest lucru se realizează cu ajutorul nomenclatoarelor, al clasificărilor existente, sau se apelează la studiile anterioare efectuate în domeniul de interes (dacă există). Gradul de întindere a colectivității de observare este în funcție de metoda de observare ce va fi utilizată:

dacă este vorba de o metodă de observare totală, atunci obiectul observării va fi format din toate unitățile colectivității,

dacă va fi aplicată o metodă de observare parțială, vor fi înregistrate date doar de la o parte a unităților colectivității și doar ele vor forma obiectul observării.

În ambele cazuri însă, pentru identificarea corectă și completă a colectivității ce va fi supusă observării este necesară determinarea coordonatelor de spațiu, timp și de organizare ale colectivității de interes.

Unitatea de observare

Uneori, unitatea de observare nu este totdată și unitate raportoare. De exemplu, în cazul unei cercetări efectuate în cadrul unui agent economic, unitatea raportoare va fi agentul economic, iar unitatea de observare poate fi angajatul,un departament, o echipă sau un produs.

Timpul și locul observării

Locul observării este, de regulă, locul unde se produce, unde are loc fenomenul urmărit și studiat. Stabilirea acestora impune precizarea a două aspecte:

timpul la care se referă datele înregistrate (care poate fi un moment, numit „moment critic”, sau o perioadă, un interval de timp; în primul caz fenomenul este surprins static, iar în cel de-al doilea caz – dinamic).

timpul când se efectuează înregistrarea datelor – care este, de regulă, un interval de timp, bine precizat; este de dorit ca acesta să fie cât mai scurt, astfel încât înregistrarea datelor să se realizeze cu o cât mai mare operativitate.

Exemplul 10

De exemplu,la Recensământul populației și locuințelor din octombrie 2012, momentul critic a fost ora 0 a zilei de 20 octombrie, iar perioada în care au fost înregistrate datele a fost 20-31 octombrie 2011. Unitatea de observare a fost gospodăria (unitate complexă).

Lista caracteristicilor urmărite,

Lista caracteristicilor urmărite formează, așa cum am văzut, programul (planul) observării în sens restrâns; presupune stabilirea tuturor variabilelor care trebuie înregistrate, astfel încât să se asigure studierea fenomenului de interes sub toate aspectele prevăzute în scopul cercetării, evitând, în același timp, redundanța informațiilor.

Caracteristicile pot apare sub diferite forme:

sub forma unor indicatori – în raportările statistice pe care le completează agenții economici;

sub forma răspunsurilor la întrebările dintr-un chestionar – în cazul investigațiilor statistice special organizate.

Formularele de înregistrare

Formularele reprezintă suportul material pe care se vor înregistra datele culese. Acestea pot fi de două tipuri: formulare tip fișă sau formulare tip listă.

fișa este un formular individual, completat de către o singură unitate de observare;

lista este un formular colectiv, completat cu date pentru mai multe unități de observare.

Exemplul 11

La recensământul populației și locuințelor din octombrie 2011 s-a folosit fișa pentru a înregistra datele referitoare la o gospodărie și lista pentru a consemna datele privind militarii în termen dintr-o unitate militară sau persoanele care trăiesc într-un cămin de bătrâni, sau elevii/studenții dintr-un cămin de elevi/studențesc.

Măsuri organizatorice

Cu ajutorul lor, se pot preîntâmpina și rezolva diversele obstacole, dificultăți ce s-ar putea ivi în realizarea observării. Aceste măsuri pot cuprinde:

întocmirea unor liste ale unităților ce vor fi supuse observării;

folosirea hărților și planurilor cu localizarea unităților statistice;

sectorizarea teritoriului;

recrutarea și instruirea personalului participant la colectarea datelor;

proiectarea, elaborarea și tipărirea formularelor de înregistrare;

popularizarea cercetării statistice (prin mass-media, presă, afișe etc.).

Exemplul 12

La organizarea unui recensământ, acțiunea trebuie popularizată pentru a atrage buna credință a populației, astfel încât aceasta să să furnizeze date corecte și reale. De aceea, pentru identificarea și soluționarea tuturor problemelor ce ar putea apare, în prealabil, se organizează un recensământ de probă.

Metode de observare statistică

Există o gamă variată de metode de observare, utilizate împreună sau separat, pentru a obține o informație statistică cât mai reală, completă și neredundantă. Metodele de observare se clasifică după următoarele criterii:

după frecvența înregistrării în timp a datelor despre fenomenele și procesele economico-sociale:

observări curente – fenomenele și procesele sunt urmăriate în mod continuu, iar datele ce le caracterizează sunt înregistrate permanent (fenomenele demografice: natalitatea, mortalitatea, nupțialitatea, divorțialitatea care se regăsesc în „statistica stării civile”; rezultatele obținute de agenții economici etc.);

observări periodice – atunci când datele referitoare la fenomene sau procese economico-sociale se înregistrează cu o frecvență aproximativ regulată, la intervale egale de timp (recensăminte ale populației, recensăminte agricole etc.);

observări ocazionale – atunci când datele referitoare la fenomenele sau procesele economico-sociale se înregistrează discontinuu, ocazional, cu un prilej sau scop special, în mod unic, motiv pentru care se mai numesc „special organizate” (o anchetă de opinie privind atitudinea cetățenilor referitoare la un nou act normativ recent intrat în vigoare; o anchetă de opinie privind preferințele participanților la o expoziție de modă etc.).

după gradul de cuprindere a populației de observare delimitate, întâlnim:

observări totale, atunci când vor fi supuse observării toate unitățile populației statistice (recensământul populației și locuințelor);

observări parțiale – atunci când vor fi supuse observării doar o parte a unităților populației statistice (anchete, sondaje statistice);

după modul de obținere a datelor, avem:

observări primare, în care datele se obțin prin culegerea, înregistrarea lor direct de la unitățile statistice (recensământul populației, o anchetă de opinie);

observări secundare – în care se obțin datele secundare, care se preiau din documentele existente (datele preluate din evidențele contabile).

Recensământul statistic

Recensământul statistic, este o metodă de observare totală, periodică, prin care un fenomen este surprins în mod static, înregistrându-se valorile caracteristicilor din programul observării referitoare la un moment de referință numit „moment critic”, de la toate unitățile populației statistice.

Recensământul este întâlnit din timpuri străvechi, încă din antichitate, când romanii, egiptenii efectuau recensăminte ale populației; din sfera populației, recensământul s-a extins și în sfera locuințelor, animalelor, unităților din industrie, agricultură, comerț („recensământ economic”).

În domeniul populației recensământul are o periodicitate de 10 ani, iar în domeniul economic de 5 ani.

Recensământul este un tip de înregistrare foarte laborios, necesitând un volum mare de cheltuieli, personal numeros, măsuri organizatorice detaliate, precum și o prelucrare complexă a informațiilor înregistrate.

Exemplul 13

La Recensământul populației și locuințelor din 20 0ctombrie 2011, momentul critic a fost ora zero a zilei de 20 octombrie, iar înregistrarea datelor s-a realizat în perioada 20-31 octombrie 2011.

Pe baza Recensământului populației obținem indicatori de volum și structură statici, aferenți momentului critic. O cercetare în domeniul populației are însă, ca obiectiv și surprinderea, determinarea modificărilor de volum și a mutațiilor de structură de la un Recensământ la altul, impunându-se a fi respectat principiul comparabilității datelor atât în plan temporal, cât și în plan teritorial.

Perioada de pregătire a recensământului este de mare amploare și răspundere, fiind necesară o investigare a modalităților de pregătire a recensămintelor din perioadele trecute, atât în România, cât și în alte țări, o mediatizare puternică a acțiunii, uneori chiar și organizarea unui recensământ de probă (în perioada 7-16 mai 2011).

Sondajul statistic

Sondajul statistic (selecția statistică) este o metodă de observare parțială, special organizată, una din cele mai des utilizate metode de observare statistice moderne, deoarece realizează o economie de resurse materiale, financiare și umane, înlocuind o observare totală, de mare extindere, mai dificil de organizat și efectuat, cu cheltuieli considerabile.

În cazul cercetării statistice prin sondaj, se selectează un eșantion, format dintr-o parte a unităților populației totale.

Eșantionul poate fi selectat aleator sau non-aleator.

Sondajele pot fi repetate sau nerepetate, după cum există posibilitatea revenirii unei aceleași unități în cadrul aceluiași eșantion.

Avantaje ale utilizării sondajului statistic:

costuri materiale și umane reduse;

programul cercetării este amplu;

sondajul statistic devine absolut necesar când prin cercetarea statistică se distrug unitățile statistice supuse analizei, ca de pildă în controlul statistic al calității producției;

sondajul statistic poate fi utilizat pentru verificarea programului unei observări totale și pentru verificarea și testarea unei ipoteze statistice.

Sondajul statistic implică un grad de incertitudine referitor la cunoașterea situației din colectivitatea generală

Folosirea selecției aleatoare (eșantionarea probabilistă), în care fiecare unitate statistică din colectivitatea generală are șansa calculabilă și diferită de zero să fie selecționată în eșantion, permite calcularea mărimii erorii și stabilirea prealabilă a acestei mărimi.

Sondajele pot fi repetate sau nerepetate, după cum există posibilitatea revenirii unei aceleași unități în cadrul aceluiași eșantion.

Pentru populațiile de volum foarte mare, considerate populații infinite, deosebirea dintre sondajul repetat și sondajul nerepetat dispare.

Procedee de selecție

Procedeul „urnei cu bile”

Dacă selecția se face cu revenire eșantionul se numește eșantion aleator repetat.

La fiecare extragere, probabilitatea ca o unitate să fie extrasă este , iar după ultima extragere, în baza de seleție rămân unități statistice. Numărul eșantioanelor distincte, de volum , ce pot fi extrase în sondajul cu revenire este .

Dacă selecția se face fără revenire eșantionul se numește eșantion aleator nerepetat.

După extragerea primei unități în baza de selecție rămân unități, după a doua extragere unități, astfel încât după ultima extragere, în urnă rămân unități statistice.

Numărul eșantioanelor distincte, de volum n, ce pot fi extrase în sondajul aleator simplu fără revenire este .

Procedeul mecanic

Procedeul mecanic de selecție a eșantionului presupune prelevarea unităților din colectivitatea generală după un interval predeterminat, denumit frecvent pas de numărare aplicat bazei de sondaj.

Pasul de numărare se calculează după formula; de exemplu, pentru a selecta 50 de unități dintr-o colectivitate generală de 1000 unități, se va alege tot a 20-a unitate.

Asigurarea caracterului aleator al eșantionului este dependentă de caracterul întâmplător al includerii unităților colectivității generale în baza de sondaj, după un criteriu ce nu are legătură cu cercetarea efectuată.

Numărul inițial de la care se începe citirea se alege aleator între și , după care se selectează tot a-a unitate, până la completarea eșantionului de n unități statistice.

Ancheta statistică

Ancheta statistică este o metodă de observare parțială, cu caracter mai mult ocazional.

Este asemănătoare sondajului statistic, însă diferă de acesta prin:

neobligativitatea îndeplinirii condiției de reprezentativitate a eșantionului;

admiterea unei rate mai mari a non-răspunsurilor la formularele înmânate direct, telefonic, prin e-mail sau prin poștă, întrucât completarea chestionarelor este benevolă.

Ancheta statistică va conduce, din aceste motive, la erori mai mari decât sondajul statistic.

În cazul sondajului statistic, neobținerea datelor solicitate de la unitățile incluse în eșantion (persoane, de regulă), din diferite motive, precum: nu cunosc limba oficială, și-au schimbat domiciliul, nu sunt acasă atunci când sunt căutați, refuză să coopereze etc. – pot duce la afectarea reprezentativității eșantionului.

O categorie deosebit de întâlnită a anchetelor statistice o formează anchetele de opinie, ce au drept scop studierea preferințelor, atitudinii oamenilor față de diferite probleme (anchete în sfera sociologiei, marketingului, politicii, culturii etc.).

Alte metode de observare statistică.

Panelul

Panelul este o metodă de observare parțială, realizată pe baza unui eșantion fix, stabil, format din aceleași unități care răspund la aceleași întrebări, la mai multe momente succesive, diferite de timp. În acest fel cercetarea se concentrează pe identificarea, pe determinarea modificărilor survenite de-a lungul timpului asupra fenomenului studiat.

Această metodă prezintă însă, și unele dezavantaje, precum:

respondenții se implică, treptat, în cercetare și, știindu-se vizați, sub observație, și-ar putea schimba comportamentul și răspunsurile lor ar putea fi influențate;

odată cu trecerea timpului, o parte dintre respondenți părăsesc panelul (mortalitate), iar cei rămași sunt mai puțin reprezentativi în populația totală.

Observarea părții principale (metoda masivului principal de date)

Este o metodă de observare parțială, special organizată (cu caracter ocazional), ce presupune formarea unui eșantion nereprezentativ, prin selectarea, dintr-o populație împărțită pe grupe de importanță diferită, a unităților mai semnificative. Înregistrând și prelucrând datele de la unitățile incluse în masivul principal de date se pot estima suficient de corect valorile unor indicatori pentru întreaga colectivitate statistică.

Monografia

Este o metodă de observare parțială, special organizată, care presupune caracterizarea detaliată, sub multiple aspecte, ale unei singure unități statistice complexe (se elaborează monografia unui unei întreprinderi, a unui județ, a unei localități etc.).

Monografia include, pe lângă culegerea și înregistrarea datelor și aspecte legate de prelucrarea lor și de analiză și intepretare a rezultatelor, toate cele trei etape ale investigației statistice putând fi realizate de o echipă complexă de specialiști.

Erori de observare

Orice măsurare statistică conține erori!

Eroarea reprezintă diferența dintre rezultatul obținut prin înregistrare și mărimea reală a caracteristicilor observate și se poate determina în expresie absolută sau relativă.

Erorile pot fi de înregistrare și de calcul.

Clasificarea erorilor:

erori de observare statistică;

erori sistematice;

erori întâmplătoare;

erori grosiere (greșeli);

erori de prelucrare;

erori de reprezentativitate;

erori de modelare.

Erori de observare (sau de înregistrare)

Apar în etapa de observare statistică și sunt definite ca diferențele care apar între valorile reale ale caracteristicilor urmărite (studiate) și cele înregistrate (culese).

Erori sistematice

rezultă din acțiunea unui factor ce determină devierea variabilei studiate întotdeauna în același sens;

surse de astfel de erori: încălcarea regulilor de delimitare a colectivității, a unității statistice, de construire a chestionarelor, de selecție a eșantionului;

distorsiunile pot fi introduse de răspunsuri incorecte ale persoanelor anchetate din motive psihologice, economice etc.

Erori întâmplătoare

se produc în ambele sensuri și diferă ca mărime;

influențele lor se compenseză reciproc pe total și nu afectează rezultatele;

sunt generate de cauze obiective și nu pot fi evitate ci doar minimizate.

Erori grosiere

sunt cauzate de lipsa de experiență, incompetență etc.

trebuie depistate și eliminate.

Erori de reprezentativitate

Se întâlnesc în cazul utilizării sondajului statistic, atunci când selectarea unităților în eșantion nu se face în mod aleator, ci după un criteriu subiectiv, preferențial și, la rândul lor, se împart în sistematice și aleatoare.

Aceste erori nu pot fi eliminate în totalitate, dar pot fi diminuate și controlate.

Erori de prelucrare

Apar în etapa de prelucrare a datelor statistice, datorită utilizării greșite a unor metodolgii – erori metodologice, (reprezentarea datelor statistice cu ajutorul unor tipuri neadecvate de grafice, gruparea sau clasificarea greșită, utilizarea unor formule de calcul nepotrivite, care vor duce la obținerea unor rezultate eronate etc.), utilizarea greșită a unor modele statistice (erori de modelare – apar în procesul de elaborare, de alegerea greșită a modelelor).

Pentru obținerea unor rezultate corecte ale cercetării, este bine ca după fiecare etapă a investigației statistice, datele statistice să fie supuse unor operații de control, în vederea identificării și eliminării (sau măcar a minimizării) unor eventuale erori. În etapa de observare, se poate aplica asupra datelor culese un control cantitativ și calitativ.

Controlul cantitativ al datelor presupune verificarea completitudinii datelor culese și înregistrate, prin:

verificarea primirii tuturor chestionarelor la centrul de prelucrare;

verificarea completării tuturor rubricilor din chestionare.

Controlul calitativ al datelor se referă la asigurarea unui nivel calitativ corespunzător al datelor culese. Poate îmbrăca două forme:

controlul aritmetic, care presupune aplicarea prin sondaj, a unor relații de calcul între diferiții indicatori înscriși în chestionare, de tipul egalităților de balanță sau a altor chei de verificare;

controlul logic presupune verificarea corectitudinii datelor înregistrate pe baza unor legături, identități logice între mai multe valori ale aceleiași caracteristici sau între valorile unor caracteristici diferite.

Sistematizarea datelor statistice (gruparea/clasificarea)

Datele statistice sunt supuse unor operații de prezentare sistematică, de organizare, de ordonare după unul sau mai multe criterii, într-un cuvânt de sistematizare.

Sistematizarea datelor statistice cuprinde operațiile de prezentare sistematică, de organizare, de ordonare a acestor date după unul sau mai multe criterii.

Sistematizarea este parte a prelucrării primare a datelor statistice.

Sistematizarea datelor se realizează prin gruparea (variabile numerice) și clasificarea datelor statistice (variabile nenumerice).

Gruparea/clasificarea datelor statistice presupune împărțirea unităților populației statistice observate în grupe sau clase distincte omogene, după unul sau mai multe criterii.

Gruparea datelor trebuie să se facă după principiile:

omogenitate – în sensul că unitățile statistice care au aceeași valoare sau valori apropiate ale caracteristicii după care se efectuează sistematizarea vor fi incluse în aceeași clasă; în felul acesta, se dorește ca variația valorilor caracteristicii incluse în aceeași grupă/clasă să fie cât mai mică;

unicitate – în sensul că o unitate statistică trebuie inclusă într-o singură clasă sau grupă, ea nu se poate regăsi simultan în două sau mai multe clase/grupe;

completitudine – în sensul că toate unitățile statistice să fie incluse în grupe/clase, să nu fie exclusă vreo unitate din operația de sistematizare.

Clasificarea datelor statistice

Sistematizarea datelor efectuată după o variabilă ne-numerică se numește clasificare. Ea presupune împărțirea unităților în clasele/categoriile variabilei nenumerice considerate.

Se construiește un număr de clase egal cu numărul categoriilor existente, iar prin numărarea unităților statistice incluse în fiecare clasă obținem frecvența acelei clase.

În cazul în care datele sunt sistematizate după o variabilă nominală, ordinea claselor este lăsată la îndemâna cercetătorului.

Exemplul 14

Distribuția studenților unei grupe după calificativul obținut la un proiect este:

Clasificarea datelor statistice

Gruparea reprezintă sistematizarea datelor după o variabilă (caracteristică) numerică.

În funcție de tipul variabilei de grupare (discretă sau continuă) și de plaja valorilor pe care le poate lua caracteristica, grup area se poate face pe variante sau pe intervale de variație.

Gruparea datelor statistice pe variante

Se realizează atunci când grupăm datele după o variabilă discretă sau când plaja valorilor pe care le poate lua caracteristica nu este foarte mare – maxim 10.

În acest caz, se va forma un număr de grupe egal cu numărul de variante. Prin numărarea unităților incluse în fiecare grupă se obține frecvența grupei, numită și frecvență absolută.

Exemplul 15

Pentru 20 de familii s-a înregistrat numărul de copii: 1, 2, 3, 0, 2, 0, 1, 2, 1, 3, 2, 2, 0, 2, 1, 3, 1, 2, 4, 2. Să se realiezeze o sistematizare a datelor.

Observăm că variabila de grupare este numărul de copii, variabilă discretă cu puține variante (cinci variante), deci s-a realizat o grupare pe variante.

Gruparea pe intervale de variație

Gruparea pe intervale de variație o realizăm atunci când sistematizăm datele după o variabilă continuă, care are o plajă largă de valori. Se poate efectua pe intervale de mărime egală sau diferită.

se determină amplitudinea variației caracteristicii, ca diferență între valoarea maximă și valoarea minimă a caracteristicii:

se stabilește numărul de grupe. În acest caz pot exista două situații:

numărul de grupe (r) este prestabilit;

numărul de grupe (r) nu este prestabilit; în acest caz, dacă unitățile se repartizează aproximati normal după caracteristica studiată, se poate utiliza pentru determinarea numărul de grupe relația lui Sturges:

, unde n este numărul total de unități ale colectivității.

se determină mărimea intervalului de grupare (h), ca raport între amplitudinea caracteristicii și numărul de grupe:

;

se formează intervalele de grupare, prin precizarea limitelor exacte ale acestora.

……………………………….……

Limitele intervalelor vor avea același grad de precizie ca și datele grupate (același număr de zecimale), primul interval putând începe chiar de la valoarea minimă a caracteristicii, sau de la o valoare ușor inferioară acesteia, aleasă în mod convenabil. Este Pentru a fi respectată condiția de unicitate este bine să nu existe suprapuneri la limitele intervalelor.

Exemplul 16

În vederea analizei oportunității deschiderii unui magazin ce vinde aparatură electrocasnică, un analist financiar este interesat în cunoașterea nivelului vânzărilor zilnice ale magazinelor de profil.

Pentru 50 de astfel de magazine alese întâmplător, înregistrează valoarea facturilor emise zilnic. Datele sunt următoarele (mii lei):

Să se sistematizeze datele, grupându-se pe intervale egale de variație.

Rezolvare

Se notează cu X – caracteristica de grupare (valoarea facturilor emise zilnic).

se calculează amplitudinea variației caracteristicii (Ax):

Ax = xmax – xmin =11,7–5,2=6,5 mii lei;

se stabilește numărul de grupe (r):

r=1+3,32 lg (50)=6,64~7 (formula lui Sturges);

se stabilește mărimea intervalului de grupare (h): h = Ax/r =6,5/7~1 mii lei;

se stabilesc intervalele de variație și se efectuează gruparea;

Varianta I Varianta II

Varianta III

Se recomandă utilizarea intervalelor continue (varianta I sau varianta II).

Modalități de prezentare și reprezentare a datelor statistice

Serii statistice

Seriile statistice se pot clasifica după următoarele criterii:

Seria statistică reprezintă un mod organizat de prezentare a datelor, sub forma a două șiruri: primul se referă la criteriul de sistematizare iar al doilea cuprinde datele numerice sau frecvențele de apariție și depinde de ordinea de apariție din primul șir.

în funcție de conținutul variabilei după care se face sistematizarea:

serii cronologice (se referă la o variabilă de timp);

serii teritoriale (se referă la o variabilă de spațiu);

serii de distribuție de frecvențe (sau repartiții de frecvențe, care se referă la o variabilă atributivă).

după natura variabilei:

distribuții heterograde (după o variabilă cantitativă);

distribuții homograde (după o variabilă calitativă);

după numărul variantelor:

distribuții pe variante sau valori;

distribuții pe grupe de variante (în cazul distribuțiilor homograde) sau pe intervale de valori (în cazul distribuțiilor heterograde).

în funcție de numărul variabilelor după care se face sistematizarea:

distribuții de frecvențe unidimensionale (când sistematizarea datelor s-a efectuat după o singură variabilă);

distribuții de frecvențe bidimensionale (când sistematizarea datelor s-a efectuat în funcție de două variabile);

distribuții multidimensionale (când sistematizarea datelor s-a efectuat în funcție de trei sau mai multe variabile);

Serii de distribuție de frecvențe (repartiții de frecvențe)

Serii de distribuție de frecvențe unidimensionale

Seria de distribuție de frecvențe unidimensională reprezintă o serie în care primul șir cuprinde variantele/valorile sau intervalele de variație ale unei variabile, iar al doilea șir – frecvențele de apariție ale variantelor sau volumul grupelor.

A1. Distribuții heterograde (după o variabilă numerică)

Se pot reprezenta sub forma:

pentru o caracteristică discretă (repartiții de frecvențe pe variante/valori):

,

unde ni () sunt frecvențele de apariție ale variantei xi.

pentru o caracteristică continuă (repartiție de frecvențe pe intervale de valori):

sau

unde xi , sunt centrele intervelor de variație.

Serii de repartiție de frecvențe pe intervale de variație

Se prezintă sub forma:

unde: reprezintă limita inferioară, respectiv superioară, a intervalului de variație „i”.

Vom considera doar cazul intervalelor egale și continue.

Centrul intervalului este determinat ca medie aritmetică simplă a limitelor intervalului și este considerat reprezentativ pentru datele din acel interval. Se determină cu una din relațiile:

sau , unde hi este mărimea intervalului.

Frecvența absolută a grupei (ni) este egală cu numărul de unități statistice care au valoarea caracteristicii mai mare (sau egală) cu limita inferioară a intervalului și mai mică (sau egală) cu limita superioară a acesteia. Suma frecvențelor absolute este notată cu n și reprezintă numărul total de unități sau volumul eșantionului.

Frecvența relativă a unei grupe () reprezintă ponderea unităților statistice în volumul total al colectivității care au valoarea caracteristicii cuprinsă între limita inferioară și cea superioară a grupei respective. Se determină ca raport între frecvența absolută a grupei și volumul eșantionului (eventual înmulțit cu 100).

și se exprimă în coeficienți,

sau

și se exprimă în procente.

Suma frecvențelor relative este 1 sau 100, după cum sunt exprimate în coeficienți sau în procente.

sau

Frecvențele cumulate

Sunt de două tipuri: cumulate crescător și cumulate descrescător.

Frecvența absolută cumulată crescător a unei grupe este egală cu numărul unităților care au valoarea variabilei mai mică (sau egală) cu limita superioară a grupei (mai exact între și ).

Frecvența absolută cumulată crescător a ultimei grupe este egală cu volumul colectivității (cu n).

Frecvența absolută cumulată descrescător a unei grupe este egală cu numărul unităților pentru care valoarea caracteristicii este mai mare (sau egală) cu limita inferioară a grupei (mai exact între și ):

Frecvența absolută cumulată descrescător a primei grupe este egală cu numărul total de unități statistice (cu n):

Asemănător se determină și frecvențele relative cumulate crescător și descrescător, conform relațiilor:

,

Frecvențele absolute, relative și cumulate oferă o imagine de ansamblu asupra tendinței de distribuție a valorilor în colectivitate, asupra normalității, simetriei ori asimetriei repartiției de frecvențe.

Serii de repartiție de frecvențe pe variante (discrete)

Se prezintă astfel:

unde: ni reprezintă numărul unităților care prezintă valoarea xi a caracteristicii de grupare (se mai numesc frecvențe absolute);

Prin însumarea frecvențelor grupelor (ni) se obține volumul total al colectivității (n).

Și pentru această serie se determină toate tipurile de frecvențe prezentate anterior.

A2. Distribuții homograde (după o variabilă nenumerică)

Și pentru distribuțiile homograde, în care sistematizarea datelor este realizată după o variabilă calitativă, se pot calcula frecvențe absolute și relative (vezi exemplul 1).

Dacă sistematizarea s-a efectuat după o variabilă ordinală, se pot calcula și frecvențe cumulate.

Serii de distribuție de frecvențe bidimensionale

Forma generală a unei distribuții de frecvențe bidimensionale, în care s-au luat în considerare două variabile statistice X și Y este prezentată în tabelul următor.

Distribuția de frecvențe bidimensională

Tabelul de mai sus reprezintă un tabel de corelație, în care avem:

xi, este varianta sau centrul de interval pentru grupa „i”, formată după valorile variabilei X;

yj, este varianta sau centrul de interval al grupei „j”, formată după valorile variabilei Y;

nij, ; reprezintă numărul unităților statistice la care întâlnim simultan valoarea xi a caracteristicii X și valoarea yj a caracteristicii Y;

este numărul de unități statistice care au valoarea xi a caracteristicii X, indiferent de valoarea caracteristicii Y;

este numărul de unități statistice care au valoarea yj a caracteristicii Y, indiferent de valoarea caracteristicii X;

este volumul total al colectivității.

Tabele statistice

Tabelul statistic cuprinde una sau mai multe serii statistice, ai căror termeni sunt înscriși într-o rețea de linii și coloane.

Pentru ca un tabel statistic să fie corect elaborat și să-și atingă scopul, trebuie să conțină un set de elemente obligatorii sau opționale și să respecte unele reguli:

titlul tabelului este un element obligatoriu plasat înaintea tabelului, care descrie clar și concis conținutul datelor pe care le cuprinde;

macheta tabelului este o rețea de linii ce alcătuiesc rubricile tabelului;

subiectul tabelului este format din populația la care se referă datele înscrise în tabel;

predicatul tabelului este format din sistemul de indicatori redați în tabel;

rubricile tabelului sunt spațiile create la întretăierea liniilor orizontale cu cele verticale, în care sunt înscrise datele;

datele statistice înscrise în tabel pot fi sub formă numerică sau textuală;

unitatea de măsură trebuie precizată pentru fiecare din indicatorii înscriși în tabel (dacă toți indicatorii sunt exprimați în aceeași unitate de măsură, atunci aceasta se poate trece deasupra tabelului);

sursa datelor;

numărul tabelului – este necesar mai ales atunci când se folosesc mai multe tabele;

note explicative, metodologice.

Grafice statistice

Alegerea tipului de grafic depinde de tipologia datelor pe care vrem să le reprezentăm. Astfel, putem utiliza:

grafice într-un sistem de coordonate;

grafice cu ajutorul unor figuri geometrice;

grafice cu ajutorul hărțior sau al altor figuri naturale sau simbolice.

Pentru ca un grafic să-și atingă scopul pentru care a fost proiectat, el trebuie să fie corect întocmit, să respecte anumite reguli generale, să cuprindă o serie de elemente obligatorii sau opționale și anume:

titlul graficului;

sistemul de coordonate;

scara de reprezentare;

rețeaua graficului;

legenda;

note explicative, sursa datelor etc.

Tipuri de reprezentări grafice utilizate în cazul seriilor de distribuție de frecvențe

Histograma

Histograma conține o succesiune de dreptunghiuri, cu bazele corespunzătoare lungimii in-tervalelor și înălțimile egale cu numărul de observații din fiecare interval (sau cu ponderea lor). Dacă intervalele au mărime egală, atunci și coloanele vor avea lățime egală.

Permite vizualizarea distribuției de frecvențe absolute sau relative, după o variabilă numerică continuă (pe intervale).

Poligonul frecvențelor

Poligonul frecvențelor este și el utilizat pentru reprezentarea grafică a distribuțiilor de frecvențe absolute sau relative, atunci când sistematizarea datelor s-a făcut după o caracteristică numerică continuă sau discontinuă. Pentru construirea lui, din fiecare valoare a caracteristicii sau din fiecare centru de interval se ridică câte o perpendiculară și se marchează pe ea punctul aflat la o distanță egală cu frecvența variantei sau intervalului respectiv. Unind toate punctele astfel găsite rezultă un poligon numit „poligonul frecvențelor”.

Poligonul frecvențelor se poate suprapune peste histogramă în cadrul aceluiași grafic, sau se poate trasa într-un grafic separat.

Curbele frecvențelor cumulate

Curbele frecvențelor cumulate (ogivele), numite și „curbele cumulative ale frecvențelor” se trasează atât pentru distribuții de frecvențe absolute, cât și pentru distribuții de frecvențe relative.

În cazul distribuțiilor de frecvențe după o variabilă continuă:

reprezentarea grafică a frecvențelor cumulate crescător: pe axa Ox se reprezintă limitele superioare ale intervalelor, iar pe axa Oy – frecvențele cumulate crescător; prin unirea punctelor astfel obținute se trasează o curbă ascendentă;

reprezentarea grafică a frecvențelor cumulate descrescător: pe axa Ox se reprezintă limitele inferioare ale intervalelor, iar pe axa Oy – frecvențele cumulate descrescător; prin unirea punctelor astfel obținute se trasează o curbă descendentă.

În cazul distribuțiilor de frecvențe după o variabilă discretă reprezentarea grafică a frecvențelor cumulate crescător va avea, de această dată, aspectul unei scări (nici o unitate statistică nu poate avea valoarea caracteristicii situată între variantele stabilite).

Graficul (diagrama) prin coloane sau benzi (bare)

Este folosit pentru reprezentarea distribuțiilor de frecvențe absolute sau relative, în care sistematizarea s-a făcut după o variabilă categorială, calitativă, măsurată pe scală nominală.

Graficul se trasează în sistemul de axe ortogonale Ox și Oy, pe Ox se reprezintă categoriile variabilei calitative, iar pe Oy frecvențele sau nivelul indicatorului.

Graficul constă dintr-o succesiune de coloane de lățime egală, câte o coloană pentru fiecare categorie/variantă a variabilei nominale, egal distanțate între ele și cu înălțimea proporțională cu frecvențele sau nivelul indicatorului corespunzător categoriei respective.

Dacă dreptunghiurile sunt răsturnate cu 90% (și au baza situată pe axa verticală) atunci reprezentarea grafică este o diagramă prin benzi, cu axele inversate față de diagrama prin coloane.

Diagrama de structură

Diagrama de structură este folosită pentru a reprezenta grafic structura unei colectivități, sistematizate după valorile unei variabile cantitative sau calitative.

Graficul arată, așadar, modul în care întregul se subdivide în părți componente.

De obicei, diagrama se trasează cu ajutorul cercului, a cărui arie reprezintă întregul; acesta se împarte în mai multe bucăți („felii”), unghiul la centru corespunzător acestei părți de cerc este proporțional cu raportul dintre frecvența absolută și volumul total al colectivității (adică cu frecvența relativă) a acelei clase/grupe.

Noțiuni generale privind indicatorii tendinței centrale

Indicatorul statistic reprezintă expresia numerică concretă sau dimensiunea unei colectivități sau fenomen. Poate fi definit ca „rezultat numeric al unei numărări, al unei măsuri statistice a fenomenelor și proceselor de masă sau al unui model de calcul statistic pe baza datelor înregistrate”.

Pentru o variabilă numerică, folosind indicatorii statistici, putem analiza trei proprietăți majore:

tendința centrală

variabilitatea

forma distribuției

după modul de determinare distingem:

indicatorii primari – se obțin în etapa de sistematizare a datelor statistice prin centralizarea acestora.

indicatori derivați – reprezintă rezultatul prelucrării indicatorilor primari prin diferite modele de calcul statistic.

după gradul de cuprindere se disting:

indicatori sintetici – reprezintă expresii numerice ale categoriilor economice de sinteză ce caracterizează rezultatele economice la nivel macroeconomic.

indicatorii analitici – exprimă structura unei colectivități și influența factorilor care acționează asupra acesteia

după forma de exprimare se disting:

indicatori exprimați în mărimi absolute adică în unități concrete de măsură aceleași cu ale caracteristicii analizate și cu același conținut ca și caracteristica analizată.

indicatori exprimați sub formă de mărimi relative adică exprimați în coeficienți, procente, promile, prodecimile, etc. și care s-au obținut prin raportarea a doi indicatori cu același conținut sau cu conținut diferit, dar aflați în relație de interdependență.

indicatorii fundamentali ai tendinței centrale sunt:

media aritmetică ()

mediana ()

modul ()

Cuvântul “medie” este prezent în conversațiile persoanelor aproape în fiecare zi, folosindu-se în expresii ca: “durata medie de viață a oamenilor”, “durata medie de funcționare a unei baterii”, “greutatea medie a pachetelor de zahăr”.

Media este o valoare tipică sau centrală a unei distribuții.

Mărimile medii utilizate în analiza seriilor de distribuție de frecvențe sunt:

media aritmetică ;

media armonică ;

media pătratică ;

media geometrică

Media aritmetică

Media se calculează însumând toate valorile individuale și împărțind suma la numărul lor, ea reprezentând acea valoare care înlocuind toți termenii unei serii nu modifică nivelul lor totalizator.

;

– valorile individuale ale caracteristicii;

– numărul unităților;

– valoarea centralizată (nivelul totalizat) al caracteristicii.

Într-o colectivitate statistică se întâlnesc foarte rar cazuri în care numărul valorilor caracteristicii coincide cu numărul unităților. În general se înregistrează de mai multe ori aceeași valoare a caracteristicii pentru mai multe unități și în acest caz media se va calcula ca o medie aritmetică ponderată:

;

– valorile individuale ale caracteristicii;

– numărul de intervale (grupele);

– valoarea centralizată (nivelul totalizat) al caracteristicii.

Dacă există o serie de distribuție de frecvențe pe intervale, atunci xi reprezintă centrul de interval.

Proprietăți

Dacă pentru toate unitățile se înregistrează aceeași valoare a caracteristicii atunci media este egală cu acea valoare:

x1 = x2 = … = xn = x

;

Media aritmetică are întotdeauna valoare cuprinsă între valoarea minimă a caracteristicii (xmin) și valoarea maximă (xmax):

În cazul seriilor de distribuție pe intervale, media este cuprinsă între limita inferioară a primului interval și limita superioară a ultimului interval.

Suma abaterilor valorilor individuale ale caracteristicii de la media lor este nulă, adică distanțele față de centru se compensează reciproc:

pentru seria simplă:

0;

pentru seria de frecvențe:

0;

În cazul seriilor de frecvență, media oscilează în jurul termenului căruia îi corespunde frecvența maximă;

Dacă toți termenii unei serii statistice se măresc sau se micșorează cu o constantă “a”, atunci și media se va mări sau se va micșora cu respectiva constantă “a”:

Dacă toți termenii unei serii statistice se înmulțesc sau se împart cu o constantă “h”, atunci și media se va multiplica sau se va reduce de “h” ori:

Dacă frecvențele unei serii de repartiție se multiplică sau se împart cu o constantă “a”, atunci media nu se va modifica.

Media aritmetică este sensibilă la valorile extreme, care pot afecta semnificația și reprezentativitatea mediei ca valoare centrală. Pentru ca media să fie reprezentativă trebuie ca datele din care se calculează să fie cât mai omogene;

Media generală calculată pentru o serie de repartiție de frecvență corespunzătoare colectivității generale este egală cu media aritmetică ponderată a mediilor parțiale calculate pe baza seriilor de repartiție componente:

= media seriei de repartiție componentă j;

nj = volumul seriei componente j.

Media aritmetică calculată pentru o serie simplă și media aritmetică calculată pentru aceeași serie cu datele grupate pe intervale (utilizând centrul de interval), pot să fie sau nu egale. Cele două medii sunt egale dacă frecvențele din seria de repartiție de frecvențe sunt normal distribuite pe fiecare interval.

Pentru o variabilă alternativă (binară) media aritmetică se calculează astfel:

!!! Media caracteristicii alternative (binare) are caracter de greutate specifică sau pondere.

!!! Media caracteristicii alternative se exprimă în coeficienți, deci nu are unitatea de măsură a caracteristicii.

Media armonică

Media armonică se calculează împărțind frecvența absolută totală (numărul total al unităților) la suma inverselor valorilor caracteristicii:

media armonică simplă:

, pentru o serie simplă;

media armonică ponderată:

, pentru o serie pe frecvențe;

Dacă între două variabile interdependente există o relație de inversă proporționalitate, această relație se păstrează și în cazul mediilor calculate.

!!! Dacă pentru calculul uneia se folosește media aritmetică pentru calculul celeilalte se va folosi în mod obligatoriu media armonică.

Media aritmetică poate fi substituită de media armonică ponderată care folosește drept ponderi xini:media armonică simplă:

;

Această relație se folosește la calculul indicelui mediu de grup al prețurilor dacă nu avem informații privind cantitatea de mărfuri, ci doar informații privind valoarea și prețurile.

Media geometrică

Media geometrică se bazează pe relația de produs între termenii seriei:

pentru o serie simplă:

pentru o serie de frecvențe:

Pentru a putea fi calculate cele două medii trebuie să se logaritmeze relațiile:

S-au obținut mediile aritmetice ale logaritmilor termenilor seriei.

Media geometrică are o valoare mai mică decât media aritmetică și nu se poate calcula dacă un termen al seriei este negativ sau egal cu zero.

Media geometrică se utilizează în cazul seriilor de distribuție atunci când termenii seriei prezintă diferențe mari între ei sau seria prezintă o asimetrie pronunțată.

Prin logaritmare abaterile dintre termeni se micșorează.

2.4 Media pătratică

Media pătratică se calculează ca radical din media aritmetică a pătratelor termenilor seriei:

pentru o serie simplă:

;

pentru o serie de frecvențe:

Media pătratică se utilizează în cazul în care într-o serie de repartiție predomină valorile mari ale caracteristicilor sau dacă dorim să le acordăm acestora o importanță mai mare.

Cuantilele

Cuantilele (percentile, în engl.) reprezintă niveluri ale variabilei care caracterizează poziția relativă a unui nivel individual în setul de date.

Cuantilele au aceeași unitate de măsură ca și caracteristica studiată.

Cuantilele realizează o divizare a distribuției într-un număr de „k” părți egale.

Cuantilele pot fi folosite pentru a analiza forma distribuției

În caracterizarea unui set de date, cele mai uzuale cuantile sunt:

Cuantila de ordin 2 ( mediana ).

Cuantilele de ordin 4 (cuartile, notate , care împart seria în patru părți egale, delimitând câte 25% din observații, ).

Cuantilele de ordin 10 (decile, notate , …., și care delimitează câte 10% din observații, = Me).

Cuantilele de ordin 100 (centile, care delimitează câte 1% din observații).

Cuantilele de ordin mai mare decât 2 se folosesc în cazul seturilor de date de volum mare .

Mediana

Mediana face parte din categoria cuantilelor alături de quartile, decile.

Cuvântul mediană provine din cuvântul latin “medius” care înseamnă “mijloc”.

Mediana reprezintă acea valoare a unei serii ordonate crescător sau descrescător care împarte seria în două părți egale, așa încât 50% din termenii seriei au valori mai mici decât mediana, iar 50% mai mari decât mediana.

Un avantaj al medianei față de medie este acela că poate fi utilizată în caracterizarea tendinței centrale pentru o serie de date măsurate pe o scară ordinală.

Mediana ia în considerație doar poziția termenilor în serie, nu și mărimea acestor valori, deci mediana nu este supusă influenței valorilor foarte mari sau foarte mici care sunt lăsate în afara seriei.

Calculul medianei:

pentru o serie simplă (pentru date negrupate):

seria are un număr impar de termeni – atunci mediana este egală cu termenul central al seriei ordonate crescător sau descrescător.

Se cunoaște următorul set de valori ale unei caracteristici:

5 7 4 9 12 3 10

Ordonăm seria crescător:

3 4 5 7 9 10 12

Me

Pentru date ordinale mediana este varianta situată în centrul seriei.

seria are un număr par de termeni, atunci mediana este egală cu media aritmetică simplă a celor 2 termeni centrali ai seriei ordonate crescător sau descrescător.

Fie următorul set de valori:

3 1 5 7 9 4

1 3 4 5 7 9

Pentru un șir de date ordinale format din număr par de termeni, mediana este egală cu una din cele două variante din centrul seriei dacă aceste variante sunt egale, iar dacă variantele nu sunt egale mediana ia 2 valori deoarece nu se poate face media lor.

Pentru o serie de distribuție de frecvențe pe variante calculul medianei comportă următoarele etape:

Etapa 1: se determină locul medianei în cadrul seriei:

Etapa 2: se cumulează crescător frecvențele absolute și se determină acea frecvență cumulată crescător care este imediat mai mare sau egală cu locul medianei (LMe). Varianta care corespunde frecvenței absolute cumulate ce îndeplinește condiția de mai sus este mediana.

Pentru o serie de frecvențe pe intervale de variație, mediana se poate determina numai în ipoteza în care valorile sunt distribuite uniform în cadrul intervalului de grupare.

Etapa 1: se determină locul medianei în cadrul seriei:

Etapa 2: se cumulează crescător frecvențele absolute și se determină acea frecvență cumulată crescător care este imediat mai mare sau egală cu LMe. Intervalul care corespunde frecvenței absolute cumulate ce îndeplinește condiția de mai sus este intervalul median.

Etapa 3: se calculează mediana cu relația:

x0 = limita inferioară a intervalului median;

h = mărimea intervalului median;

npMe = suma frecvențelor absolute până la intervalul median;

nMe = frecvența absolută a intervalului median.

Mediana poate fi determinată și pentru variabilele nenumerice măsurate pe scala ordinală.

Pentru o variabilă nenumerică, determinarea medianei este mai ușoară dacă datele sunt sistematizate

Se parcurg următorii pași:

calcularea frecvențelor cumulate crescător, (Fci);

determinarea locului medianei cu formula (n+1)/2;

determinarea Me ca fiind valoarea (varianta) corespunzătoare primei frecvențe cumulate mai mare decât (n+1)/2.

Modulul

Modul (dominanta unei serii) este valoarea cea mai des întâlnită sau căreia îi corespunde cea mai mare frecvență de apariție.

Calculul algebric al modului:

pentru o serie simplă: reprezintă valoarea cel mai des întâlnită.

pentru o serie de distribuție pe variante, modul este egal cu varianta căreia îi corespunde frecvența absolută sau relativă maximă.

pentru o serie de distribuție de frecvențe pe intervale de variație modul se calculează cu relația:

x0 = limita inferioară a intervalului modal;

h = mărimea intervalului modal;

1 = diferența dintre frecvența intervalului modal și a celui anterior;

2 = diferența dintre frecvența intervalului modal și a celui următor.

Intervalul modal este intervalul căruia îi corespunde frecvența absolută maximă.

Valoarea modală se poate determina pentru orice tip de variabilă (nenumerică sau numerică), indiferent de scala de măsurare.

Modul este singurul indicator ce poate fi determinat pentru variabilele măsurate pe scala nominală, iar grafic, într-o histogramă ori poligon al frecvențelor, modul reprezintă valoarea de pe abscisă, corespunzătoare vârfului reprezentării.

O serie de date statistice poate să aibă una sau mai multe valori modale. O distribuție cu un singur mod se numește unimodală (a), o distribuție este bimodală (b) dacă are două valori dominante și multimodală (c) dacă are mai mult de două valori modale.

Figura 1 a) distribuție unimodală; b) distribuție bimodală; c) distribuție multimodală

Indicatorii variației și asimetriei

Pentru analiza variabilității unei serii de date numerice se utilizează:

indicatori simpli (măsoară împrăștierea valorilor individuale ale seriei, una față de alta, ori față de o valoare tipică)

indicatori sintetici (utilizati pentru sintetizarea, într-o singură expresie, a împrăștierii tuturor valorilor din seria statistică analizată).

!!! Două serii statistice pot să difere prin tendința centrală, prin împrăștierea datelor sau prin amândouă.

Amplitudinea absolută a variației (Ax)

Ax se determină ca diferență între valoarea maximă (xmax) și valoarea minimă (xmin) a caracteristicii și arată câmpul maxim de împrăștiere a valorilor caracteristicii.

Are unitatea de măsură a valorilor caracteristicii;

Nu poate fi folosită la compararea seriilor după caracteristici exprimate în unități de măsură diferite;

Se utilizează în etapa de grupare a datelor (la construirea intervalelor de variație și la construirea graficelor);

Este foarte sensibilă la valorile extreme: cu cât acestea sunt mai îndepărtate cu atât câmpul de împrăștiere a valorilor este mai mare.

Amplitudinea relativă a variației (Ax (%))

Ax(%) se obține prin raportarea amplitudinii absolute la medie.

Se exprimă în coeficient sau procente, deci pot fi comparate serii după caracteristici exprimate în unități de măsură diferite.

Abaterile individuale absolute

Ne arată împrăștierea fiecărei valori de la valoarea medie:

În practică se utilizează mai mult abaterea absolută maximă și abaterea absolută minimă:

Abaterile individuale absolute se exprimă prin aceeași unitate de măsură ca și caracteristica studiată și pot lua valori negative sau pozitive după cum valoarea individuală este mai mică sau mai mare ca media.

Dacă di în valoare absolută au valori mari putem concluziona că datele sunt împrăștiate, adică există o variație mare în interiorul seriei.

Suma valorilor abaterilor individuale absolute este nulă:

Abaterile individuale absolute

Suma abaterilor maxime și minime luate în modul este egală cu amplitudinea absolută a variației:

Dacă în cazul unei serii, abaterea maximă absolută diferă mult de valoarea abaterii minime absolute luată în modul, atunci pentru seria respectivă trebuie calculați pe lângă indicatorii variației și indicatorii de asimetrie.

Într-o serie simetrică:

2.4 Abaterile individuale relative

Se exprimă în coeficienți sau procente și se calculează raportând abaterile individuale absolute la medie:

Abaterea liniară medie ()

În cazul în care seria de distribuție de frecvențe este pe intervale, atunci xi este centrul intervalului.

Pentru o serie de distribuție de frecvențe relative:

, dacă sunt exprimate în procente;

, dacă sunt exprimate în coeficienți

În locul mediei, pot fi folosiți și alți indicatori ai tendinței centrale.

Dezavantaje ale abaterii medii liniare:

se exprimă în aceeași unitate de măsură ca și caracteristica analizată, deci nu poate fi utilizată la compararea a două sau mai multe serii după caracteristici exprimate în unități de măsură diferite;

nu ține seama de semnul algebric;

nu ține seama de faptul că abaterile mai mari în valoare absolută influențează în mai mare măsură gradul de variație al unei caracteristici comparativ cu abaterile mici.

Abaterea medie liniară, 𝒅, ̅se calculează ca o medie aritmetică simplă (în cazul seriilor simple) sau ponderată (în cazul seriilor de distribuție de frecvențe) a abaterilor termenilor seriei de la media lor în valoare absolută.

Pentru o serie simplă:

Pentru o serie de distribuție de frecvențe absolute:

Dispersia ()

Dispersia se calculează ca medie aritmetică simplă (în cazul seriilor simple) sau ponderată (în cazul seriilor de distribuție de frecvență) a pătratelor abaterilor termenilor seriei de la tendința centrală (cel mai adesea media aritmetică).

Pentru o serie simplă:

Pentru o serie de distribuție de frecvențe absolute:

Pentru o serie de distribuție de frecvențe relative:

, dacă sunt exprimate în procente;

, dacă sunt exprimate în coeficienți

În locul mediei, pot fi folosiți și alți indicatori ai tendinței centrale.

Dacă datele provin din eșantioane de volum redus și le folosim pentru extinderea rezultatelor la nivelul colectivității generale, atunci în calculul dispersiei la numitor se va folosi (n-1) și nu “n” fiind astfel dispersia eșantionului un estimator mai bun al dispersiei în colectivitatea generală:

Dispersia reprezintă dezavantajul că este un indicator abstract care nu are o unitate concretă de măsură.

Ea arată modul în care gravitează termenii seriei în jurul tendinței centrale (de obicei media).

Dacă dispersia unei serii este egală cu 0, atunci acea serie nu prezintă variație, toți termenii ei fiind egali. Cu cât valoarea dispersiei crește față de zero, cu atât împrăștierea termenilor seriei crește și ea.

Este un indicator deosebit de util în studiile statistice, fiind utilizată în calculul asimetriei, excesului, boltirii unei serii, precum și în calculul altor indicatori statistici.

Dispersia caracteristicii alternative este egală cu produsul dintre cele două frecvențe relative.

Abaterea medie pătratică (abatere medie standard sau tip) ()

Abaterea medie pătratică (abatere standard, abatere tip sau ecart tip) se calculează ca o medie pătratică a abaterilor termenilor seriei de la media lor sau ca radical din dispersie.

Abaterea medie pătratică ne arată cu cât în medie se abat termenii unei serii de la tendința centrală (de obicei media):

Pentru o serie simplă:

Pentru o serie de distribuție de frecvențe absolute:

Abaterea medie pătratică are aceeași unitate de măsură cu a caracteristicii studiate, de aici provenind dezavantajul că nu pot fi comparate colectivități după caracteristici exprimate prin unități de măsură diferite.

În cazul unei serii de distribuție de frecvențe simetrică sau ușor asimetrică, adică pentru o serie cu tendință de normalitate între abaterea medie liniară și abaterea medie pătratică există relația:

Abaterea medie pătratică este un indicator care ne oferă informații privind modul de împrăștiere a termenilor unei serii cu tendință de normalitate. O regulă empirică spune:

68,37% din termenii unei serii se situează în intervalul ;

98,45% din termenii unei serii se situează în intervalul ;

99,73% din termenii unei serii se situează în intervalul ;

99,94% din termeni se găsesc în intervalul

Abaterea medie pătratică este un indicator deosebit de util la estimarea erorilor de selecție, la calcule de corelație precum și la orice comparație statistică în timp și spațiu.

Coeficientul de variație ()

Coeficientul de variație este cel mai utilizat și mai semnificativ indicator pentru analiza variației. Se calculează ca raport între abaterea medie pătratică sau liniară și medie.

sau ;

Coeficientul de variație se exprimă procentual, deci putem aprecia că el reprezintă exprimarea relativă a lui sau a lui .

seria este perfect omogenă, toți termenii seriei sunt egali între ei și sunt egali cu media: în acest caz nu există variație.

seria este foarte omogenă, variația este foarte mică, media este foarte reprezentativă, iar gruparea a fost foarte bine executată (în cazul seriilor de distribuție de frecvențe).

seria este omogenă.

seria este eterogenă, variația este foarte mare, media nu este reprezentativă, iar gruparea trebuie refăcută.

Indicatorii de asimetrie

Asimetria unei serii de distribuție empirice poate fi determinată atât prin metoda grafică cât și prin calculul indicatorilor de asimetrie.

Reprezentarea grafică cea mai utilizată pentru aprecierea asimetriei este poligonul frecvențelor, dar graficul ne oferă doar o imagine sugestivă asupra gradului de asimetrie, fără a putea să-l măsoare printr-o valoare exactă.

Pentru distribuții moderat asimetrice, între , Me, Mo există următoarea relație:

Indicatorii asimetriei sunt:

– asimetrie absolută:

sau

Acești indicatori au unitatea de măsură a caracteristicii analizate, deci prezintă dezavantajul că nu pot fi comparate din punct de vedere al asimetriei serii după caracteristici exprimate prin unități de măsură diferite. Acești indicatori pot fi pozitivi (în cazul asimetriei de stânga) sau negativi (în cazul asimetriei de dreapta).

– asimetrie relativă:

De aceea se calculează coeficientul de asimetrie propus de Pearson (statistician englez 1857-1936):

Dacă Cas = 0 seria este perfect simetrică:

Dacă Cas 0 seria prezintă asimetrie pozitivă sau de stânga:

(predomină valorile mici)

Dacă Cas 0 seria prezintă asimetrie negativă sau de dreapta:

(predomină valorile mari)

Cu cât Cas este mai apropiată de 1 seria este mai asimetrică.

Dacă Cas [-0,3; 0,3] seria este ușor sau moderat asimetrică.

Acest coeficient este recomandat numai pentru serii de repartiție ușor asimetrice.

Dacă se cunoaște mediana seriei, coeficientul de asimetrie se poate calcula cu relația:

Acest indicator este recomandat numai pentru serii de repartiție ușor asimetrice când între cei trei indicatori ai tendinței centrale există relația:

Cu cât Cas este mai apropiat de 0 cu atât seria este mai simetrică, iar cu cât se apropie de extremitățile intervalului, asimetria devine mai pronunțată.

Acești doi indicatori ai asimetriei sunt cei mai utilizați în practică, dar în afară de aceștia se mai utilizează și alți indicatori.

Inferența statistică. Sondajul statistic

Cercetarea statistică se poate desfășura în 2 modalități:

cercetare statistică totală – când realizam o cercetare statistică totală descriem colectivitatea printr-un sistem de indicatori statistici numiți parametrii. Aceștia sunt obținuți cu o probabilitate de 100%.

cercetare statistică parțială – a unui eșantion reprezentativ;

etapa descriptivă;

etapa inferențială.

În cadrul etapei descriptive caracterizăm eșantionul printr-un sistem de indicatori.

Etapa de inferență statistică/inferențială – în care generalizăm rezultatele din eșantion pentru colectivitatea generală. Se poate realiza în 2 moduri:

estimăm parametrul necunoscut pe baza indicatorilor din eșantion;

testăm ipoteze pentru colectivitatea generală pe baza evidențelor din eșantion.

În colectivitatea generală indicatorii se numesc parametrii și se notează cu litere grecești:

, media

, dispersia

În eșantion obținem estimatori cu ajutorul cărora realizăm estimații asupra parametrilor:

, media

, dispersia

Un indicator obținut pentru un eșantion este o estimație a parametrului.

Modelul de bază folosit în sondajul statistic – selecția aleatoare simplă numărul eșantioanelor diferite ce se pot extrage dintr-o colectivitate de volum N este .

Avantajele acestei metode sunt numeroase. Printre acestea sunt:

costuri mai mici

erori de observare reduse

un plan al cercetării care poate fi mai amplu

posibilitatea utilizării atunci când cercetarea conduce la distrugerea obiectului cercetat.

Principalul dezavantaj este că întotdeauna vom avea erori de reprezentativitate. Asta înseamnă că un eșantion nu poate imita perfect situația din colectivitatea generală decât în mod cu totul întâmplător. Însă dacă vom cunoaște distribuția variabilei aleatoare, media de selecție, vom putea măsura erorile de reprezentativitate, le vom putea diminua și ține sub control.

Pașii pentru determinarea intervalului de încredere pentru medie sunt următorii (selecție aleatoare simplă repetată, variabilă numerică):

Pentru eșantionul cu care lucrăm calculăm: ,

Determinăm eroarea medie probabilă de reprezentativitate:

În funcție de probabilitatea dorită vom determina eroarea maximă admisibilă: , unde =argumentul funcției de repartiție;

Parametrul necunoscut se situează pentru probabilitatea dorită în următorul interval:

Nivelul total al variabilei va fi cuprins între

Tipuri de sondaje

Exista mai multe criterii de clasificarea sondajelor. După procedeul de selecție, aleatoare sau nealeatoare, eșantioanele sunt:

eșantioane bazate pe judecata cercetătorului – orice eșantion care este format pe baza experienței și expertizei cercetătorului, ca de exemplu sondajul pe cote;

eșantioane aleatoare – realizate după scheme probabilistice.

SONDAJE ALEATOARE

Sondaj simplu aleator: sanse egale acordate unitatilor de fi cuprinse in esantion

fiecare unitate din populația mamă are aceeași probabilitate de a face parte din eșantion;

fiecare unitate din eșantion are aceeași șansă de apariție;

folosește numere aleatoare după schema cu bila revenită (sondaj cu ÎNLOCUIRE) sau cu bila nerevenită (sondaj FĂRĂ ÎNLOCUIRE);

Sondaj stratificat – pe GRUPE, straturi formate dupa anumite variabile independente (de forma M/F de exemplu).

Eșantionul aleator stratificat este obținut prin separarea populației pe straturi, grupe, ce se exclud reciproc, doar după această operațiune se extrage un eșantion aleator din fiecare strat.

Criterii de separe a populației pe straturi, variabile independente sunt de exemplu: gen; varsta; ocupatie; venitul gospodariei; religie; numar de copii sub 18 ani din gospodarie; locatia; brand-ul

Sondajul sistematic – alegerea se face dupa un pas de numarare

Sondaj “cluster” – pe GRUPURI

Eșantionul cluster eșantion aleator de grupuri sau elemente. Se utilizează când nu se poate produce lista membrilor populatiei datorita necunoasterii tutror sau a dispersiei teritoriale, de exemplu se formeaza clustere de ACTIONARI.

Metoda sondajului cuprinde două etape:

etapa descriptivă, în care se culeg date și se calculează indicatorii ce caracterizează eșantionul analizat;

etapa inferențială, în care rezultatele obținute pentru eșantion se extind, în termeni probabilistici, la populația statistică.

Selecția statistică reprezintă operația de extragere a unei părți dintr-o populație statistică numită eșantion.

Notăm volumul populației statistice cu N și volumul eșantionului cu n, 1 n N

Inferența statistică este procesul prin care formulăm concluzii despre populația statistică, pe baza indicatorilor calculați în eșantion

Există două modalități principale pentru realizarea inferenței:

estimația punctuală sau pe interval de încredere

testarea de ipoteze statistice.

Estimația înseamnă determinarea valorii aproximative a parametrului din populația statistică folosind eșantionul statistic

Estimația asupra mediei, pe interval de încredere, presupune:

calculul indicatorilor de sondaj

mediei de sondaj

dispersiei de sondaj

erorii medii de reprezentativitate

erorii maxime admise

extinderea rezultatelor sondajului asupra populației statistice presupune determinarea unui interval de încredere, pe baza estimatorului punctual, pentru media populației statistice.

Calculul erorilor pentru selecția aleatoare simplă repetată

1. Eroarea standard (eroarea medie de reprezentativitate)

– Pentru o variabilă cantitativă, nealternativă, pentru estimarea parametrului media populației statistice () este necesar să calculăm media de sondaj ().

– Media mediilor de selecție este egală cu media populației

– Dispersia mediilor de selecție este de n ori mai mică decât dispersia variabilei considerate în populația statistică și, de regulă, aproximată pe baza dispersiei eșantionului:

Eroarea medie de reprezentativitate (abaterea standard a mediei de sondaj) se determină pe baza datelor din eșantion ca:

Deoarece am extras un eșantion de volum n dintr-o populație statistică de N unități, nu putem fi siguri 100% în privința valorii adevărate a mediei populației.

Cu toate acestea, dacă eșantionul este de volum mare (n > 30), pe baza teoremei limită centrală, putem construi un interval de încredere, cu o probabilitate de 100(1-)% de garantare a rezultatelor, pentru parametrul media populației statistice.

2. Eroarea maximă admisă

Pentru probabilitatea cu care garantăm rezultatele 100(1-)%, eroarea maximă admisibilă este: , unde este argumentul funcției Gauss-Laplace și depinde de probabilitatea de garantare a rezultatelor (valorile lui z sunt tabelate pentru diverse niveluri de semnificatie)

Aceasta înseamnă că în 100(1-)% din cazuri, media de sondaj () se abate de la media colectivității generale () cu mai puțin sau cel mult z/2 ori eroarea medie de reprezentativitate .

Intervalul de încredere pentru media

care va conține adevărata valoare a mediei din populația statistică (), în 100(1-)% din cazuri.

Cea mai folosită probabilitate de garantare a rezultatelor este de 95%, adică: z0,025=1.96.

Se cere găsirea unui echilibru între mărimea intervalului de încredere (un interval mai mic înseamnă o precizie crescută) și probabilitatea de cuprindere a parametrului din populație (o probabilitate crescută de garantare a rezultatelor poate fi preferată).

Interval de încredere pentru 1-=0,999

Interval de încredere pentru 1-=0,99

Interval de încredere pentru 1-=0,95

Interval de încredere pentru 1-=0,90

Mărimea relativă a intervalului de încredere

pentru un eșantion de volum mare

Se observă că, pe măsură ce nivelul de încredere (probabilitatea cu care garantăm rezultatele crește), intervalul de încredere devine mai mare pentru a acoperi această cerință, iar exactitatea estimației scade.

Extinderea rezultatelor sondajului la întreaga colectivitate statistică se va face pentru media caracteristicii numerice analizată – pe baza erorii limită admisibilă și a intervalului de încredere:

.

Deseori suntem interesați să estimăm pe baza sondajului nu doar nivelul mediu al caracteristicii, ci și nivelul total al caracteristicii în colectivitatea generală (exemplu: estimarea pe interval de încredere a fondului de salarizare, a producției totale obținute etc.).

Intervalul de încredere pentru nivelul total al caracteristicii este:

.

Exemplul 17

Directorul unui hotel dorește să cunoască durata medie a sejurului turiștilor cazați în hotel. În acest scop el selectează aleator date din registrul hotelului, pentru un număr de 80 de turiști și calculează durata medie a sejurului cu o abatere standard .

Pentru o probabilitate de garantare a rezultatelor de 95%, durata medie a sejurului pentru turiștii cazați în hotel se determină astfel:

(eroarea standard a mediei)

Alegerea volumului eșantionului

Precizia cerută, asociată cu mărimea intervalului de încredere pentru media populației () poate fi exprimată:

pe baza erorii limite maxime ()

prin precizarea lungimii totale a intervalului de încredere, L=2.

Volumul necesar al eșantionului se determină rezolvând una din următoarele ecuații în n:

sau .

Soluția poate fi scrisă ca:

sau

sx2 se folosește ca o estimație a lui , în general necunoscută.

sx2 poate fi cunoscută dintr-o cercetare prin sondaj anterioară.

sx poate fi aproximată pe baza amplitudinii împrăștierii Ax și sub presupunerea tendinței de normalitate a distribuției:(pentru o distribuție cu tendință de normalitate aproximativ 95% din observații se încadrează într-un interval de 4 ori abaterea standard, iar aproximativ 99,73% din observații sunt cuprinse într-un interval de 6 ori abaterea standard).

Exemplul 18

Vacanța de iarnă este perioada cea mai importantă pentru activitatea de schi, deoarece mulți copii, studenți și adulți sunt dispuși să-și petreacă un timp considerabil la munte, practicând acest sport. Pentru a-și dimensiona activitatea, managerul unei stații de telecabine dorește să estimeze timpul mediu de așteptare la stație pentru clienți, de la sosire până la servire. Dintr-o cercetare anterioară, el știe că timpul de așteptare are o distribuție aproximativ normală, cu o abatere medie pătratică =18 min. Câți clienți trebuie să selecteze pentru a estima timpul mediu de așteptare, cu o probabilitate de 95%, pe un interval de încredere cu o lungime de 10 minute (5 minute)?

turiști.

Noțiuni introductive privind legăturile statistice dintre variabile

Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor de influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee și metode specifice, poate studia manifestarea concretă a acestor legături, le poate exprima cantitativ și măsura intensitatea cu care se produc. Legătura (dependența) statistică se caracterizează prin faptul că, la modificarea unui factor de influență, factorul influențat răspunde cu o distribuție de valori.

Legăturile statistice se pot clasifica astfel:

după natura relației de cauzalitate:

legături funcționale. Acestea se manifestă între două fenomene în care unul este cauza iar celălalt efectul. Se întâlnesc în natură, tehnică etc. Dacă se notează fenomenul cauză cu “x” și fenomenul efect cu “y” atunci relația matematică este: y = f(x)

legături statistice (stohastice) apar atunci când fenomenul efect este rezultatul combinării influenței mai multor cauze, care pot acționa în condiții egale sau diferite. Relația matematică este: y = f(x1,x2,………..,xn), unde: x1, x2, …, xn – sunt valorile fenomenelor cauză care au fost înregistrate; y = valorile fenomenului efect.

după numărul de caracteristici incluse în modelul de corelație:

legături simple. Acestea au la bază două caracteristici: una factorială, iar cealaltă rezultativă (celelalte caracteristici factoriale chiar dacă sunt înregistrate se consideră cu acțiune constantă).

legături multiple. Acestea au în vedere dependența unei caracteristici rezultative în funcție de mai mulți factori înregistrați sau dependența mai mulor variabile rezultative (y1, y2, ….. , yn) de o variabilă factorială (xi). Ecuațiile de estimare sunt: y = f(x1, x2, x3,…,xn) și y1, y2,…, yi,…yn = f(xi).

după direcția legăturii:

legături directe (pozitive): există atunci când, pe măsură ce se modifică nivelul de dezvoltare al caracteristicii factoriale, se modifică în același sens și nivelul caracteristicii rezultative.

legături inverse (negative): au în vedere modificări în sens contrar nivelului de dezvoltare (o variabilă crește iar cealaltă scade).

după forma de exprimare a variabilelor corelate distingem:

legături de asociere. Acestea exprimă relația dintre două sau mai multe caracteristici exprimate calitativ (prin cuvinte) sau într-o caracteristică calitativă și una cantitativă (exprimată numeric).

legături de corelație. Exprimă relația de interdependență dintre două sau mai multe caracteristici statistice exprimate numeric.

după forma de realizare a legăturii distingem:

legăturile liniare exprimate printr-o funcție liniară, de gradul intai;

legăturile neliniare exprimate printr-o curbă (exponențială, parabolă, hiperbolă etc.);

după timpul în care se realizează:

legături sincrone: au loc în același timp și se pot urmări în dinamică pentru aceeași perioadă.

legături asincrone: influența caracteristicilor factoriale asupra variației caracteristicii rezultative apare după trecerea unei perioade de timp. Forma de realizare a legăturii corespunde funcției matematice de regresie (de estimare) care se alege pe baza graficului de corelație (corelogramei).

Metode simple de stabilire a existenței și a formei de legătură dintre fenomenele și procesele economico-sociale

Pentru a caracteriza legătura dintre fenomene, se pot folosi mai multe procedee ce se încadrează în categoria metodelor simple de caracterizare a legăturilor. Aceste metode sunt ușor de aplicat și se bazează pe analiza calitativă a variabilelor corelate, oferind informații asupra naturii și trăsăturilor esențiale ale legăturii cercetate.

Metodele simple de caracterizare a legaturilor stohastice

1) Metoda seriilor paralele interdependente are la bază serii paralele de date, obținute prin operația de centralizare la nivelul unităților simple sau complexe, fără a fi grupate. Se pot folosi serii: de timp, de spațiu și atributive. Această metodă ne oferă posibilitatea de a stabili existența legăturii și direcția de realizare a acesteia, prin analiza valorilor perechii x, y.

Această metodă este mai puțin sugestivă în cazul seriilor formate dintr-un număr foarte mare de termeni și implică într-o măsură importantă subiectivismul analistului.

2) Metoda grupărilor este o metodă de sistematizare a datelor pe baza căreia se pot cerceta legăturile (conexiunile) statistice. Se poate folosi gruparea simplă sau gruparea combinată.

3) Metoda tabelului de corelație presupune utilizarea unui tabel combinat cu dublă intrare care ne sugerează existența legăturii, direcția de realizare a ei și unele aprecieri empirice privind intensitatea legăturii prin analiza modului în care frecvențele comune (nij) se distribuie în rubricile interioare ale tabelului. Dacă frecvențele nij tind a se concentra către cele două diagonale trasate în tabelul următor, legătura între xi și yj va fi intensă. În schimb, dacă se împrăștie la întâmplare în rețeaua tabelului, legătura este slabă sau poate lipsi. În concluzie, procedeul tabelului de corelație este o combinare a metodei grupării cu principiile de construire și interpretare a unei reprezentări grafice.

4) Metoda grafică. Graficul de corelație se mai numește corelogramă. Pentru construcția acestuia se utilizează sistemul de axe rectangulare, unde pe axa OX se înscriu valorile caracteristicii principale de grupare (x), iar pe axa OY valorile caracteristicii secundare de grupare (y). Intersecția abscisei cu ordonata se concretizează printr-un număr de puncte ce se dispun sub formă de nor, numărul punctelor fiind egal cu numărul de unități statistice luate în calcul.

Metoda grafică se utilizează ca metodă empirică pentru alegerea funcției matematice ce se analizează în cazul regresiei și corelației statistice.

Metode analitice de măsurare a legăturilor dintre fenomene

Metoda grafică se utilizează ca metodă empirică pentru alegerea funcției matematice ce se analizează în cazul regresiei și corelației statistice.

Metodele analitice iau în considerație valorile reale ale varibilelor corelate și parametrii corespunzători acestora. Acestea poartă denumirea de metode parametrice și sunt:

1) metoda regresiei;

2) metoda covarianței;

3) metoda raportului de corelație;

4) metoda coeficientului de corelație;

5) metoda analizei dispersionale.

1) Metoda regresiei reprezintă o metodă statistică de analiză a legăturii dintre variabile cu ajutorul unor funcții, numite funcții de regresie. Funcția de regresie se alege printr-o modalitate empirică folosind graficul de corelație (corelograma) si prin aplicarea testelor de semnificație (de exemplu: testul “F” de analiză dispersională). În funcție de numărul de variabile incluse în model, distingem: regresie unifactorială (o varibilă factorială xi și o variabilă rezultativă yi) și regresie multifactorială (mai multe variabile factoriale și o singură variabilă rezultativă).

a) Regresia unifactorială liniară are la bază ecuația dreptei (funcția de gradul întâi):

De menționat că dependența liniară dintre “yi” și “xi” se consideră o dependență stohastică în care unei valori “xi” îi pot corespunde mai multe valori “yi”. Funcția yxi = valorile ajustate ale lui “yi” după ecuația dreptei și presupune înlocuirea valorilor empirice cu valori teoretice obținute prin calcul în urma aplicării unei metode sau unui model de calcul statistic; xi = variabila factorială; yi = variabila rezultativă; a, b = parametrii ecuației de regresie care pot fi interpretați în sens geometric și în sens statistic. Parametrul “a” exprimă în sens geometric ordonata la origine și poate lua atât valori pozitive, cât și valori negative. Are caracter de mărime medie, în sensul că valoarea sa arată la ce nivel ar fi ajuns valoarea caracteristicii “yi” dacă toți factorii – mai puțin cel înregistrat “xi” – ar fi avut o acțiune constantă. Parametrul “b” exprimă în sens geometric panta liniei drepte și poartă denumirea de coeficient de regresie. Măsoară cu cât se modifică în medie variabila rezultativă (yi) dacă variabila factorială (xi) se modifică cu o unitate (semnul lui “b” ne indică direcția legăturii). Parametrii a și b se determină din sistemul de ecuații normale obținut prin metoda celor mai mici pătrate, care se bazează pe minimizarea pătratelor abaterilor dintre valorile individuale înregistrate și valorile teoretice (corespunzătoare funcției). Această funcție obiectiv presupune identificarea punctului de extrem (are în vedere determinarea parametrilor funcției) si verificarea dacă punctul de extrem este minim sau maxim (se realizează prin semnul derivatei de ordinul II dacă este pozitiv (semnifică minim) dacă este negativ (semnifică maxim).

Relația de minimizare este: = minim.

Pentru tendința liniară a legăturii avem: = minim. In functia de mai sus condiția de minim a unei funcții de două derivabile se anulează când derivatele parțiale, în raport cu cei doi parametri (a, b), sunt: și ; i = .

Rezolvand sistemul se calculeaza termenul liber, a, si panta dreptei, b, dupa metoda determinantilor, astfel:

;i=

; i =

Interpretarea pantei:

dacă b > 0 legătura de corelație este directă (pe măsură ce cresc valorile lui xi cresc și valorile ecuației de regresie calculate);

dacă b < 0 legătura de corelație este inversă (pe măsură ce crește valoarea caracteristicii factoriale (xi) scade valoarea caracteristicii rezultative (yi) si

dacă b = 0 cele două variabile sunt independente și yxi = 0.

Funcția de regresie exprimă statistic modul în care caracteristica rezultativă (yi) se modifică, dacă ar influența numai caracteristica factorială (xi), iar ceilalți factori sunt considerați cu acțiune constantă.

a) y b) y

yxi = -a +bxi yxi = a – bxi

tgα x tgα x

a < 0 și b > 0 legătură directă a > 0 și b < 0 legătură inversă

figura 1.1 figura 1.2

c) y d) y

yxi = a yxi = bxi

a > 0 și b = 0 lipsa legăturii a = 0 și b > 0 legătură funcțională

figura 1.3 figura 1.4

Figura 2 Interpretarea geometrică a parametrilor

Regresia unifactorială liniară se utilizează în următoarele cazuri: pentru un număr mic de informații negrupate, dar prezentate sub forma a două serii paralele interdependente (xi și yi) – caz prezentat anterior si pentru un număr mare de informații sistematizate prin grupare simplă (xi, yi, ni valori cunoscute) si grupare combinată (yj, ni, nj, nij, xi valori cunoscute).

Pentru cazul (1) (grupare simplă) sistemul de ecuații normale se determină prin analogie cu cel prezentat anterior, cu deosebirea că se va ține seamă de frecvențele comune (ni) pentru cele două varibile xi și yi. Sistemul de ecuații normale este:

Pentru cazul (2) (grupare combinată) rezultatele se prezintă într-un tabel combinat cu dublă intrare, iar sistemul de ecuații se determină prin analogie cu cel de la cazul (1):

Din rezolvarea sistemului de ecuații normale se obțin formulele uzuale de calcul al parametrilor “a” și “b”. Legăturile dintre fenomene nu se bazează mereu pe modele simple de regresie pentru că pot exista mai multe variabile factoriale și o singură variabilă rezultativă de forma: y = f(x1, x2,……,xi, ……, xn).

Asemenea legături poartă denumirea de modele de regresie multifactoriale care au la bază funcția: liniară, exponențială, hiperbolică, parabolică.

2) Metoda covarianței se utilizează pentru măsurarea intensității legăturilor de tip statistic între două sau mai multe variabile la nivelul întregii colectivități.

!!!!Covarianța este un indicator sintetic de corelație simbolizat prin cov(x,y), se obține ca o medie aritmetică a produselor abaterilor variabilelor față de media lor conform relației: .

Semnul indicatorului arată direcția legăturii: plus (legătura directă), minus (legătura indirectă), iar covarianța nulă ne indică lipsa legăturii de corelație (variabilele sunt independente). Covarianța are ca neajuns faptul că depinde de unitățile în care se măsoară variabilele aleatoare.

3) Metoda raportului de corelație

Pentru stabilirea intensității legăturii dintre două varibile (xi, yi) se calculează un indicator sintetic de corelație numit “raport de corelație” simbolizat cu Rx/y. Acesta permite măsurarea gradului de intensitate a realizării legăturii dintre caracteristica considerată factor de influență (xi) și caracteristica rezultativă (yi), indiferent de forma legăturii: liniară sau neliniară. Calculul se bazează pe descompunerea variației totale (dispersiei) a caracteristicii rezultative “y” astfel:

Prin însumare și ridicare la pătrat se obține:

Raportul de corelație se determină pornind de la regula de adunare a dispersiilor (prezentată anterior), utilizând coeficientul de determinație () și coeficientul de nedeterminație ():

si .

Raportul de corelație se calculează ca rădăcină pătrată din coeficientul de determinație astfel:

; i =

Formula de calcul simplificat a raportului de corelație se determină astfel: ; i = . Raportul de corelație ia valori în intervalul [0,1]

= 0 – lipsă de legătură (varibilele sunt necorelate)

0 – legatură foarte slabă sau poate lipsi

Ry/x[0,1] = 1 – legătură de tip funcțional, variabila “yi” depinde în

exclusivitate de variabila “xi”

1 – legătură puternică, intensă

În cazul legăturilor de tip invers, semnul raportului de corelație este dat de către semnul coeficientului de regresie (b). În funcție de informațiile folosite în calcul și de modelul lor de sistematizare, raportul de corelație se calculează în următoarele două cazuri:

1) Număr mic de informații, în care se dau valorile xi, yi, caz în care Ry/x se calculează după formulele 1,2,3, explicitate anterior;

2) Număr mare de informații:

a) se dau valorile lui xi, yi și ni frecvențele lor comune:

; i =

; i =

b) se dau valorile lui xi, frecvențele după variabila xi (ni), frecvențele după variabila yj (nj) și frecvența comună nij:

= ; j = ; i =

4) Metoda coeficientului de corelație

Coeficientul de corelație este un indicator sintetic prin care se măsoară legătura dintre două variabile (xi, yi) statistice a căror distribuție este asimptotic normală sau normală. Calculul coeficientului de corelație se bazează în forma inițială pe produsul abaterilor normale normate (pentru un număr de date individuale negrupate):

Coeficientul de corelație se calculează ca o medie a produselor abaterilor normale normate:

; i =

Dacă în relația (1) vom înlocui:; ; i = ; și se obține relația: ry/x = ; i = (2)

Folosind covarianța: ry/x =

Interpretare:

1) ry/x [-1,1] apreciem din punct de vedere al semnului direcția legăturii și din punct de vedere al mărimii intensitatea legăturii.

Dacă: ry/x = 0 legătura lipsește și variabilele xi și yi sunt independente;

ry/x 0 legătura dintre cele două varibile este slabă;

ry/x = 1 legătură de tip funcțional (fie directă dacă semnul coeficientului este pozitiv, fie inversă dacă semnul coeficientului este negativ);

ry/x 1 variabilele sunt puternic corelate, legătura fiind intensă.

2) ry/x = Ry/x se apreciează că legătura de corelație este de forma liniară, ceea ce înseamnă că se poate folosi fie coeficientul, fie raportul de corelație.

3) Valoarea coeficientului de corelație depinde de forma liniei de regresie, motiv pentru care acest indicator este semnificativ pentru corelațiile de tip liniar și mai puțin semnificativ pentru corelațiile de tip neliniar (în cazul din urmă folosindu-se raportul de corelație).

4) În cazul legăturii liniare se mai poate calcula ca o medie geometrică a coeficienților de regresie (b) astfel:

unde: ; i =

Coeficientul de corelație se calculează în funcție de datele folosite în analiză și de modul în care au fost sistematizate informațiile. Astfel:

a) – număr mic de informații în care se dau valorile lui xi, yi sub forma a două serii paralele; ry/x se calculează după formula (1), (2) și (3) prezentate anterior.

b) – număr mare de informații, cunoscându-se xi, yi și frecvențele lor comune (ni)

; i =

unde: ; i =

Înlocuind în formula (1) a lui ry/x se obține:

; i =

c) se cunosc valorile lui xi, yj, ni, nj, nij, obținute prin gruparea combinată, rezultatul fiind prezentat într-un tabel combinat cu dublă intrare și atunci relația de calcul devine:

;

5) Metoda analizei dispersionale. Raportul de determinare

O modalitate eficientă folosită în caracterizarea conexiunilor este metoda analizei dispersionale (metoda coeficientului de determinare), care se poate folosi în mai multe cazuri și anume: la verificarea independenței unui fenomen comercial sau turistic, la verificarea stabilității mediei și dispersiei pentru mai multe eșantioane succesive, la verificarea dependenței unui fenomen comercial sau turistic de factorii săi de influență . Dacă analiza dispersională se utilizează după aplicarea corelației statistice, atunci aceasta este considerată o metodă prin care se testează semnificația curbei (funcției) de regresie explicitate.Analiza dispersională are la bază metoda grupării, prin care unitățile observate se separă în grupe după variația caracteristicii de grupare (considerat factor de influență). Aplicarea acesteia are la bază gruparea combinată (după cele două variabile xi și yj). Poate fi utilizată atât ca metodă simplă de caracterizare a corelațiilor, prin care se stabilește dacă variabila factorială influențează semnificativ variabila rezultativă, dar și ca metodă analitică de combinare a acesteia cu analiza regresiei. Analiza dispersională se poate utiliza în următoarele situații: înainte de aplicarea metodei corelației, caz în care se poate verifica gradul de semnificație a factorului considerat principal pentru producerea variației caracteristicii rezultative si după utilizarea metodei regresiei și corelației, caz în care se poate verifica corectitudinea funcției matematice cu ajutorul căreia s-au estimat valorile caracteristicii rezultative în raport cu variația caracteristicii factoriale.

Pentru prezentarea modelului analizei dispersionale prin care se testează forma de legătură, pornim de la variația totală a varibilei (Y) care se descompune în următoarele trei elemente: (yj – ) = (yj – ) + (- yxi) + (yxi – ),

unde: = media totală a variabilei Y

yj = valorile variabilei Y

= mediile condiționate ale variabilei Y

Yxi = valorile ajustate ale variabilei “Y” în funcție de “X”

Calculul raportului de determinare se bazează pe descompunerea variației seriei de date y1,…,yT în funcție de influența factorilor incluși în modelul de regresie și factori aleatori neînregistrați:

; relația anterioara cuantifică dispersia seriei valorilor variabilei endogene sub acțiunea tuturor factorilor de inferență.

Influența factorilor de regresie este dată de:

.

Pe baza abaterilor menționate se calculează dispersiile medii corelate ale variabilei Y, respectiv dispersia totală S2y, dispersia în postura de estimații ale dispersiei totale, adică: Pentru măsurarea dependenței legăturii între variabila endogenă și factorii de regresia se calculează raportul de determinare (R2).

Calculele necesare determinării lui R2 sunt realizate din cadrul unei analize dispersionale (ANOVA).

Tabel ANOVA pot fi folosite pentru modelul de regresie

Rezultatele ANOVA pot fi folosite pentru construirea testului F

F urmează o distribuție Fisher cu K-1 și T-K grade de libertate. Pentru un prag de semnificație α se stabilește valoarea teoretică Fα;K-1;T-K

Dacă:

F cal < Fα;K-1;T-K – influența regresiei diferă semnificativ de cea a factorilor reziduali; deci modelul este valid.

F cal > Fα;K-1;T-K – modelul este invalid.

De asemenea dacă:

• F calc > F teoretic atunci apreciem că legătura dintre X, Y este semnificativă și se pot aplica în continuare și alte metode de calcul statistic pentru a cuantifica legătura dintre X și Y.

• F calc < F teoretic legătura nu este semnificativă, variabilele sunt necorelate.

Metode neparametrice de măsurare a legaturilor dintre fenomenele economico-sociale

Aceste metode, pe lângă faptul că pot stabili intensitatea legăturii făcând abstracție de tipul de distribuție, permit măsurarea intensității legăturii nu numai pentru caracteristicile cantitative, dar și pentru cele calitative. Poartă denumirea de metode neparametrice deoarece nu iau în calcul întotdeauna valorile variabilelor corelate și nici parametrii lor corespunzatori. Se folosesc în următoarele situații:

când distribuția variabilelor corelate nu e normală sau asimptotic normală;

când nu este cunoscută forma de distribuție a variabilelor; când variabilele corelate sunt asimetrice, deci prezintă asimetrie pronunțată

când avem de-a face cu variabile calitative și cantitative care în prealabil necesită o anumită cuantificare.

Metodele neparametrice uzuale sunt:

1) Coeficientul de asociere a lui Yule presupune întocmirea tabelului de asociere, care este un tabel combinat cu dublă intrare utilizat pentru variabilele de tip alternativ (DA/NU; F/M; etc.). Tabelulul de asociere este format din două rânduri și două coloane:

în care în capătul rândurilor se trec valorile celor două caracteristici asociate, iar în interiorul tabelulului se trec frecvențele corespunzătoare lor.

Exemplul 19

Dacă avem în vedere două variabile statistice “xi” și “yi” și considerăm că sunt variabile de tip alternativ, atunci asocierea dintre “xi” și “yi” se prezintă astfel:

(în interiorul tabelului se consemnează concomitent răspunsurile privind cele două variabile corelate “xi” și “yi”). Pentru stabilirea valorii numerice a coeficientului de asociere care să indice existența și intensitatea legăturii, se calculează coeficientul lui Yule conform relației:

; unde Q [-1,1]

Dacă: Q = 0 lipsa de asociere între xi și yi

Q 0 asociere redusă între xi și yi

Q ±1 asociere puternică între xi și yi

Q = ±1 asociere perfectă între xi și yi

Produsul n11 · n22 = arată gradul de realizare a legăturii între caracteristicile corelate “xi” și “yi” si produsul n12 · n21 = arată lipsa legăturii dintre cele două variabile. Avantajul utilizării: se poate calcula cu multă rapiditate, utilizându-se și în cazul când datele provin de la unități statistice complexe.

2) Coeficienții de corelație a rangurilor

Coeficienții de corelație se calculează înlocuind valorile individuale ale variabilelor cu numărul lor de ordine numit RANG. Rangurile se atribuie după ce în prealabil s-au ordonat datele individuale ale celor două variabile în ordine crescătoare, astfel încât va trebui să vedem dacă există concordanță între rangurile caracteristicii factoriale de la 1 n și rangurile

caracteristicii rezultative de la 1 n. Avantajul utilizării acestora:

1) pot fi utilizați cu succes și în cazul unor distribuții asimetrice;

2) pot fi utilizați pentru un număr restrâns de unități pentru care nu se poate verifica reprezentativitatea datelor parțiale.

a) Coeficientul de corelație a rangurilor Spearman este o aplicație a coeficientului de corelație liniară simplă la distribuțiile celor două șiruri de ranguri. [3]

Acesta se calculează parcurgând următoarele etape:

1) se identifică cele două variabile corelate xi și yi;

2) se acordă ranguri de regulă crescătoare în aceeași manieră atât pentru variabila “xi” cât și pentru variabila “yi”;

Rangurile sunt numere de ordine care evoluează în progresie aritmetică cu rația egală cu 1.

3) se determină diferența dintre ranguri (di) și se ridică la pătrat;

4) se aplică formula de calcul: [-1,1] ce măsoară intensitatea legăturii dintre rangurile celor două variabile corelate, unde: di = diferența dintre rangurile variabilei “xi” și rangurile variabilei “yi”: Rx-Ry si n = numărul perechilor de valori corelate.

Dacă: rS = 0 între rangurile lui “xi” respectiv “yi” nu există legătură (independență, statistică);

rS 0 legătură foarte slabă sau poate lipsi;

rS ± 1 legătură puternică;

rS = ± 1 legătură funcțională.

b) Coeficientul de corelație a rangurilor Kendall; pentru a-l determina se folosesc valorile variabilelor corelate pentru care se acordă ranguri. Etapele de lucru sunt:

1) se identifică variabilele corelate “xi” și “yi”;

2) se ordonează crescător variabila “xi” și, în corespondență cu aceasta, se trec valorile corespunzatoare variabilei “yi”;

3) se acordă ranguri crescătoare în aceeași manieră ca și la coeficientul Spearman;

4) se determină concordanța notată cu P și discordanța notată cu Q;

5) se calculează scorul sau diferența (S = P – Q);

6) se aplică formula de calcul: unde: ∑S = ∑P – ∑Q [-1, 1]

Concordanța (P) este mereu pozitivă și reprezintă numărul de ranguri superioare fiecarui rang considerat al variabilei yi. Discordanța (Q) este mereu negativă și reprezintă numărul de ranguri inferioare fiecărui rang considerat al variabilei yi.

Coeficientul rangurilor calculat după formula lui Kendall este de obicei mai mic decât cel calculat după formula lui Spearman, având aceeași interpretare.

Analiza statistică a seriilor cronologice

Seriile cronologice sunt formate din două șiruri de date, în care primul șir ne arată variația timpului, iar cel de-al doilea șir cuprinde valorile fenomenului sau procesului economic analizat la momentele sau pe intervalele de timp respective.

Forma generală a unei serii cronologice este:

Trendul sau tendința generală a unei serii cronologice poate fi descris prin relația:

Criterii de clasificare a seriilor cronologice:

Există trei criterii principale după care se poate face clasificarea seriilor cronologice:

după variația timpului:

serii cronologice de intervale denumite și serii de fluxuri, în care fiecare termen al seriei arată evoluția fenomenului sau procesului analizat pe o perioadă de timp.

Forma generală a unei serii cronologice de intervale este:

Caracteristica principală a acestor serii de timp este aceea că termenii seriei se pot însuma, obținându-se astfel un indicator totalizator pe ansamblul perioadei analizate (ex.: producția totală de aluminiu pe parcursul perioadei analizate, investițiile imobiliare totale).

serii cronologice de momente în care fiecare termen al seriei arată nivelul la care a ajuns fenomenul sau procesul analizat la un anumit moment de timp.

Forma generală a unei astfel de serii este:

Caracteristica principală a unei serii de momente este aceea că termenii seriei nu se pot însuma pentru că s-ar produce multiple înregistrări.

după natura termenilor seriei cronologice, adică după modul de exprimare al termenilor seriei, distingem:

serii cronologice formate din indicatori absoluți (evoluția profiturilor anuale ale unei bănci comerciale, evoluția numărului de salariați ai unei firme în perioada 2000-2006). Termenii seriei se exprimă prin unități concrete de măsură.

serii cronologice formate din indicatori relativi (evoluția lunară a ratei dobânzii, evoluția anuală a ratei profitului, evoluția lunară a ratei inflației). Termenii unei serii se exprimă de regulă prin procente.

serii cronologice formate din mărimi medii (evoluția lunară a salariului mediu, evoluția anuală a profitului mediu, evoluția anuală a înzestrării medii a muncii cu capital fix). Termenii seriei se exprimă prin unități compuse de măsură deoarece se obțin prin raportarea între doi indicatori absoluți între care există o relație de interdependență.

după numărul de termeni, seriile cronologice pot fi:

serii cronologice de lungime mică;

serii cronologice de lungime medie;

serii cronologice de lungime mare.

Proprietățile temenilor unei serii cronologice

Seriile cronologice se caracterizează printr-o serie de proprietăți:

variabilitatea termenilor seriilor cronologice se referă la modificarea valorii caracteristicii (variabilei) la care se referă seria cronologică de la un moment de timp la altul sau de la o perioadă (interval) de timp la alta.

omogenitatea termenilor seriilor cronologice se referă la faptul că toți termenii seriei trebuie să fie de același tip și să fie rezultatul acțiunii acelorași legi. Pentru a se asigura omogenitatea termenilor seriilor cronologice trebuie să se țină cont de modul de exprimare al acestora (care trebuie să fie unitar), cât și de conținutul lor (adică, toți termenii să aibă aceeași unitate de măsură, termenii trebuie să fie compatibili din punct de vedere al culegerii și prelucrării datelor). Deci, omogenitatea termenilor implică comparabilitatea acestora.

periodicitatea termenilor unei serii cronologice se referă la forma de manifestare a fenomenelor în timp cu o anumită regularitate;

interdependența în timp a termenilor unei serii cronologice provine din omogenitatea termenilor unei serii cronologice. Această proprietate presupune că fiecare termen al seriei depinde într-o oarecare măsură de valorile anterioare înregistrate, adică depinde de termenii precedenți. Această proprietate ne conduce la ideea că fenomenele și procesele social-economice sunt rezultatul unor legi obiective ce au caracter de tendință, tendință ce poate fi urmărită pe o perioadă lungă de timp.

Reprezentarea grafică a seriilor cronologice

1. Cronograma este utilizată pentru reprezentarea grafică a seriilor cronologice de intervale sau a seriilor cronologice de momente cu intervale egale între momente.

Cronograma este un tip de grafic care are ca scop evidențierea variației unui fenomen în timp în vederea desprinderii tendinței fenomenului respectiv.

Pentru construirea cronogramei se folosește sistemul de axe rectangulare, pe axa OX se trece timpul sub formă de intervale de timp (timpul se înscrie între două diviziuni succesive) sau sub formă de momente de timp (timpul se înscrie în dreptul diviziunii), iar pe axa OY se trec valorile fenomenului analizat în timp (yt). Intersecția abscisei cu ordonata se face prin puncte, al căror număr trebuie să fie egal cu numărul termenilor seriei cronologice. Prin unirea punctelor succesive prin segmente de dreaptă se obține cronograma.

Cronograma constituie o metodă de analiză empirică a trendului (tendinței de evoluție) adică ea ne permite să alegem funcția matematică cu ajutorul căreia ajustăm fenomenul (funcția de trend sau de ajustare).

2. Diagrama prin coloane

Diagrama prin coloane se utilizează pentru reprezentarea grafică a seriilor cronologice de momente cu intervale neegale între momente.

Diagrama prin coloane se construiește utilizând sistemul de axe rectangular. Ea este formată din dreptunghiuri cu latura mare verticală, iar bazele egale sunt pe axa OX.

Atât în cazul cronogramei, cât și al diagramei prin coloane avem scară de reprezentare doar pe axa OY.

3. Diagrama polară (radială)

Are la bază o rețea polară formată din cercuri concentrice, iar raza este proporțională cu nivelul mediu al indicatorilor de reprezentat. Cercul se împarte în atâtea sectoare de cerc câți termeni are seria. Dacă variația fenomenului analizat este lunară pe parcursul unui an avem 12 sectoare de cerc. Dacă valoarea unui indicator depășește media valorilor individuale, atunci se vor prelungi cele două raze în afara cercului. Dacă valoarea indicatorului este mai mică decât media, atunci ea se va situa în interiorul cercului.

După reprezentarea punctelor pe rețeaua polară, acestea se unesc prin segmente de dreaptă sau printr-o curbă.

Diagrama polară este un grafic utilizat în analiza și interpretarea sezonalității.

Prelucrarea seriilor cronologice de momente

Seriile cronologice de momente pot fi:

cu intervale egale între momente;

cu intervale neegale între momente.

În cazul seriilor cronologice de momente cu intervale egale între momente se pot calcula toți indicatorii care vor fi prezentati la seriile cronologice pe intervale, excepție făcând media care în acest caz se va calcula ca o medie cronologică simplă:

În cazul seriilor cu intervale neegale între momente singurul indicator care se poate calcula este media cronologică ponderată:

Schema pentru calculul mediilor:

Indicatorii obținuți prin prelucrarea unei serii cronologice constituie un sistem de indicatori în cadrul căruia fiecare indicator scoate în evidență un aspect al modului de dezvoltare a fenomenelor și proceselor economice studiate.

Acești indicatori sunt cu atât mai concludenți cu cât seria cronologică este mai bine alcătuită, cu cât este mai bine aleasă perioada de analiză (aspecte legate de lungimea seriei și de omogenitatea termenilor).

Este bine ca numărul termenilor să fie suficient de mare pentru a putea satisface legea numerelor mari a lui Bernoulli, lege care spune: într-un număr suficient de mare de cazuri individuale, abaterile întâmplătoare tind să se compenseze astfel încât se poate determina o valoare tipică, sintetică, pe ansamblul colectivității.

În cazul seriilor cronologice neomogene, indicatorii vor trebui calculați pe etape, ca indicatori parțiali, în caz contrar, dacă se calculează indicatori pe ansamblul seriei, aceștia conduc la concluzii greșite și nu pot fi folosiți în calculele de prognoză.

Prelucrarea seriilor cronologice pe intervale (Sistemul de indicatori)

Prelucrarea seriilor cronologice se face cu indicatorii seriilor cronologice.

Indicatorii seriilor cronologice:

indicatori absoluți:

nivelul absolut:

nivelurile individuale ale seriilor cronologice: yt, t-1, ;

nivelul totalizat al seriilor cronologice: ;

modificarea absolută:

cu bază fixă;

cu bază în lanț;

valoarea absolută a unui procent de modificare:

cu bază fixă;

cu bază în lanț;

indicatori relativi:

indicele:

cu bază fixă;

cu bază în lanț;

ritmul:

cu bază fixă;

cu bază în lanț;

indicatori medii:

modificarea absolută medie;

indicele mediu;

ritmul mediu;

nivelul mediu.

Indicatorii seriilor cronologice sunt indicatori primari (nivelul absolut) sau indicatori derivați (obținuți prin raportare sau diferență).

Dacă compararea se face cu primul termen din serie, atunci indicatorii derivați obținuți se numesc indicatori cu bază fixă.

Dacă compararea se face cu termenul precedent din serie atunci indicatorii derivați obținuți se numesc indicatori cu bază în lanț (mobilă).

Indicatorii cu ajutorul cărora se caracterizează seriile cronologice de intervale sunt:

indicatori absoluți;

indicatori relativi;

indicatori medii.

Indicatori absoluți:

nivelurile individuale ale seriei cronologice:

nivelul totalizat al seriei cronologice:

modificarea absolută se calculează ca diferență între doi termeni ai seriei cronologice și ne arată cu câte unități concrete de măsură s-a modificat fenomenul analizat de la o unitate de timp la alta:

cu bază fixă:

cu bază în lanț:

valoarea absolută a unui procent de modificare:

cu bază fixă:

, dacă

Dacă

cu bază în lanț:

,

Dacă

Indicatori relativi:

indicele – se calculează ca raport între doi termeni ai seriei cronologice și ne arată de câte ori s-a modificat fenomenul analizat de la o perioadă la alta:

cu bază fixă: ,

cu bază în lanț:

,

ritmul (rata, procent de modificare, modificare relativă) arată cu câte % s-a modificat indicatorul analizat de la un interval de timp la altul:

cu bază fixă: ,

cu bază în lanț: ,

Indicatori medii – caracterizează seria cronologică în ansamblu:

nivelul mediu al termenilor seriei:

modificarea absolută medie este media aritmetică a modificărilor absolute de la o perioadă la alta în succesiunea lor de-a lungul intervalului de timp analizat. Se cheamă spor mediu pentru serii cu tendință crescătoare și respectiv, scădere medie pentru serii cu tendință de scădere. Modificarea absolută medie arată diferența medie dintre ultimul și primul termen al seriei și este semnificativă doar dacă modificările absolute cu bază în lanț sunt apropiate între ele:

indicele mediu – ne arată de câte ori s-a modificat în medie fenomenul analizat de la o perioadă la alta pe parcursul întregii perioade. Se calculează ca o medie geometrică a indicilor cu bază în lanț.

Dacă atunci indicele mediu semnalează scăderea fenomenului analizat.

Dacă atunci indicele mediu semnalează creșterea fenomenului analizat.

Dacă atunci indicele mediu arată că fenomenul analizat nu s-a modificat.

ritmul mediu (procentul mediu de modificare) este un indicator derivat și ne arată cu cât la sută s-a modificat în medie fenomenul analizat de la o subperioadă la alta pe parcursul perioadei de analiză:

Indicele și ritmul mediu sunt foarte sensibili la valorile extreme ale seriei (y1 și yn). Dacă una din cele două valori (y1 sau yn) este nereprezentativă pentru evoluția fenomenului analizat este suficient pentru a nu obține indicatori medii.

Ajustarea seriilor cronologice

Ajustarea seriilor cronologice înseamnă înlocuirea termenilor reali ai seriei cronologice cu valori teoretice care exprimă legitatea matematică de evoluție a fenomenului considerat.

A. Procedee de ajustare

Există mai multe procedee prin care se poate realiza ajustarea:

A.1. Ajustarea prin metoda grafică – se reprezintă grafic seria de date empirice (cronograma) și apoi se trasează dreapta sau curba care unește punctele extreme ale graficului astfel încât să aibă abateri minime față de poziția valorilor reale în grafic:

Cronograma:

A.2. Metode de ajustare mecanice:

1) Metoda modificării absolute medii: se utilizează atunci când modificările absolute cu bază în lanț au valori apropiate ceea ce indică o tendință de evoluție sub forma unei progresii aritmetice, a cărei rație este aproximată prin modificarea absolută medie:

;

2) Metoda indicelui mediu – se utilizează atunci când indicii cu bază în lanț au valori apropiate, ceea ce arată că fenomenul analizat tinde să varieze în progresie geometrică, a cărei rație este aproximată prin indicele mediu:

;

A.3. Metode analitice

Metoda celor mai mici pătrate

Metoda celor mai mici pătrate este o metodă analitică de ajustare deoarece utilizează funcțiile matematice. Alegerea celei mai potrivite funcții pentru ajustare se face pe baza graficului și a indicatorilor absoluți și relativi.

Parametrii funcției de ajustare se determină cu ajutorul metodei celor mai mici pătrate care spune că “suma pătratelor abaterilor valorilor reale de la valorile ajustate este minimă”.

Fie: Yi sau = valorile ajustate

yi = valorile reale

Metoda celor mai mici pătrate spune că: .

Metoda celor mai mici pătrate a mai fost utilizată la estimarea parametrilor funcțiilor de regresie, numai că în cazul seriilor cronologice în locul variabilei independente X de la regresie utilizăm variabila timp (t).

Valorile variabilei timp (t) se măsoară cu ajutorul scalei de interval, în cadrul căreia originea scalei și unitatea de măsură pot fi alese arbitrar.

Pentru ușurința calculelor valorile lui t se aleg astfel încât .

Putem distinge două situații:

dacă seria are un număr impar de termeni, atunci originea scalei va fi termenul central:

dacă seria cronologică are un număr par de termeni, atunci originea scalei (t = 0) se va găsi între cei doi termeni centrali ai seriei. Cei doi termeni centrali vor primi valorile –1 și respectiv 1, iar ceilalți termeni ai seriei cronologice vor fi distribuiți simetric față de cei doi termeni centrali la distanță de două unități (pentru că distanța dintre fiecare doi termeni succesivi trebuie să fie egală):

Cea mai utilizată funcție analitică pentru determinarea trendului este:

Funcția liniară:

Metoda celor mai mici pătrate spune:

derivatele sumei în raport cu parametrii a și b se anulează

Deoarece :

;

a – reprezintă media variabilei yt calculată ca o medie aritmetică simplă a termenilor seriei;

b – reprezintă panta dreptei de tendința (de trend), iar valoarea sa arată cu cât se modifică în medie fenomenul analizat dacă variabila timp se modifică cu o unitate (an, lună, trimestru).

2. Procedee de apreciere a calității ajustării

Atunci când se utilizează mai multe procedee diferite pentru ajustarea aceleiași serii cronologice, în final trebuie să alegem cea mai bună metodă de ajustare comparând rezultatele teoretice cu valorile reale:

se reprezintă pe același grafic valorile reale și valorile teoretice obținute prin diferite procedee de ajustare. Comparând valorile de pe grafic alegem valorile teoretice cele mai apropiate de valorile reale;

compararea sumei valorilor reale cu suma valorilor teoretice:

calcularea sumei pătratelor abaterilor valorilor ajustate de la cele reale:

se calculează coeficientul de variație al valorilor teoretice față de cele reale pentru fiecare metodă de ajustare folosită:

Cu cât v este mai mic cu atât metoda de ajustare este mai bună.

Indicii statistici

În urma parcurgerii acestei unități de învățare studentul va dobândi următoarele competențe:

va înțelege ce este un indice statistic și la ce se utilizează;

va afla de câte feluri sunt indicii statistici și pentru ce tipuri de date se calculează;

va aprofunda metodologia de calcul a indicilor ca măsură a variabilității fenomenelor, la nivel individual și total, precum și regulile de construire a indicilor de grup;

cum se poate identifica și măsura efectul influenței factorilor ce acționează asupra fenomenelor complexe

Conținutul, funcțiile și clasificarea indicilor

Indicele statistic este o mărime relativă, ce compară, sub formă de raport, mărimea aceluiași fenomen înregistrat în două unități de timp, de spațiu sau de program diferite, la o unitate statistică, la o grupă sau la nivelul întregii colectivități.

Numărătorul indicelui reprezintă nivelul fenomenului studiat în unitatea de timp / spațiu care se compară, iar numitorul acestuia – nivelul fenomenului în unitatea de timp / spațiu aleasă ca bază de comparație. În alte cazuri, indicii pot compara nivelul realizat cu cel programat, propus al fenomenului.

Indicele este adimensional, nu depinde de unitatea de măsură a fenomenului pentru care s-a calculat. El se exprimă în coeficienți sau în procente.

Indicele arată de câte ori (de cât la sută) nivelul comparat al fenomenului este mai mare sau mai mic decât nivelul ales ca bază de comparație al fenomenului.

Uneori, indicii au și un caracter de mărime medie, atunci când sunt calculați la nivelul întregului ansamblu sau al unei grupe a acestuia

Indicii se clasifică după următoarele criterii:.

a) După sfera de cuprindere indicii sunt:

indici individuali (elementari) — calculați la nivelul unei unități statistice

indici de grup (sintetici) — determinați la nivelul unei grupe a colectivității sau la nivelul întregii colectivități;

b) După dimensiunea de raportare a fenomenului:

indici cronologici (de dinamică): raport între nivelurile unui fenomen, înregistrate în momente sau perioade de timp diferite;

indici teritoriali (spațiali): raport între nivelurile unui fenomen, înregistrate în două unități de spațiu diferite;

indici de coordonare: raport între nivelurile unui fenomen, înregistrate pentru două grupe diferite ale aceleiași colectivități, sau pentru două colectivități diferite;

indici ai prevederilor: raport între nivelurile prevăzute și nivelurile efectiv înregistrate ale unui fenomen.

c) După natura variabilelor indexate:

indici ai variabilelor cantitative

indici ai variabilelor calitative.

d) După modul de calcul, indicii de grup pot fi:

indici agregați

indici calculați ca medie a indicilor individuali

indici calculați ca raport a două medii.

e) După natura ponderilor folosite, indicii de grup pot fi:

cu ponderi fixe (constante) – când se folosesc aceleași ponderi în întreaga serie;

cu ponderi variabile – când ponderea folosită se schimbă odată cu schimbarea bazei de raportare.

f) După baza de raportare – indicii cronologici pot fi:

cu bază fixă

cu bază mobilă sau în lanț

g) După natura fenomenului pentru care se calculează:

indici ai valorii

indici ai volumului fizic

indici ai prețurilor

indici ai productivității muncii

indici ai salariului, etc.

Indici individuali

Fie Y — o variabilă complexă,

Indicele individual al variabilei complexe:

sau

unde: “1” – perioada curentă

“0” – perioada de bază

y1 – nivelul variabilei complexe în perioada curentă;

y0 – nivelul variabilei complexe în perioada de bază.

Pentru o perioadă curentă „k”, față de perioada de bază, indicele devine:

Pentru cele două variabile factoriale (x și f) se pot scrie doi indici individuali conform relațiilor:

, iar pentru o perioadă curentă “k”:

, iar pentru o perioadă curentă “k”:

Indicele individual al variabilei complexe y se mai scrie:

Sau, mai general:

Condiția de reversibilitate a factorilor: produsul indicilor individuali ai celor doi factori este egal cu indicele individual al variabilei complexe

Determinarea contribuției factorilor la modificarea indicatorului complex se poate face și într-o formă absolută:

Indici de grup (sintetici)

Au ca rol reflectarea variației medii relative la nivelul întregii colectivități sau al unei grupe a acesteia. Se notează de regulă cu litere mari (I).

După modul de calcul, indicii de grup se împart în trei categorii:

indici agregați

indici calculați ca medie a indicilor individuali

indici calculați ca raport a două medii

Indici sintetici construiți ca indici agregați. Sisteme de ponderare folosite în construirea indicilor sintetici.

Indici sintetici sunt calculați ca indici agregați. La nivelul întregii colectivități, volumul total al variabilei complexe se obține prin însumarea (agregarea) valorilor înregistrate la nivelul fiecărei unități statistice.

Prin raportarea nivelului agregat al fenomenului din perioada comparată (curentă) () la cel din perioada de bază () se obține indicele agregat.

Indicele de grup al caracteristicii complexe y este:

Pentru o perioadă curentă “k":

Pentru a determina nivelul agregat al valorilor celor doi factori identificați ai variabilei complexe (factorul cantitativ și calitativ) se pune problema însumabilității valorilor lor individuale.

De cele mai multe ori, elementele din care se compun fenomenele din natură și societate sunt eterogene, de aceea ele nu pot fi însumate direct. Pentru a face însumabile aceste elemente se apelează la un comăsurător, etalon, numit și pondere Ponderea este întâlnită atât în numărătorul cât și numitorul indicelui de grup, cu aceeași valoare.

Pentru variabila cantitativă (f) – se pot întâlni următoarele situații:

Este exprimată în unități fizice, naturale de același fel: se poate determina .

Este exprimată în unități fizice, naturale diferite: valorile individuale ale factorului extensiv nu pot fi însumabile. În acest caz – pentru a le face însumabile – se înmulțesc valorile factorului extensiv cu ponderile.

Pentru variabila calitativă (x) – în majoritatea cazurilor aceasta are valori neaditiv – se aplică ponderea.

Rolul de pondere îl poate juca factorul pereche al factorului ce trebuie agregat. În continuare prezentăm sistemele de ponderare folosite în construcția indicilor agregați.

Sisteme de ponderare folosite în construirea indicilor sintetici

Există mai multe sisteme de ponderare în funcție de perioada de referință a factorului ce joacă rolul de pondere. Astfel, identificăm următoarele sisteme de ponderare utilizate în construcția indicilor de grup.

Sistemul de ponderare propus de statisticianul german Etienne Laspeyres în 1864, care folosește ponderi din perioada de bază.

În aceste condiții, indicii factoriali se vor scrie:

indicele variabilei cantitative:

– pentru o perioadă curentă „k”:

indicele variabilei calitative:

– pentru o perioadă curentă „k”:

b) Sistemul de pondere propus de statisticianul german Hermann Paasche în 1874 are la bază utilizarea ponderilor din perioada curentă.

Indicii factoriali construiți conform acestui sistem de ponderare vor fi:

pentru variabila cantitativă: ;

– pentru o perioadă curentă „k”:

pentru variabila calitativă:

– pentru o perioadă curentă „k”:

În practica statistică, cel mai adesea se utilizează cea de-a doua variantă de ponderare încrucișată, adică și , ceea ce înseamnă că, în general, pentru factorul cantitativ se folosesc ponderi din perioada de bază (0) – sistem Laspeyres, iar pentru factorul calitativ se folosesc ponderi din perioada curentă (1) – sistem Paasche.

Avantajele indicilor Laspeyres și Paasche

Formulele sunt relativ simple, ușor de înțeles;

Sunt perfect definite;

Aceste formule se pot prelucra algebric (pot fi scrise ca medii de indici) ;

Acești indici au proprietatea de agregare : adică, de exemplu, indicele Laspeyres al unui ansamblu de mărimi este egal cu un indice Laspeyres al indicilor Laspeyres ai fiecărui grup de mărimi ; idem pentru indicii Paasche. Plecându-se de la indicii grupelor și subgrupelor, se pot calcula indicii globali.

Avantajul esențial este acela că au semnificație economică.

Calculul indicelui Laspeyres este ușor, odată ce au fost determinate ponderile. Această determinare necesită, în general, o anchetă dificilă, dar ea este necesară doar în perioada de bază. Din contră, pentru indicele Paasche, trebuie determinate bugetele de consum pentru fiecare an de calcul, ceea ce este mai dificil.

Dezavantajele indicilor Laspeyres și Paasche :

Nu îndeplinesc condiția de reversibilitate

Dacă vrem să schimbăm baza de comparație, trebuie refăcute calculele (inconvenient pentru utilizatori) ;

Pentru una sau alta din formule, apare o problemă atunci când vrem să calculăm un indice pe perioadă mai lungă.

Indicele Paasche are un defect: acela că necesită cunoașterea bugetelor de consum pentru fiecare an de calcul

Formulele lui Laspeyres și Paasche nu conduc la același rezultat, atunci când sunt aplicate acelorași indici elementari, observându-se, uneori, diferențe semnificative între ei.

3) Indicele propus de Edgeworth

Folosește ca pondere pentru variabila calitativă (prețul) fie suma ponderilor din cele două perioade, fie media aritmetică simplă a acestor ponderi. Are următoarea formă:

Acest sistem de ponderare prezintă dezavantajul că el se poate aplica numai la construirea indicelui de grup al factorului calitativ.

Indici sintetici calculați ca medie a indicilor individuali

Această metodă se aplică în calculul indicilor de grup ori de câte ori nu există suficiente informații pentru calculul indicilor agregați. Dacă ar exista posibilitatea aplicării ambelor metode, ar trebui ca valoarea indicelui de grup calculat ca medie a indicilor individuali să fie egală cu valoarea indicelui de grup calculat sub formă agregată. Indicii de grup se pot forma fie ca medie aritmetică ponderată, fie ca medie armonică ponderată a indicilor individuali, în funcție de datele inițiale cunoscute.

A. Indici de grup calculati ca medie aritmetică (ponderată):

pentru variabila complexă (aditivă), indicele agregat al acesteia este:

(cunoaștem nivelurile individuale ale variabilei complexe –însumabile- din perioada de bază (y0) și indicii individuali ai variabilei însumabile)

Este un indice calculat sub formă de medie aritmetică din indicii individuali, ponderați cu nivelul din perioada de bază y0. Se observă că indicele agregat sub formă de medie se poate calcula și folosind mărimea relativă de structură a variabilei complexe în perioada de bază:

— pentru variabila cantitativă aditivă

(dacă se cunosc și f0)

— pentru variabila cantitativă non-aditivă, ponderată Laspeyres:

(dacă se cunosc și y0)

— pentru variabila calitativă non-aditivă, ponderată Laspeyres:

(dacă se cunosc și y0)

B. Indici de grup calculați ca medie armonică (ponderată):

pentru variabila complexă (aditivă), indicele agregat al acesteia este:

(dacă se cunosc și )

Reprezintă o medie armonică din indicii individuali, ponderați cu nivelurile din perioada curentă (y1) sau cu structura variabilei complexe (însumabile) din perioada curentă.

unde

— pentru variabila cantitativă — aditivă

(dacă se cunosc și f1)

— pentru variabila cantitativă — non-aditivă , ponderată Paasche

(dacă se cunosc și y1)

— pentru variabila calitativă (non-aditivă), ponderată Paasche:

(dacă se cunosc și y1)

Indicii valorii, volumului fizic și prețurilor

Analiza la nivel individual, pentru fiecare marfa: indicii individuali

S-au folosit notațiile: v0, v1, q0, q1, p0, p1 .

Pentru a studia dinamica la nivelul fiecărui produs, se calculează indicii individuali ai valorii:

unde: iq = = indicele individual al cantităților produse (sau vândute)

ip = = indicele individual al prețurilor unitare ale produselor.

Indicii agregati, construiti pentru grupul marfurilor sau categoriilor de marfuri:

Pentru o viziune de ansamblu sintetică a variației relative a valorii producției (la nivelul tuturor produselor), se calculează indicele de grup al valorii producției:

care este un indice în formă agregată.

Indicele sintetic al factorului cantitativ (Laspeyres):

Indicele sintetic al factorului calitativ (Paasche):

Condiția de reversibilitate:

Pe baza indicilor calculați se pot determina și modificările relative (ritmul):

Prin diferența între numărătorul și numitorul indicilor de grup obținem modificările absolute ale valorii: pe cea a valorii totale și pe cele datorate influenței celor doi factori.

Cumulând modificările absolute ale valorii datorate influenței factorilor obținem modificarea absolută totală a valorii.

Daca calculam indicii de grup ai valorii, volumului fizic si preturilor ca medie aritmetica si armonica, formulele acestora devin:

ca medie aritmetică ponderată

ca medie armonică ponderată

ca medie aritmetică ponderată

ca medie armonică ponderată

Indicele prețurilor de consum (IPC)

Indicele prețurilor de consum (IPC) este un indicator economic, ce măsoară evoluția de ansamblu a prețurilor mărfurilor cumpărate și a tarifelor serviciilor utilizate între două perioade de timp date (perioadă curentă și perioadă de bază).

Indicele prețurilor de consum (IPC) măsoară schimbările, în timp, intervenite în nivelul general al prețurilor bunurilor și serviciilor, pe care o populație de referință le folosește sau le plătește pentru consum. (Sursa: International Labour ILO, 1998; Current International Recommendations on Labour Statistics, Geneva, 1988). Prin urmare, IPC nu este un indice al costului vieții, acesta din urmă implicând schimbarea continuă a coșului de bunuri și servicii cuprinse în indice, prin faptul că el măsoară comportamentul consumatorilor în vederea menținerii constante a unui anumit standard de viață (maximizarea utilității consumatorilor).

Indicele are utilizări multiple. El este folosit la :

determinarea puterii de cumpărare a veniturilor, salariilor, pensiilor; calculul indicatorilor privind nivelul de trai și sărăciei;

fundamentarea calculului dobânzii reale;

deflatarea unor indicatori valorici din domeniile comerțului cu amănuntul, serviciilor, al agregatelor macroeconomice utilizate la calculul Produsului Intern Brut (consumul final individual efectiv al gospodăriei populației);

negocierea salariilor, pensiilor, alocațiilor; realizarea de comparații internaționale și altele.

Mod de calcul: IPC este un indice sintetic de tip Laspeyres care măsoară media schimbărilor de preț plătite de consumatori pentru un coș fix de bunuri și servicii, utilizând ponderi din perioada de bază a indicelui. (Este un indice ‘pur’ de preț). Determinarea IPC sub forma unui indice agregat de tip Laspeyres, cu bază fixă, are raționamente de ordin practic. Indicele prețurilor de consum se calculează numai pentru elementele care intră în consumul direct al populației, fiind excluse: consumul din resurse proprii, cheltuielile cu caracter de investiții și acumulare, dobânzile plătite la credite, ratele de asigurare, amenzile, impozitele etc., precum și cheltuielile aferente plății muncii pentru producția agricolă a gospodăriilor individuale“.

IPC se determina cu formula:

unde reprezintă structura cheltuielilor (de consum) medii lunare, efectuate de o gospodărie, în perioada de bază.

Principalele variabile care concură la calculul indicelui prețurilor de consum sunt ponderile și prețurile.

Ponderile se calculează după structura cheltuielilor efectuate de gospodării pentru cumpărarea bunurilor și pentru plata serviciilor de consum conform formulei:

unde: ch0i este cheltuiala pentru produsul i cumpărat în perioada de referință 0;

Probleme rezolvate

Problema 1

Un cercetător este interesat să compare salariul de încadrare pentru bărbații și femeile care intră în serviciu imediat după absolvirea facultății. Sunt cercetați 50 de bărbați și 50 de femei:

descrieți populația;

descrieți eșantionul;

descrieți inferența care interesează.

Rezolvare:

două populații – cea a femeilor și cea a bărbaților care s-au încadrat pe un post imediat după absolvirea facultății;

eșantioanele – cei 50 de bărbați și cele 50 de femei;

inferențele – salariile medii de încadrare pentru bărbați și pentru femei.

Problema 2

Frecvența absolută cumulată crescător a unei grupe reprezintă:

ponderea unităților care se încadrează în grupa respectivă;

ponderea unităților care au valoarea caracteristică mai mică sau eventual egală cu limita superioară a grupei;

numărul unităților care au valoarea caracteristicii mai mică sau egală cu limita inferioară a grupei;

numărul unităților care au valoarea caracteristicii mai mică sau egală cu limita superioară a grupei;

numărul unităților care au valoarea caracteristicii mai mare sau egală cu limita inferioară a grupei.

Răspuns:

d)

Problema 3

Frecvența relativă cumulată crescător a ultimei grupe este egală cu:

a) numărul unităților statistice din grupa respectivă;

b) ponderea unităților statistice din grupa respectivă în total colecti¬vitate;

c) 100%;

d) numărul total de unități statistice din colectivitate;

e) 1,00.

Răspuns:

c) e)

Problema 4

Se cunosc datele următoare:

Tabelul prezintă:

o distribuție heterogradă de frecvențe absolute;

o distribuție homogradă de frecvențe absolute;

o distribuție heterogradă de frecvențe relative, pe variante;

o distribuție homogradă de frecvențe relative;

nici una dintre variantele de mai sus.

Răspuns:

c)

Problema 5

O firmă alocă un buget fix B în fiecare dintre trimestrele unui an pentru derularea unei campanii publicitare prin intermediul afișelor.

În primul trimestru, prețul unui afiș a fost de 35 RON.

În cel de-al doilea trimestru, prețul unui afiș a fost de 38 RON.

În cel de-al treilea trimestru, prețul unui afiș a fost de 42 RON.

În cel de-al patrulea trimestru, prețul unui afiș a fost de 44 RON.

Care este prețul mediu al unui afiș?

Răspuns:

39.44 RON

Problema 6

80 de apartamente dintr-un bloc au fost sistematizate după numărul de camere rezultând următoarea distribuție de frecvențe:

Calculați mediana.

Rezolvare:

Me = 3 camere 50% dintre apartamente au mai puțin de 3 camere, iar 50% mai mult de 3 camere.

Problema 7

Repartiția sucursalelor unei bănci comerciale în funcție de volumul depozitelor bancare atrase într-o lună este:

Rezolvare:

Deci 50% dintre sucursale au atras depozite în valoare de 74,5 mii euro, iar 50% peste 74,5 mii euro.

Problema 8

Repartiția salariaților unei întreprinderi după prima obținută la sfârșitul anului este prezentată în tabelul următor:

Rezolvare:

Prima unui salariat se abate în medie de la prima medie cu 96,5 lei.

Problema 9

Distribuția salariaților unui magazin în funcție de numărul de zile de concediu de odihnă dintr-un an se prezintă astfel:

Se cere:

a) să se calculeze indicatorii sintetici ai variației;

b) să se caracterizeze gradul de asimetrie;

c) să se calculeze media și dispersia caracteristicii “salariați care au avut un număr de zile de concediu mai mare sau egal cu 17”.

Rezolvare:

a) Pentru a calcula indicatorii sintetici ai variației, va trebui să calculăm mai întâi media – care se calculează ca o medie aritmetică ponderată:

Indicatorii sintetici ai variației sunt:

– abaterea medie liniară:

Numărul de zile de concediu al unui salariat se abate în medie de la numărul mediu de zile de concediu cu 1,1728 zile.

– dispersia:

– abaterea medie pătratică:

Numărul de zile de concediu al unui salariat se abate în medie de la numărul mediu de zile de concediu cu 1,5226 zile.

– coeficientul de variație:

Deoarece v, v’ 35% seria este omogenă, variația este mică, media este reprezentativă.

b) Aprecierea asimetriei:

Deoarece Cas 0 avem asimetrie pozitivă sau de stânga, adică mediana și modul se găsesc în stânga mediei pe grafic, deci în această serie predomină valorile mici ale caracteristicii.

Cas [-0,3; 0,3] seria este ușor asimetrică (Cas este foarte apropiat de zero).

c) Avem o caracteristică alternativă:

salariați care au avut un concediu 17 zile;

salariați care au avut un concediu 17 zile.

Media caracteristicii alternative:

64% dintre salariați au avut un concediu 17 zile

Dispersia caracteristicii alternative:

Problema 10

Se cunosc datele despre distribuția a 50 de candidați admiși la o facultate din București după media la examenul de admitere (candidații au fost aleși din listele de admitere) aleatoriu si nerepetat:

Se cere:

1) Să se verifice reprezentativitatea eșantionului candidaților după media la examenul de admitere știind că media la admitere pe total colectivitate ( 0 = 8,02).

2) Să se calculeze eroarea medie probabilă de selecție.

3) Eroarea maximă admisă dacă rezultatele se garantează cu o probabilitate de 95,45% pentru care z = 2 știind că volumul colectivității totale a fost de 655 candidați.

4) Să se estimeze limitele între care se va încadra media la admitere a tuturor candidaților.

5) Să se determine noul volum de selecții care va fi necesar, dacă eroarea limită admisă se reduce de 1,5 ori, iar probabilitatea cu care se garantează rezultatele rămâne neschimbată (respectiv

z = 2).

6) Să se determine dacă argumentul funcției Gauss Laplace va rămâne neschimbat prin micșorarea erorii limită admisă de la punctul anterior.

Rezolvare:

Notații:

N = volumul colectivității generale

n = volumul eșantionului

0 = media colectivității generale

= media de selecție a eșantionului

i2 = dispersia de selecții a eșantionului.

1) Pentru verificarea reprezentativității eșantionului este necesar să determinăm media de selecție și apoi coeficientul de reprezentativitate al eșantionului.

Media ():

– prin calcul simplificat: = k + a = 0,32 + 8,23 =
= 8,69 puncte/candidat

unde: a = 8,23 (centrul de interval căruia îi corespunde frecvența maximă)

k = 0,32 (pasul de numărare indică mărimea intervalului de grupare)

Algoritmul de calcul necesar determinării indicatorilor de selecție este prezentat în tabelul următor:

Coeficientul de verificare a reprezentativității

dc/0 = 100 = 100 = 0,81%

Deoarece dc/0 +5% se consideră că eșantionul este reprezentativ. Din punct de vedere al semnului coeficientul e pozitiv deci putem afirma că media eșantionului este mai mare decât media tuturor candidaților cu 0,06 puncte.

2) Eroarea medie probabilă de selecție

= 0,069 puncte/candidat.

Eroarea maximă admisă (limită):

X = z = 2 0,069 = 0,138 puncte/candidat.

4) Estimarea intervalului de încredere a mediei la admitere a tuturor candidaților se determină după relația:

– X 0 ( + X)

0,69 – 0,139 0 8,69 + 0,19

8,55 puncte 8,62 8,82 puncte

În cazul selecției aleatoare simple fără revenire erorile sunt mai mici decât în cazul selecției cu revenire, deci estimarea medie la admitere a tuturor candidaților este corectă. Media tuturor candidaților se va încadra între nota cea mai mică 8,55 puncte și nota cea mai mare d e8,82 puncte.

5) Volumul noului eșantion este dat de relația:

n’ = = 105,4 105 candidați

unde: ’X = = 0,092 puncte/candidat

Dacă eroarea limită admisă se micșorează de 1,5 ori, atunci volumul eșantionului va trebui să crească cu (105 – 50 = 55 candidați).

Se observă că volumul noului eșantion în cazul selecției aleatoare simple fără revenire este mai mic decât volumul noului eșantion în cazul selecției aleatoare simple cu revenire deoarece însăși procedeul de formare a eșantionului conduce la erori mai mici decât procedeul selecției aleatoare cu revenire.

6) z’ = = 1,31 (z’) = (1,31) = 0,8098 sau 80,98% rezultat din tabelele funcției Gauss Laplace.

Problema 11

În vederea estimării cheltuielilor lunare pentru alimentația publică,

s-a efectuat o cercetare prin sondaj, pe baza unui eșantion de 15%, selectat întâmplător și nerepetat din numărul total de persoane. Persoanele chestionate au fost împărțite în cinci grupe tipice, după veniturile medii lunare nete. În urma înregistrării și prelucrării datelor, s-au obținut rezultatele:

Se cere considerând că media cheltuielilor lunare pentru cele 6500 de persoane este 11,8 zeci mii u.m.:

1. Precizați dacă veniturile lunare reprezintă un factor semnificativ al cheltuielilor medii pentru alimentația publică; folosind a) regula de adunare a dispersiilor; b) testul „F” de analiză dispersională, știind că pentru P = 0,99;

2. Să se măsoare intensitatea legăturii dintre veniturile lunare și cheltuielile medii pentru alimentație publică pentru persoanele din eșantion, folosind un indicator de corelație adecvat.

Rezolvare:

Calculam media generala si dispersiile din fiecare grupa aplicand regula de adunare a dispersiilor:

Deoarece dy% = -5%; n = 975 persoane este reprezentativ.

Regula de adunare a dispersiilor ;

Dispersiile de grupă: ; ; ;

Media dispersiilor de grupă

Dispersia dintre grupe:

Dacă , adică . Pentru ca ; veniturile lunare constituie factor semnificativ pentru cheltuielile cu alimentația publică. Pentru certitudine, se va folosi testul „F” de analiză dispersională.

b)

, Deoarece; , veniturile lunare influențează semnificativ cheltuielile pentru alimentația publică.

Problema 12

Despre o societate comercială cu profil de comerț se cunosc următoarele date:

1. Caracterizați dinamica vânzărilor de mărfuri

a) pe fiecare marfă.

b) pe total societate comercială.

2. Calculati și interpretați indicii de grup ai volumului fizic și prețurilor

Rezolvare:

Notații:

0 = perioada de bază;

1 = perioada curentă; v = valoarea vânzărilor de mărfuri, v = p · q;

p = prețurile de vânzare (caracteristica calitativă);

q = cantitățile vândute (caracteristica cantitativă).

1. a) Algoritmul de calcul necesar determinării indicilor individuali
și de grup ai valorii, volumului fizic și ai prețurilor:

Dinamica vânzărilor de mărfuri se determină pe fiecare marfă cu ajutorul indicilor individuali calculați în tabelul de mai sus.

Valoarea vânzărilor pentru marfa A în perioada curentă față de perioada de bază se triplează ca urmare a creșterii prețurilor cu 270% în timp ce cantitățile vândute au crescut cu numai 3%. Pentru celelalte două mărfuri, se constată că valoarea vânzărilor este mai mare de 2,92 ori datorată creșterii prețurilor cu 180% în timp ce volumul fizic pentru marfa B a crescut cu 4%, iar pentru marfa C creșterea valorii vânzărilor de 3,12% se datorează creșterii prețurilor cu 200%, iar a cantităților vândute numai cu 4%. Deci, conform relației dintre indici avem:

1 b) și 2. pe total societate comerciala – indici de grup ai:

valorii mărfurilor vândute

volumului fizic calculați ca indici de tip Laspeyres (L) și Paasche (P):

prețurilor calculați ca indici de tip Laspeyres (L) și Paasche (P):

Din produsul celor doi indici factoriali se obține nivelul relativ al variabilei complexe pe ansamblul mărfurilor analizate:

Vânzările totale pentru societatea comercială analizată din perioada curentă față de perioada de bază cresc de 3,227 ori, cu o creștere relativă de 222,7%.

Cantitățile comparativ cu prețurile scad, motiv pentru care dinamica lor este nesemnificativă, iar prețurile se observă că au o tendință de creștere care devansează creșterea cantităților.

La nivelul societății comerciale, valoarea vânzărilor a crescut cu 222% ca urmare a faptului că prețurile de vânzare au fost cu 210,198% superioare în perioada curentă față de perioada de bază, iar cantitățile vândute au crescut cu 4,05%.

Problema 13

De la un punct de desfacere s-au cules următoarele date:

Calculați: dinamica valorii, volumului fizic și prețurilor pe fiecare marfă și pe total.

Rezolvare:

Avem următoarele relații:

Dinamica valorii și volumului fizic

a) pe fiecare marfă:

b) Dinamica valorii, volumului fizic și a prețurilor pe total punct de desfacere:

Problema 14

Se cunosc următoarele date privind efectivul anual al populației în perioada 2000-2005:

Sursa: Anuarul Statistic al României 2005

Să se reprezinte grafic seria și să se calculeze efectivul mediu la populației în perioada 2000-2004.

Rezolvare:

Avem o serie de momente cu intervale egale între momente, deci se reprezintă grafic prin cronogramă:

1 cm OY = 200.000 locuitori

Efectivul mediu al populației (media) se determină ca o medie cronologică simplă:

n = numărul de momente de timp = 5

Problema 15

Se cunosc următoarele date privind stocul de păcură al unei centrale termice:

Se cere:

să se reprezinte grafic stocul de păcură pentru tot anul;

să se calculeze stocul mediu de păcură pe toată perioada;

să se calculeze stocul mediu de păcură pe primul trimestru al anului.

Rezolvare:

Avem o serie de momente cu intervale neegale între momente, deci seria se va reprezenta grafic prin diagrama prin coloane:

1 cm OY = 2 tone

b) Stocul mediu de păcură pe toată perioada se determină ca o medie cronologică ponderată:

01.01 01.02 01.03 31.03 01.06 15.07 01.09 31.12

d1 = 1 lună d2 = 1 lună d3 = 1 lună d4 = 2 luni d5 = 1,5 luni d6 = 1,5 luni d7 = 4 luni

c) În primul trimestru avem o serie de momente cu intervale egale între momente, iar stocul mediu se va determina ca o medie cronologică simplă:

Primul trimestru cuprinde datele: 01.01; 01.02; 01.03; 31.03.

Lista exemple

Exemplul 1 1

Exemplul 2 2

Exemplul 3 4

Exemplul 4 4

Exemplul 5 5

Exemplul 6 5

Exemplul 7 6

Exemplul 8 6

Exemplul 9 7

Exemplul 10 9

Exemplul 11 10

Exemplul 12 10

Exemplul 13 11

Exemplul 14 15

Exemplul 15 16

Exemplul 16 17

Exemplul 17 40

Exemplul 18 41

Exemplul 19 51

Similar Posts