Free Essay

Statistica Cursb4

In:

Submitted By bb1annca
Words 972
Pages 4
STATISTICĂ – curs 4
Măsuri ale împrăştierii pentru date nerezumate

Măsurile locaţiei studiate în cursul precedent ne-au ajutat să ne formăm o imagine asupra mulţimii de date. Dar aceste mărimi nu sunt întotdeauna suficiente pentru a ne face o idee despre ce nume diferenţiază două sau mai multe mulţimi supuse analizei. Să vedem un exemplu în acest sens:
Exemplu: Presupunem că managerul unei companii trimite comenzi către doi ofertanţi de materii prime. Ambii spun că au nevoie de aproximativ 10 zile pentru a onora comanda. Cu toate acestea, histogramele ce corespund perioadei de onorare a comenzii îl nedumeresc pe manager: Putem observa că al doilea ofertant poate aduce marfa şi după 14 sau 15 zile de la comandă lucru ce poate afecta ritmul corect al procesului de producţie. Astfel, deşi cei doi ofertanţi aduc produsele în aproximativ 10 zile, împrăştierea punctelor faţă de valoarea medie diferă foarte mult, lucru care îl va ajuta pe manager în luarea unei decizii.
Măsurile împrăştierii: * Randul sau amplitudinea * Dispersia sau varianţa * Abaterea standard sau abaterea medie pătratică * Coeficientul de variaţie
Revenim la exemplul privind salariile iniţiale ale absolvenţilor specializării Finanţe:
1550, 1650, 1750, 1455, 1410, 1550, 1590, 1860, 1640, 2025, 1620, 1580.

Rangul este cea mai simplă măsură a variabilităţii unei mulţimi de date.
Se calculează ca diferenţa dintre cea mai mare şi cea mai mică valoare din mulţimea de date.
Pentru exemplul absolvenţilor specializării Finanţe, Rangul = 2025 – 1410 = 615 lei.
Deşi este o măsură simplă a variabilităţii este folosit foarte rar deoarece depinde doar de două valori din mulţime, deci este influenţat de valorile extreme. De exemplu, dacă un absolvent ar avea salariul iniţial egal cu 10.000 lei atunci rangul ar fi fost 10.000 – 1410 = 8590 lei. Totuşi, restul de 11 salarii din cele 12 sunt strâns grupate între 1410 şi 1860 deci au o variabilitate mică. Putem spune că această valoare a rangului, 8590 lei nu va descrie foarte relevant variabilitatea datelor.
Statisticienii preferă măsuri ale variabilităţii care implică toate datele.

Dispersia
Principiul care stă la baza acestei mărimi este să luăm în calcul abaterile elementelor din mulţime faţă de tendinţa lor centrală, valoarea medie.
Pentru absolvenţii specializării finanţe, abaterile individuale sunt calculate în coloana 4 a tabelului 1. Absolvent | Salariu iniţial | Media salariului iniţial | Abaterile faţă de media de selecţie | Pătratele abaterilor faţă de media de selecţie | 1 | 1550 | 1640 | - 90 | 8100 | 2 | 1650 | 1640 | 10 | 100 | 3 | 1750 | 1640 | 110 | 12100 | 4 | 1550 | 1640 | - 90 | 8100 | 5 | 1455 | 1640 | - 185 | 34225 | 6 | 1410 | 1640 | - 230 | 52900 | 7 | 1590 | 1640 | - 50 | 2500 | 8 | 1860 | 1640 | 220 | 48400 | 9 | 1640 | 1640 | 0 | 0 | 10 | 2025 | 1640 | 385 | 148225 | 11 | 1620 | 1640 | - 20 | 400 | 12 | 1580 | 1640 | - 60 | 3600 | Totaluri | 19680 | | 0 | 318650 |

Dacă însumăm abaterile faţă de medie obţinem zero, lucru adevărat pentru orice mulţime. Cum abaterile pozitive şi cele negative se anulează reciproc, calculul abaterii medii nu conduce la nicio informaţie privind variabilitatea mulţimii de date. Ce putem face pentru a elimina minusurile? Putem considera valoarea în modul dar acest procedeu ne încurcă în cazul derivării şi atunci ar fi de preferat să ridicăm la pătrat abaterile individuale.
Media pătratelor abaterilor de la medie pentru o mulţime de date care reprezintă o întreagă populaţie se numeşte dispersie.
Dacă lucrăm cu întreaga populaţie de interes vom calcula dispersia populaţiei, σ2=i=1Nxi-μ2N Dacă lucrăm cu un eşantion vom calcula dispersia de selecţie, s2=i=1nxi-x2n Dispersia de selecţie este un estimator al dispersiei populaţiei.
În cazul absolvenţilor specializării Finanţe, dispersia de selecţie este s2=318.65011=28.968,18 Deoarece unitatea de măsură a dispersiei este pătratul unităţii de măsură a mediei, aceasta nu poate fi interpretată. Pentru a putea interpreta va trebui să extragem radical.

Abaterea standard este definită ca rădăcina pătrată din dispersie.
Abaterea standard a populaţiei este σ=σ2.
Abaterea standard de selecţie este s=s2.
În exemplul absolvenţilor specializării Finanţe, s = 170,2 lei.

Coeficientul de variaţie este o măsură relativă a variabilităţii.
Atunci când avem două mulţimi ce au aceeaşi medie sau aceeaşi dispersie ne va fi uşor să le comparăm.
În cazul în care atât media cât şi dispersia celor două mulţimi de date diferă vom calcula raportul celor două valori pentru a ne forma o părere cu privire la modul în care se raportează una la cealaltă.
În cazul populaţiei, coeficientul de variaţie va fi σμ∙100.
În cazul eşantionului, coeficientul de variaţie va fi sx∙100.
În exemplul absolvenţilor specializării Finanţe, coeficientul de variaţie va fi
170,21640∙100=10,38%
Interpretarea coeficientului de variaţie: abaterea standard pentru aceste date reprezintă 10,38% din valoarea mediei de selecţie.

Teorema lui Cebîşev
Adesea în studiile statistice nu cunoaştem datele ca atare ci doar media şi dispersia. Totuşi, suntem interesaţi să specificăm procentul itemilor dintr-o mulţime de date care se găsesc într-un interval stabilit. Teorema lui Cebîşev face afirmaţii cu privire la fracţiunea de itemi din mulţimea de date care se referă la un număr de abateri standard faţă de medie.
Teorema: pentru orice mulţime de date şi pentru orice k ≥ 1, cel puţin 1-1k2 dintre valorile mulţimii se află la o distanţă de ±k abateri standard faţă de medie.
Observaţie: când aplicăm teorema lui Cebîşev tratăm orice mulţime de date ca pe o populaţie.
Pentru absolvenţii specializării Finanţe avem x=1640 lei, σ=318.65012=162,95 lei.
Fie k = 2. Căutăm fracţiunea de itemi care se află la o distanţă de ± 2 abateri faţă de medie.
1-1k2=1-14=0,75
Vom spune că 75% din valori se află la ± 2 abateri faţă de medie în intervalul
(1640 – 2*162,95; 1640 + 2*162,95)
(1314,10;1965,90).
Pierderea de informaţii constituie un dezavantaj al acestei teoreme. Din analiza eşantionului specializării Finanţe, 92,5% dintre absolveni au salariul cuprins în intervalul 1314,10 şi 1965,90.

Similar Documents