statystyka opisowa.doc

(139 KB) Pobierz
STATYSTYKA OPISOWA

STATYSTYKA OPISOWA

 

Statystyka





Statystyka opisowa                            Statystyka matematyczna

 







                            Losowanie (pomiar)

































































 

Populacja generalna                                                                      Próbka

(rezultaty potencjalnych pomiarów)                                          (rezultaty pomiarów)

 

Statystyka opisowa zajmuje się wstępnym opracowaniem wyników pomiarów (próbki) bez posługiwania się rachunkiem prawdopodobieństwa. Nie wyciągamy wniosków dotyczących populacji generalnej.

Niech  x1, x2, x3,...xn będzie próbką n-elementową.              n – liczność (liczebność). Parametry obliczone z próbki będą dalej nazywane statystykami.

 

1. Graficzne przedstawienie próbki: szereg rozdzielczy, histogram, łamana częstości

 

Rozstęp              R=xmax-xmin

Klasy                            Dla próbek o dużej liczebności (n>30) elementy próbki grupuje się w klasach, tj. przedziałach o równej lub nierównej długości. Niech k oznacza ilość klas. Ile klas k przyjąć dla danej próbki? Można się kierować następującymi orientacyjnymi regułami:

                            k£5 lg(n)              k=1+3.32 lg(n)              k=Ön

Zatem, gdy n=20, to k=4 ¸ 6, gdy n=40, to k=6 ¸ 8

Długość klasy b@R/k

Niech ni­ – liczność i-tej klasy, a środek i-tej klasy. Wtedy pary liczb (, ni) nazywamy szeregiem rozdzielczym. Graficzne przedstawienie szeregu rozdzielczego nazywa się histogramem.

Na osi poziomej histogramu – środki klas lub granice poszczególnych klas, na osi pionowej histogramu – liczności klas, częstości (frekwencje) w­i=ni/n, lub vi=wi/b. Łącząc punkty o współrzędnych dla i=1,...,k, otrzymujemy tzw. łamaną częstości.

 

2. Statystyki lokacji rozkładu

Średnia arytmetyczna liczb x1, x2, x3,...xn  określona jest wzorem

                                           

Charakterystyczna własność średniej arytmetycznej: suma wszystkich odchyleń jest równa zero;   .

Średnia geometryczna  liczb dodatnich określona jest wzorem

                                         

Średnia harmoniczna , różnych od zera liczb x1, x2, x3,...xn,, nazywamy odwrotność średniej arytmetycznej odwrotności tych liczb

                                         

Mediana (wartość środkowa) me – środkowa liczbę w uporządkowanej niemalejąco próbce (dla próbki o liczności nieparzystej) lub średnią arytmetyczną dwóch liczb środkowych (dla próbki o liczności parzystej).

Wartością modalną (modą, dominantą) m0 próbki o powtarzających się wartościach nazywamy najczęściej powtarzającą się wartość, o ile istnieje, nie będącą xmin ani xmax.

Jeżeli w szeregu rozdzielczym najliczniejsze są obie klasy skrajne, to szereg rozdzielczy nazywamy antymodalnym typu U, a środek najmniej licznej klasy antymodą. Gdy najliczniejsza jest jedna z klas skrajnych, to szereg rozdzielczy nazywamy antymodalnym typu J.

Rozkład dwumodalny – gdy występują dwie jednakowo liczne i najliczniejsze klasy nie będące skrajnymi.

Rozkład jednomodalny, dwuwierzchołkowy – występują dwie najliczniejsze klasy, ale nie są jednakowo liczne i nie są skrajnymi.

Kwantyl rzędu q (0<q<1) – taka wartość xq, przed którą (tzn.dla x£xq) znajduje się 100q % elementów próbki. Gdy q=0.25, 0.5, 0.75, to takie kwantyle nazywamy kwartylami. Gdy q=0.25 mówimy o kwartylu dolnym, gdy q=0.75 mówimy o kwartylu górnym. Kwartyl q=0.5 jest medianą.

 

3. Statyki rozproszenia (rozrzutu, rozsiania) rozkładu

Rozstęp R;

Wariancja s2  średnia arytmetyczna kwadratów odchyleń poszczególnych wartości xi od średniej arytmetycznej

Odchylenie standardowe

Odchylenie przeciętne d1 od wartości średniej – średnia arytmetyczna wartości bezwzględnych odchyleń poszczególnych wartości xi od średniej arytmetycznej

Odchylenie przeciętne d2 od mediany – średnia arytmetyczna wartości bezwzględnych odchyleń poszczególnych wartości xi od mediany me

                                         

4. Statystyki kształtu rozkładu

Momentem zwykłym ml rzędu l próbki x1, x2, x3,...xn  nazywamy średnią arytmetyczną l-tych potęg wartości xi

                                         

Zauważmy, że m1=

Momentem centralnym Ml rzędu l próbki x1, x2, x3,...xn  nazywamy średnią arytmetyczną l-tych potęg odchyleń wartości xi od średniej arytmetycznej próbki

                                         

Zauważmy, że M1=0, M2=s2.

Współczynnik asymetrii (skośności) g1

                                         

gdzie s jest odchyleniem standardowym. Dla rozkładu normalnego g1=0. Gdy rozkład ma długi „ogon” dla wartości większych od wartości średniej, to g1>0, gdy „ogon” występuje po stronie wartości mniejszej niż średnia, to g1<0. 

Współczynnik koncentracji (skupienia), kurtoza K

                                         

gdzie s jest odchyleniem standardowym. Kurtoza ma wartość 3 dla rozkładu normalnego. Gdy K>3, to rozkład jest bardziej skupiony („szpiczasty”) niż rozkład normalny, gdy K<3, to rozkład jest bardziej spłaszczony niż rozkład normalny.

Współczynnik spłaszczenia, eksces g2

                                          g2=K-3

Dla rozkładu normalnego g2=0.

Współczynnik zmienności n

                                         

gdzie s jest odchyleniem standardowym.

Współczynnik nierównomierności H

                                         

gdzie d1 jest odchyleniem przeciętnym od średniej arytmetycznej.

 

5. Graficzne przedstawienie próbki: prawdopodobieństwo skumulowane, wykres ramkowy

Zakładamy, że prawdopodobieństwo uzyskani każdego elementu próbki n elementowej jest równe 1/n. Uporządkujmy próbkę według wartości rosnących. Prawdopodobieństwem skumulowanym (dystrybuantą empiryczną) p(x) dla danego x nazywamy prawdopodobieństwo otrzymania wartości mniejszej lub równej x: p(x)=p(xi£x) w próbce uporządkowanej.

Jednym z wielu sposobów graficznej prezentacji próbki jest wykres ramkowy, potocznie nazywany  ‘pudełkiem z wąsami’ (ang. box-and-whisker plot), zaproponowany w 1977 roku przez J.Tukey’a. Rysujemy najpierw prostokąt, którego dolny bok jest kwartylem dolnym, a górny bok kwartylem górnym. Pozioma linia dzieląca prostokąt to mediana. Wąsy powstają z połączenia powstałego pudełka z krótkimi liniami poziomymi, narysowanymi dla kwantyla q=0.95 (górny wąs) i kwantyla 0.05 (wąs dolny). Na rysunku zaznaczyć można także inne wartości kwantyli (np. 0.01 i 0.99), jak i inne statystyki próbki, np. wartość średnią, ekstremalne wartości w próbce, itp.
PRZYKŁAD: Próbka 40. elementowa – utworzona za pomocą  generatora liczb losowych, z rozkładu lognormalnego LND(4, 0.4)  (Program MATHEMATICA) 

 

48.4478              69.2368              21.6994              29.3819              65.3572

45.7823              55.4199              42.1859              47.8664              55.7535

87.1514              49.3306              37.5616              56.4771              26.8422

74.2661              51.3336              77.8302              40.1117              41.5877

55.8195              35.9834              67.6347              82.9544              42.1217

61.1744              35.7469              43.1695              48.9212              52.3768

63.7887              39.5142              153.613              98.6516              86.1010

30.4353              34.3459              39.4973              21.1369              91.6702

 

n=40, xmin=21.1369, xmax=153.613, R=132.476

Rys. 1. Histogram próbki. Zaznaczono granice klas (na osi x) i ilość elementów w klasie (na osi y)

 

Statystyki lokacji rozkładu:

średnia arytmetyczna                                          =55.2071

średnia geometryczna                                          =50.5966

średnia harmoniczna                                          =46.5614

mediana                                                        me=49.1259

moda                                                                      brak

Statystyki rozproszenia:

wariancja                                                        s2=615.69

...

Zgłoś jeśli naruszono regulamin