1_tresc.doc

(200 KB) Pobierz

Moduł I

Wprowadzenie do statystyki matematycznej

 

1.1. Badanie statystyczne – podstawowe pojęcia i metody

              Statystyka jest nauką o metodach badania zjawisk masowych, dążącą do ich poznania poprzez wykrycie prawidłowości i zasadniczych tendencji rządzących tymi zjawiskami. Pod pojęciem badania statystycznego rozumiemy ogół prac związanych z tym poznaniem. Możemy tu wyróżnić cztery etapy:

·         Projektowanie badania.

·         Obserwacja statystyczna (zbieranie informacji).

·         Opracowanie i prezentacja zebranych informacji.

·         Analiza otrzymanych wyników (opis lub wnioskowanie statystyczne).

 

1.       Projektowanie badania

a)      Etap pierwszy rozpoczynamy od określenia celu badania oraz hipotezy badawczej, którą staramy się zweryfikować w toku badania.

b)      Drugą czynnością jest określenie zakresu badania, poprzez co rozumiemy:

b1) określenie jednostki i zbiorowości statystycznej, jako zbioru jednostek posiadających pewne wspólne właściwości – cechy stałe;

b2) wybór zmiennych cech statystycznych, czyli właściwości jednostek, których poziom w badanej zbiorowości jest zróżnicowany i zgodnie z celem badania, będzie podlegał obserwacji;

c)      określenie rodzaju badania (całkowite, czy częściowe);

d)      określenie źródeł informacji (pierwotne, czy wtórne – jakie);

e)      opracowanie formularzy statystycznych i makiet tablic wynikowych;

f)       sporządzenie kosztorysu badania.

 

2.       Obserwacja statystyczna

Charakter obserwacji statystycznej zależny jest od rodzaju badania, liczebności badanej zbiorowości oraz częstotliwości badania (np. wypełnienie ankiety, czy formularzy spisowych, nadsyłania okresowych sprawozdań itp.).

3.       Opracowanie i prezentacja zebranych wyników.

Pierwszą czynnością jest kontrola zebranych wyników pod względem zupełności materiału (w badaniach pełnych – czy wszystkie jednostki nadesłały odpowiedzi, w badaniach częściowych – czy liczba uzyskanych informacji jest dostatecznie duża, aby móc przeprowadzić wnioskowanie statystyczne), pod względem zupełności zapisów (czy na każdym formularzu uzyskano odpowiedzi na wszystkie pytania) oraz logiczności zapisów.

Grupowanie (porządkowanie) indywidualnych informacji polega na podziale ogółu jednostek na podzbiory według poziomu określonej cechy. Pozwoli to na wykrycie prawidłowości tkwiących w badanym zjawisku. Rozróżnia się dwa sposoby grupowania: mechaniczne i typologiczne. Pierwsze polega na tworzeniu podzbiorów w oparciu o ogólnie przyjęte podstawy podziału; przy grupowaniu typologicznym wydzielone podzbiory tworzą określony typ jednostek (np. przy grupowaniu według wieku wydzielamy grupy: ludności w wieku przedprodukcyjnym, produkcyjnym, poprodukcyjnym).

W wyniku grupowania otrzymujemy szeregi statystyczne szczegółowe, lub rozdzielcze: punktowe lub przedziałowe (przedział klasowy zawiera wtedy więcej, niż jeden wariant badanej cechy). Zastosowane metody budowy szeregów zależą przede wszystkim od celu badania oraz od charakteru danych.

Prezentacja otrzymanych szeregów w postaci tablic lub wykresów. Przy budowie i publikacji tablic prostych (jedna zbiorowość pogrupowana według jednej cechy), złożonych (różne zbiorowości pogrupowane według tej samej cechy), czy kombinacyjnych (jedna zbiorowość pogrupowana według więcej, niż jednej cechy) trzeba zwracać uwagę na właściwy tytuł tablicy, stosowane jednostki pomiaru i podanie źródła informacji. Prezentacja graficzna (wykresy) służy przede wszystkim celom publikacyjnym – ułatwia porównania oraz zaobserwowanie prawidłowości charakteryzujących badaną zbiorowość. Metody sporządzania wykresów występują w różnych programach komputerowych.

 

*              Definicje podstawowych pojęć statystyki oraz uwagi szczegółowe podane są               w podręczniku [1] (rozdz. 1 i 2). Proszę zwrócić szczególną uwagę na definicje               cechy statystycznej, rozkładu empirycznego i dystrybuanty empirycznej,               klasyfikacje cech statystycznych i szeregów statystycznych oraz zasady               tworzenia przedziałów klasowych, zarówno przy cechach niemierzalnych,               jak i mierzalnych (ciągłych i skokowych).

 

4.       Analiza wyników obserwacji

              Analiza materiałów statystycznych może być przeprowadzona z różnych punktów widzenia, przede wszystkim w zależności od celu badania. Przy badaniu całkowitym otrzymujemy opis statystyczny, natomiast badanie częściowe przeprowadzone metodą reprezentacyjną daje materiał liczbowy dla wnioskowania o całej zbiorowości (populacji generalnej) na podstawie wyników uzyskanych z losowo dobranej próby. Najczęściej analiza idzie w kierunku badania:

·         struktury zbiorowości,

·         zależności tkwiących w zbiorowości,

·         tendencji rozwojowej zjawiska.

 

1.2. Podstawowe charakterystyki liczbowe struktury badanej zbiorowości.

              Podstawą analizy struktury zbiorowości są szeregi strukturalne (rozdzielcze), zbudowane w oparciu o cechę mierzalną lub niemierzalną. Najprostszym sposobem przedstawienia struktury dla obu tych przypadków jest wyznaczenie rozkładu empirycznego zbiorowości oraz empirycznej dystrybuanty. Rozkład charakteryzujemy przy pomocy wskaźników struktury wyrażających stosunek liczby elementów w konkretnej klasie (i-tej) do  liczby elementów w całej zbiorowości. Wyznaczamy je więc według wzoru:

,             

gdzie k oznacza liczbę wyróżnionych podzbiorów (klas lub przedziałów klasowych) w szeregu strukturalnym. Wyraża on częstość z jaką dany wariant cechy, występuje w badanej zbiorowości. Miernik ten posiada właściwości:

     i     ,

gdzie k – oznacza liczbę podzbiorów.

              Dla celów publikacyjnych często wyrażamy je w procentach i wtedy:

     i     ,

              Jeżeli porównujemy wskaźniki struktury w procentach dla dwóch podzbiorów poprzez ich odejmowanie, to wynik wyrażamy w punktach procentowych, np. gdy udział braków w produkcji jednego artykułu wynosi  3% a drugiego – 5%, to różnica wynosi 2 punkty procentowe.

              Dystrybuantą empiryczną nazywamy przyporządkowanie kolejnym wartościom zmiennej (cechy statystycznej) w szeregu rozdzielczym odpowiadających im częstości skumulowanych.

 

*              Szerzej na temat rozkładu i dystrybuanty empirycznej można przeczytać w               podręczniku [1], rozdz. 2.

 

              W szeregach zbudowanych w oparciu o cechy mierzalne stosujemy ponadto syntetyczne (wyrażone przy pomocy jednej wielkości) mierniki (parametry) opisujące strukturę zbiorowości. Należą tu przede wszystkim:

·         miary średnie;

·         miary zróżnicowania (dyspersji, rozrzutu);

·         miary skośności.

W metodach wnioskowania statystycznego najczęściej wykorzystywane są niektóre z dwóch pierwszych grup.

1.              Miary średnie należą (obok tzw. kwantyli) do miar tendencji centralnej (miar położenia). Są to takie wartości badanej zmiennej, wokół których skupia się większość wartości analizowanej cechy. Wszystkie miary średnie są wielkościami mianowanymi (mają takie samo miano, jak badana cecha), oraz spełniają warunek: ich poziom mieści się między najmniejszą i największą wartością szeregu (po obliczeniu wartości parametru należy to sprawdzić w ramach kontroli logicznej!). Miary średnie można podzielić na dwie grupy: klasyczne (obliczone  ze wszystkich wyrazów szeregu) oraz pozycyjne (wyznaczone z niektórych tylko wyrazów szeregu wyróżnionych ze względu na pozycję, jaka w tym szeregu zajmują).

Najczęściej stosowaną klasyczną średnią jest średnia arytmetyczna. W szeregu szczegółowym stosujemy jej postać prostą:

                                                              

gdzie N oznacza łączną liczbę obserwacji. (Należy sprawdzić warunek: )

              W przypadku szeregów rozdzielczych stosuje się ważoną postać średniej arytmetycznej, gdzie wagami są liczby jednostek posiadających dany (i-ty) poziom badanej cechy:

·         dla szeregów punktowych (klas jedno-jednostkowych)

.                                                                     

·         dla szeregów o przedziałach klasowych wyznaczamy najpierw środek każdego przedziału . Środek przedziału jest średnią arytmetyczną obliczoną z początku i końca przedziału. Wówczas średnia arytmetyczna dla szeregu rozdzielczego ma postać:

.                                                                     

*              W szeregach strukturalnych stosuje się także inne średnie (średnią harmoniczną,               medianę i dominantę), ale nie mają one z reguły zastosowania we wnioskowaniu               statystycznym. Zainteresowanego nimi studenta odsyłamy do podręcznika [1]               paragraf 3.2.

2.               Miary zróżnicowania (dyspersji).

Określają one stopień zróżnicowania zbiorowości statystycznej z punktu widzenia badanej cechy. I w tym przypadku (jak przy średnich) rozróżniamy miary klasyczne i pozycyjne. Jedną z najczęściej stosowanych klasycznych miar dyspersji jest odchylenie standardowe, które wyraża przeciętną odległość poszczególnych wartości zmiennej w badanej zbiorowości od ich średniej arytmetycznej. Miernik ten obliczamy według wzorów:

·         dla szeregu szczegółowego

                                          ,                                                                     

·         dla szeregu rozdzielczego punktowego:

,                                         

·         dla szeregu rozdzielczego z przedziałami klasowymi:

.                                                       

              Otrzymujemy wartość mianowaną, posiadającą takie samo miano, jak badana cecha.               Kwadrat odchylenia standardowego nazywamy wariancją. Pojęcie to jest często stosowane we wnioskowaniu statystycznym.

 

Jeżeli chcemy porównać stopień rozproszenia dwóch (lub więcej szeregów) to obliczamy względną (stosunkową) miarę rozproszenia – współczynnik zmienności, wyrażoną w procentach średniej arytmetycznej.

.                                                                                    (1.2.8)                           

              Oprócz odchylenia standardowego występują inne miary dyspersji klasyczne (np. odchylenie przeciętne) i pozycyjne (np. odchylenie ćwiartkowe obliczone w oparciu o tzw. kwartyle).

 

*              Więcej informacji na temat miar zmienności podane jest w podręczniku [1]               paragraf 3.3. Zaleca się prześledzenie podanych w tym paragrafie przykładów               wyznaczania miar rozproszenia i interpretacji tych miar.

 

1.3.  Badanie reprezentacyjne – podstawowe pojęcia i metody

              Z punktu widzenia pełności obserwacji statystycznej rozróżniamy badania całkowite i częściowe. W pierwszym przypadku obserwacji poddajemy wszystkie jednostki tworzące zbiorowość statystyczną, w drugim natomiast – tylko część jednostek. Badanie całkowite daje w zasadzie lepsze rezultaty, ponieważ obejmuje całą zbiorowość. Coraz częściej zbiorowość ta jest  bardzo liczna, czasem nawet nieskończenie liczna, rosną więc zarówno koszty badania, jak i jego pracochłonność. Ponadto w niektórych przypadkach (np. w badaniu jakości produkcji) jednostka ulega zniszczeniu; uniemożliwia to przeprowadzenie badania całkowitego. Stąd rośnie zainteresowanie badaniami częściowymi.

              Wybór elementów, które będą podlegać obserwacji w badaniu częściowym może mieć dwojaki charakter: świadomy lub losowy. Jeżeli zastosujemy ten drugi sposób doboru jednostek, to uznajemy, że otrzymaliśmy próbę (próbkę) reprezentatywną w stosunku do całej zbiorowości; zastosowaną metodę badania nazywamy metodą reprezentacyjną. Wyniki otrzymane z próby stają się podstawą wnioskowania statystycznego dotyczącego prawidłowości i tendencji tkwiących w całej badanej zbiorowości (populacji generalnej). Podstawy wnioskowania stanowi rachunek prawdopodobieństwa i inne metody tzw. statystyki matematycznej.

              Przed przystąpieniem do losowania z reguły sporządzamy tzw. operat losowania, czyli spis wszystkich jednostek tworzących zbiorowość generalną (np. kartoteka ogółu pracowników, wykaz budynków mieszkalnych itp.).

              Dobór elementów do próby może się odbywać przy pomocy różnych schematów. Do najważniejszych należy ich podział na losowanie niezależne (ze zwrotem) i zależne (bez zwrotu). W pierwszym przypadku wylosowany element wraca do zbiorowości generalnej (np. do urny, czy kartoteki), struktura tej zbiorowości nie ulega zmianie, a więc prawdopodobieństwo wylosowania jednostki o danym wariancie pozostaje stałe, czyli wynik następnego losowania nie jest zależny od wyniku przeprowadzonych losowań. W drugim przypadku nie zwracamy wylosowanego elementu, wynik każdego następnego losowania zależy od poprzednich wyników. Słuszne jest więc stosowanie niezależnego schematu; warto jednak dodać, że przy bardzo licznej zbiorowości zależność ta jest niewielka. Stosując niezależny schemat losowania otrzymujemy tzw. próbę prostą.

              Inny podział schematów – to losowanie indywidualne i zespołowe. W pierwszym przypadku losujemy oddzielnie poszczególne elementy (np. z kartoteki - kartę poszczególnego pracownika), a w drugim – pewne naturalne zespoły elementów (np. wszystkie gospodarstwa domowe w wylosowanych posesjach).

              Ważny jest też podział schematów losowania na nieograniczone i warstwowe. Przy nieograniczonym losujemy elementy bezpośrednio z całej próby, przy warstwowym natomiast - zbiorowość dzielimy najpierw na podzbiory (warstwy) bardziej jednorodne z określonego punktu widzenia (np. ludność miast i wsi, pracownicy różnych gałęzi itp.) i losujemy oddzielnie z każdej warstwy. W zależności od celu badania – wyniki badamy oddzielnie dla każdej warstwy lub łącznie dla całej próby; w tym drugim przypadku struktura liczebna podzbiorów w próbie powinna być proporcjonalna do struktury całej zbiorowości.

              W niektórych przypadkach stosowany jest tzw. wielostopniowy schemat losowania (np. trójstopniowe). Na podstawie operatu losowania wybieramy elementy do próby pierwszego stopnia (np. budynki mieszkalne w danej zbiorowości), spośród nich losowo jednostki drugiego stopnia (np. lokale w wylosowanych budynkach) i wreszcie jednostki do próby właściwej (np. osoby w wylosowanych lokalach). Sposób ten może zwiększyć reprezentatywność próbki.

              W pewnych przypadkach, zwłaszcza, gdy nie mamy możliwości sporządzenia operatu losowania, stosujemy tzw. losowanie systematyczne. Zadajemy np. (przy badaniu opinii) to samo pytanie co dwudziestej (dziesiątej, piątej itp.) osobie wychodzącej z lokalu wyborczego, robiącej  zakupy w danym sklepie itp.

              W konkretnych przypadkach zwykle stosujemy kombinację różnych schematów losowania (np. losowanie niezależne  może być warstwowe lub indywidualne, wielostopniowe może być zależne lub niezależne itp.).

              Bez względu na zastosowany schemat losowania, musimy się liczyć z możliwością popełnienia błędu przy uogólnianiu wyników z próby na całą zbiorowość. Przy badaniu częściowym zawsze taka możliwość istnieje. Wyróżniamy tu dwa rodzaje błędów: przypadkowe (losowe) i systematyczne (wynikające np. ze świadomego wyboru pewnej grupy jednostek). Błędy losowe maleją wraz ze wzrostem liczebności  wybranego do obserwacji podzbioru elementów, natomiast systematyczne – nie maleją. Zastosowanie losowego doboru jednostek pozwala na uniknięcie błędów systema...

Zgłoś jeśli naruszono regulamin