podstawowe zagadnienia statystyki 1.doc

(197 KB) Pobierz

Statystyka – oznacza zbiór danych dotyczących określonego zagadnienia, ogół prac związanych ze zbieraniem danych liczbowych .

Statystyka to nauka o zjawiskach ilościowych .

Zbiorowość statystyczna (populacja) to zbiór osób , przedmiotów lub zjawisk podobnych do siebie ale nie identycznych poddanych badaniu statystycznemu.

Jednostka statystyczna to każdy element zbiorowości statystycznej.

Badanie statystyczne w których bezpośredniej obserwacji podlegają wszystkie jednostki statystyczne to jednostki statystyczne pełne. Badanie statystyczne częściowe to badanie w którym bezpośredniej obserwacji podlega tylko pewien podzbiór statystyczny który nazywamy próbą. Zadaniem statystyki matematycznej jest przy wykorzystaniu metod rachunku prawdopodobieństwa wnioskowanie o całej zbiorowości statystycznej na podstawie wyników z prób. Aby na podstawie wyników z próby odnieść wnioski do całej zbiorowości próba powinna być

dostatecznie liczna
reprezentatywna tzn ze względu na badaną cechę struktura próby powinna byś zbliżona do struktury całej zbiorowości

Jednostki statystyczne mogą być wybrane do próby dwoma sposobami

przez losowanie jest to wybór przypadkowy dający każdej jednostce takież same szanse znalezienia się w próbie,
przez celową selekcję gdy jednostki do próby kwalifikuje się w sposób celowy.

Badanie statystyczne dotyczy zawsze pewnych właściwości jednostek statystycznych, które nazywamy cechami statystycznymi (cechy statystyczne zmienne podlegające badaniu) ponieważ sama typowanie jednostek do zbiorowości statystycznej wiąże się z określeniem cech które spowodują zaliczenie jednostki do danej zbiorowości. Cechy statystyczne zmienne dzielimy na :

Cechy statystyczne mierzalne (ilościowe)
Cechy statystyczne niemierzalne

AD1 Cechy statystyczne mierzalne są to takie cechy których różne warianty określane są za pomocą liczb pochodzących z pomiaru lub policzenia i wyrażone w określonych jednostkach np. wysokość dochodów, czas wykonania określonej pracy, itp. Cechy mierzalne można podzielić na dwie zasadnicze grupy:

a. cechy mierzalne swobodne mające skończone lub przeliczalny zbiór wartości i wartości te niezależną od dokładności pomiaru, np. liczba osób w rodzinie, liczba książek przeczytanych w ciągu roku, itp. Cechy skokowe wyrażane są w wartościach całkowitych.

b. Cechy mierzalne ciągłe które przyjmują wartości z pewnych przedziałów mogą być podane z różną dokładnością zależną od sposobu wykonania pomiaru np. czas wykonania pewnego detalu gdy badamy wydajność pracy, długość włókna przędzy jeśli badamy jej jakość.

Ad2 Cechy statystyczne niemierzalne to cechy których warianty opisujemy słowami które w naturalny sposób nie wyrażają się liczbami np. płeć, zawód, rodzaj ulubionej rozrywki, z pośród cech niemierzalnych wyodrębniamy cechy :

a. dwudzielne które mają tylko dwa warianty

b. cechy wielodzielne które mają tych wariantów więcej np. zawód

Z pośród cech wielodzielnych wyodrębniamy cechy, fazy mierzalne które to warianty można uporządkować według stopnia nasilenia cechy np. stan zdrowia (bardzo dobry, bardzo zły)

Cechy mierzalne

Jeżeli rozpatrujemy cechę mierzalną pewnej zbiorowości statystycznej to możemy potraktować ją jak zmienną losową i wyznaczyć jej rozkład.

Rozkład cechy w całej populacji statystycznej znamy tylko wtedy gdy przeprowadzamy badanie statystyczne pełne, gdy przeprowadzamy badanie statystyczne częściowe to znamy tylko rozkład próby tj. rozkład empiryczny. Rozkład cechy całej zbiorowości statystycznej jest znany nam przy badaniu częściowym to rozkład teoretyczny.

Przykład

Aby zbadać ile czasu tygodniowo przeznacza się w 4 osobowych rodzinach w dużych miastach Polski na prace domowe, wybrano w sposób losowy 1256 takich rodzin i dla tych rodzin wyznaczono średni czas przeznaczony na prace domowe =10,5 h , odchylenie standardowe s=3,2 h.

Dla tego badania populacje statystyczną generalną to są wszystkie 4 osobowe rodziny dużych miast Polski, jednostką jest każda 4 osobowa rodzina. Cecha którą badamy to czas przeznaczony na prace domowa. Rodzaj cechy jest to cecha mierzalna ciągła.

Rozkład teoretyczny to rozkład zmiennej losowej która przyjmuje wartości równe wykonywania prac domowych we wszystkich tych rodzinach.

Rozkład empiryczny to rozkład tego czasu w zbadanej próbie. Zadaniem statystyki matematycznej jest wnioskowanie o tym co się dzieje we wszystkich rodzinach dużych miast Polski jeśli chodzi o czas poświęcony na prace domowe na podstawi tej liczącej 1256 elementów próby. Zadaniem statystyki matematycznej jest wnioskowanie o rozkładzie teoretycznym na podstawie znajomości rozkładu empirycznego, w ramach wnioskowania empirycznego wyróżnia się dwa zasadnicze działy.

estymacja czyli szacowanie parametrów lub postaci rozkładu teoretycznego na podstawie danych z rozkładu empirycznego
weryfikacja (testowanie) hipotez statystycznych to sprawdzanie określonych przypuszczeń dotyczących typu rozkładu teoretycznego parametrów tego rozkładu, współzależności cech, itp.

Parametry (charakterystyki liczbowe) są to takie liczby np. wartość średnia odchylenie standardowe które w sposób syntetyczny opisują nam zbiorowość statystyczną ze względu na badaną cechę.

Estymacja parametryczna

W teorii estymacji dotyczącej nieznanych parametrów rozkładu teoretycznego wyróżnia się estymację punktową i przedziałową.

Estymacja punktowa polega na znalezieniu takiej liczby która przy z góry założonej dokładności i wynikach uzyskanych z próby może być uznana za najlepszą ocenę nieznanego parametru rozkładu teoretycznego. Estymator Tn nieznanego parametru T w populacji statystycznej nazywamy taką zmienną losową której wartość obliczona na podstawie próby służy do oszacowania nieznanej wartości parametru T. Konkretną wartość liczbową

tn=t(x1 x2 x3....... xn) estymatora Tn obliczono dla wyników (x1 x2 x3..... x1) z próby nazywamy oceną parametru t.

Bardzo ważną rzeczą jest wybór estymatora dla danego parametru. W statystyce określone są własności jakie powinien posiadać ten estymator. Dla najważniejszych parametrów rozkładu teoretycznego przyjmuje się następujące estymatory. Dla wartości przeciętnej średnią arytmetyczną z próby

Dla wariacji

gdy n>30

lub gdy m30

Odchylenie standardowe

Znacznie częściej niż estymacja punktowa stosowana jest estymacja przedziałowa. Przy tej estymacji zamiast liczbowej oceny wartości parametru podaje się pewien przedział który zawiera nieznaną wartość parametru z dużym z góry określonym prawdopodobieństwem, takie przedziały nazywamy przedziałem ufności.

Przedziałem ufności nazywamy tai przedział który z zadanym z góry prawdopodobieństwem 1-a nazywanym poziomem ufności (współczynnik ufności) zawiera nieznaną wartość szacowanego parametru. Przedziały ufności wyznacza się dla wszystkich parametrów. Najczęściej używane to : przedział ufności dla wartości przeciętnej i przedział ufności dla wskaźnika struktury.

Przedział ufności dla wartości przeciętnej.

Zakładamy że badana cecha x ma w populacji generalnej układ normalny o wartości przeciętnej m i odchyleniu standardowym s, przedział ufności dla wartości przeciętnej m wyznaczamy z wzorów

dla próby o liczebności n>30

- średnia arytmetyczna z próby

s- odchylenie standardowe z próby

ua- znajdujemy w tablicy rozkładu

normalnego tak że f(ua)=1-

gdy próba jest mniej liczna tzn gdy n£30 stosujemy wzór

- średnia arytmetyczna z próby

s- odchylenie standardowe z próby

- odczytujemy z tablicy rozkładu

studenta

Przykład

Oszacować metodą przedziałową tygodniowe wydatki na słodycze mieszkańców pewnego miasta na poziomie ufności 1-a=0,95 wiedząc że dla 100 losowo wybranych rodzin otrzymano średnie wydatki 12 zł przy odchyleniu standardowym s=4,72 zł.

z prawdopodobieństwem 0,95

Maksymalny błąd oszacowania przedziałowego jest równy połowie długości przedziału ufności.

Przy dużych próbach można z tego wzoru wyznaczyć n i obliczyć jak duża powinna być próba żeby wyznaczyć oszacowanie ze z góry zadaną wartością. S wyznaczamy ze wstępnej niewielkiej próby. Jest to maksymalny błąd oszacowania.

Uwagi:

przy zadanym poziomie ufności im większa jest liczebność próby tym krótszy przedział ufności
przy ustalonej liczebności próby wraz ze wzrostem poziomu ufności rośnie rozpiętość przedziału ufności (im więcej ufności tym mniej dokładności)

Przedział ufności dla wskaźnika struktury.

W badaniach statystycznych występuje często konieczność oszacowania prawdopodobieństwa występowania określonego wariantu cechy, czyli oszacowania jaki procent jednostek statystycznych ten wariant cechy posiada, czyli zachodzi konieczność oszacowania przedziałowego wskaźnika struktury.

Hipotezy Statystyczne i weryfikacyjne

Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące rozkładu cechy w populacji generalnej, czyli rozkładu teoretycznego sformułowane bez przeprowadzenia badania pełnego wyłącznie na podstawie danych z próby.

Hipotezy statystyczne mogą dotyczyć parametrów nieznanego rozkładu cech w populacji generalnej, są to w tedy hipotezy parametryczne np. wartość średnia badanej cechy całej zbiorowości jest równa 5. hipotezy mogą też mówić jakiego typu jest nieznany rozkład teoretyczny, mogą dotyczyć współzależności cech badanej zbiorowości są to w tedy hipotezy nieparametryczne. Hipotezę którą sprawdzamy nazywamy hipotezą zerową i oznaczmy H0. Hipotezę alternatywną oznaczamy H1 nazywamy każdą inną hipotezę którą skłonni jesteśmy przyjąć po odrzuceniu hipotezy zerowej H0, decyzję o odrzuceniu lub przyjęciu H0 podejmujemy na podstawie wyników próby losowej .

Testem statystycznym nazywamy regułę postępowania rozstrzygającą przy jakich wynikach próby sprawdzaną hipotezęH0 należy odrzucić a przy jakich wynikach przyjąć. W czasie sprawdzania prawdziwości hipotezy H0 możliwe jest popełnienie jednego z dwóch rodzajów błędów. Błąd pierwszego rodzaju polega na odrzuceniu hipotezy H0 mimo że jest ona prawdziwa, prawdopodobieństwo popełnienia błędu pierwszego rodzaju oznaczamy symbolem a i nazywamy poziomem istotności. Jako poziom istotności przyjmowane są bardzo małe liczby dodatnie np. 0,01; 0,02; 0,05; 0,1.

Błąd drugiego rodzaju polega na przyjęciu sprawdzanej hipotezy mimo że jest ona fałszywa. Prawdopodobieństwo popełnienia błędu drugiego rodzaju oznaczamy b. Testy przy ustalonym prawdopodobieństwie a zminimalizowane jest prawdopodobieństwo popełnienia błędu drugiego rodzaju nazywane są testami najmocniejszymi. Problem popełnienia błędu drugiego rodzaju znika jeśli przy podejmowaniu decyzji bierzemy pod uwagę tylko dwie możliwości odrzucenie testowanej hipotezy H0 lub stwierdzenie że niema podstaw do odrzucenia testowanej hipotezy.

Testy parametryczne takiego typu nazywamy testami istotności wykorzystuje się je głównie do weryfikacji hipotez parametrycznych. Przy weryfikacji hipotez statystycznych stosujemy następujący schemat postępowania.

Określamy hipotezę H0 i odpowiadającą jej hipotezę H1, postać hipotezy H1 jest negacja hipotezy H0 lub jest określona przez cel badania.
Wybieramy odpowiednio do sformułowanej hipotezy H0 statystykę testową i obliczmy jej wartość na podstawie wyników z próby.
Przyjmujemy pewien poziom istotności a i wyznaczamy obszar odrzucenia hipotezy H0 który nazywamy obszarem krytycznym.
Sprawdzamy czy obliczona wartość statystyki testowej należy do obszaru krytycznego, jeśli tak odrzucamy hipotezę H0 na rzecz hipotezy H1 jeśli nie stwierdzamy że niema podstaw do odrzucenia hipotezy testowanej.

Odrzucenie hipotezy H0 oznacza że różnice między wynikami badania empirycznego a sformułowaną hipotezą są statystycznie istotne, jeśli nie ma podstaw do odrzucenia hipotezy H0 uznajemy że te różnice są statystycznie nie istotne.

Test istotności dla wartości oczekiwanej.

Zakładamy że badana cecha X ma w populacji generalnej rozkład normalny o nieznanych na m parametrach m i s, z populacji tej pobrano n elementową próbę i na podstawie tej próby obliczono średnią arytmetyczną i odchylenie standardowe.

H0: m=m0

Hipoteza H0 jest zawsze hipotezą o równości.

Dla tej hipotezy H0 możliwe są następujące hipotezy alternatywne H1

H1: m¹m0, albo H1: m>m0, albo H1: m<m0

W zależności od postaci hipotezy alternatywnej H1 obszar odrzucenia hipotezy będzie dwustronny, prawo stronny lub lewo stronny. Przy weryfikacji hipotez dotyczących wartości przeciętnej rozpatruje się następujące przypadki.

Próba liczna (n>30)
- zmienna losowa obliczana jako średnia arytmetyczna z próby
Ta statystyka ma rozkład normalny o parametrach N(0,1). Mając konkretna próbę obliczmy wartość statystyki jako
Przyjmujemy pewien poziom istotności i odrzucamy pewien obszar odrzucenia hipotezy
dwustronny obszar krytyczny
a: OK.=(- µ, -U1-)( U1-, µ)

                   U1-           U1-

prawostronny obszar krytyczny

a: Ok.=( U1-a : µ)                                                                      f( U1-)=1-
                                                                                                                                                                                                                                                                                        f( U1-a)=1-a
                        U1-a

lewostronny obszar krytyczny

a:OK=(-µ : U1-a)

           U1-a
Sprawdzamy czy obliczona w punkcie 2 wartość empiryczna statystyki należy do obszaru krytycznego, jeśli tak to odrzucamy hipotezę H0, jeśli nie stwierdzamy że niema podstaw do odrzucenia H0

Przykład

W firmie produkującej elementy hydrauliczne badano średnią dzienną wydajność. Na podstawie wydajności w ciągu 169 dni, obliczono że średnio produkuje się 2025 szt. I odchylenie standardowe wyniosło s=20 szt. Na poziomie istotności a=0,01 zweryfikuj hipotezę że :