Statystyka – oznacza zbiór danych dotyczących określonego zagadnienia, ogół prac związanych ze zbieraniem danych liczbowych .
Statystyka to nauka o zjawiskach ilościowych .
Zbiorowość statystyczna (populacja) to zbiór osób , przedmiotów lub zjawisk podobnych do siebie ale nie identycznych poddanych badaniu statystycznemu.
Jednostka statystyczna to każdy element zbiorowości statystycznej.
Badanie statystyczne w których bezpośredniej obserwacji podlegają wszystkie jednostki statystyczne to jednostki statystyczne pełne. Badanie statystyczne częściowe to badanie w którym bezpośredniej obserwacji podlega tylko pewien podzbiór statystyczny który nazywamy próbą. Zadaniem statystyki matematycznej jest przy wykorzystaniu metod rachunku prawdopodobieństwa wnioskowanie o całej zbiorowości statystycznej na podstawie wyników z prób. Aby na podstawie wyników z próby odnieść wnioski do całej zbiorowości próba powinna być
Jednostki statystyczne mogą być wybrane do próby dwoma sposobami
Badanie statystyczne dotyczy zawsze pewnych właściwości jednostek statystycznych, które nazywamy cechami statystycznymi (cechy statystyczne zmienne podlegające badaniu) ponieważ sama typowanie jednostek do zbiorowości statystycznej wiąże się z określeniem cech które spowodują zaliczenie jednostki do danej zbiorowości. Cechy statystyczne zmienne dzielimy na :
AD1 Cechy statystyczne mierzalne są to takie cechy których różne warianty określane są za pomocą liczb pochodzących z pomiaru lub policzenia i wyrażone w określonych jednostkach np. wysokość dochodów, czas wykonania określonej pracy, itp. Cechy mierzalne można podzielić na dwie zasadnicze grupy:
a. cechy mierzalne swobodne mające skończone lub przeliczalny zbiór wartości i wartości te niezależną od dokładności pomiaru, np. liczba osób w rodzinie, liczba książek przeczytanych w ciągu roku, itp. Cechy skokowe wyrażane są w wartościach całkowitych.
b. Cechy mierzalne ciągłe które przyjmują wartości z pewnych przedziałów mogą być podane z różną dokładnością zależną od sposobu wykonania pomiaru np. czas wykonania pewnego detalu gdy badamy wydajność pracy, długość włókna przędzy jeśli badamy jej jakość.
Ad2 Cechy statystyczne niemierzalne to cechy których warianty opisujemy słowami które w naturalny sposób nie wyrażają się liczbami np. płeć, zawód, rodzaj ulubionej rozrywki, z pośród cech niemierzalnych wyodrębniamy cechy :
a. dwudzielne które mają tylko dwa warianty
b. cechy wielodzielne które mają tych wariantów więcej np. zawód
Z pośród cech wielodzielnych wyodrębniamy cechy, fazy mierzalne które to warianty można uporządkować według stopnia nasilenia cechy np. stan zdrowia (bardzo dobry, bardzo zły)
Cechy mierzalne
Jeżeli rozpatrujemy cechę mierzalną pewnej zbiorowości statystycznej to możemy potraktować ją jak zmienną losową i wyznaczyć jej rozkład.
Rozkład cechy w całej populacji statystycznej znamy tylko wtedy gdy przeprowadzamy badanie statystyczne pełne, gdy przeprowadzamy badanie statystyczne częściowe to znamy tylko rozkład próby tj. rozkład empiryczny. Rozkład cechy całej zbiorowości statystycznej jest znany nam przy badaniu częściowym to rozkład teoretyczny.
Przykład
Aby zbadać ile czasu tygodniowo przeznacza się w 4 osobowych rodzinach w dużych miastach Polski na prace domowe, wybrano w sposób losowy 1256 takich rodzin i dla tych rodzin wyznaczono średni czas przeznaczony na prace domowe =10,5 h , odchylenie standardowe s=3,2 h.
Dla tego badania populacje statystyczną generalną to są wszystkie 4 osobowe rodziny dużych miast Polski, jednostką jest każda 4 osobowa rodzina. Cecha którą badamy to czas przeznaczony na prace domowa. Rodzaj cechy jest to cecha mierzalna ciągła.
Rozkład teoretyczny to rozkład zmiennej losowej która przyjmuje wartości równe wykonywania prac domowych we wszystkich tych rodzinach.
Rozkład empiryczny to rozkład tego czasu w zbadanej próbie. Zadaniem statystyki matematycznej jest wnioskowanie o tym co się dzieje we wszystkich rodzinach dużych miast Polski jeśli chodzi o czas poświęcony na prace domowe na podstawi tej liczącej 1256 elementów próby. Zadaniem statystyki matematycznej jest wnioskowanie o rozkładzie teoretycznym na podstawie znajomości rozkładu empirycznego, w ramach wnioskowania empirycznego wyróżnia się dwa zasadnicze działy.
Parametry (charakterystyki liczbowe) są to takie liczby np. wartość średnia odchylenie standardowe które w sposób syntetyczny opisują nam zbiorowość statystyczną ze względu na badaną cechę.
Estymacja parametryczna
W teorii estymacji dotyczącej nieznanych parametrów rozkładu teoretycznego wyróżnia się estymację punktową i przedziałową.
Estymacja punktowa polega na znalezieniu takiej liczby która przy z góry założonej dokładności i wynikach uzyskanych z próby może być uznana za najlepszą ocenę nieznanego parametru rozkładu teoretycznego. Estymator Tn nieznanego parametru T w populacji statystycznej nazywamy taką zmienną losową której wartość obliczona na podstawie próby służy do oszacowania nieznanej wartości parametru T. Konkretną wartość liczbową
tn=t(x1 x2 x3....... xn) estymatora Tn obliczono dla wyników (x1 x2 x3..... x1) z próby nazywamy oceną parametru t.
Bardzo ważną rzeczą jest wybór estymatora dla danego parametru. W statystyce określone są własności jakie powinien posiadać ten estymator. Dla najważniejszych parametrów rozkładu teoretycznego przyjmuje się następujące estymatory. Dla wartości przeciętnej średnią arytmetyczną z próby
Dla wariacji
gdy n>30
lub gdy m30
Odchylenie standardowe
Znacznie częściej niż estymacja punktowa stosowana jest estymacja przedziałowa. Przy tej estymacji zamiast liczbowej oceny wartości parametru podaje się pewien przedział który zawiera nieznaną wartość parametru z dużym z góry określonym prawdopodobieństwem, takie przedziały nazywamy przedziałem ufności.
Przedziałem ufności nazywamy tai przedział który z zadanym z góry prawdopodobieństwem 1-a nazywanym poziomem ufności (współczynnik ufności) zawiera nieznaną wartość szacowanego parametru. Przedziały ufności wyznacza się dla wszystkich parametrów. Najczęściej używane to : przedział ufności dla wartości przeciętnej i przedział ufności dla wskaźnika struktury.
Przedział ufności dla wartości przeciętnej.
Zakładamy że badana cecha x ma w populacji generalnej układ normalny o wartości przeciętnej m i odchyleniu standardowym s, przedział ufności dla wartości przeciętnej m wyznaczamy z wzorów
- średnia arytmetyczna z próby
s- odchylenie standardowe z próby
ua- znajdujemy w tablicy rozkładu
normalnego tak że f(ua)=1-
- odczytujemy z tablicy rozkładu
studenta
Oszacować metodą przedziałową tygodniowe wydatki na słodycze mieszkańców pewnego miasta na poziomie ufności 1-a=0,95 wiedząc że dla 100 losowo wybranych rodzin otrzymano średnie wydatki 12 zł przy odchyleniu standardowym s=4,72 zł.
z prawdopodobieństwem 0,95
Maksymalny błąd oszacowania przedziałowego jest równy połowie długości przedziału ufności.
Przy dużych próbach można z tego wzoru wyznaczyć n i obliczyć jak duża powinna być próba żeby wyznaczyć oszacowanie ze z góry zadaną wartością. S wyznaczamy ze wstępnej niewielkiej próby. Jest to maksymalny błąd oszacowania.
Uwagi:
Przedział ufności dla wskaźnika struktury.
W badaniach statystycznych występuje często konieczność oszacowania prawdopodobieństwa występowania określonego wariantu cechy, czyli oszacowania jaki procent jednostek statystycznych ten wariant cechy posiada, czyli zachodzi konieczność oszacowania przedziałowego wskaźnika struktury.
Hipotezy Statystyczne i weryfikacyjne
Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące rozkładu cechy w populacji generalnej, czyli rozkładu teoretycznego sformułowane bez przeprowadzenia badania pełnego wyłącznie na podstawie danych z próby.
Hipotezy statystyczne mogą dotyczyć parametrów nieznanego rozkładu cech w populacji generalnej, są to w tedy hipotezy parametryczne np. wartość średnia badanej cechy całej zbiorowości jest równa 5. hipotezy mogą też mówić jakiego typu jest nieznany rozkład teoretyczny, mogą dotyczyć współzależności cech badanej zbiorowości są to w tedy hipotezy nieparametryczne. Hipotezę którą sprawdzamy nazywamy hipotezą zerową i oznaczmy H0. Hipotezę alternatywną oznaczamy H1 nazywamy każdą inną hipotezę którą skłonni jesteśmy przyjąć po odrzuceniu hipotezy zerowej H0, decyzję o odrzuceniu lub przyjęciu H0 podejmujemy na podstawie wyników próby losowej .
Testem statystycznym nazywamy regułę postępowania rozstrzygającą przy jakich wynikach próby sprawdzaną hipotezęH0 należy odrzucić a przy jakich wynikach przyjąć. W czasie sprawdzania prawdziwości hipotezy H0 możliwe jest popełnienie jednego z dwóch rodzajów błędów. Błąd pierwszego rodzaju polega na odrzuceniu hipotezy H0 mimo że jest ona prawdziwa, prawdopodobieństwo popełnienia błędu pierwszego rodzaju oznaczamy symbolem a i nazywamy poziomem istotności. Jako poziom istotności przyjmowane są bardzo małe liczby dodatnie np. 0,01; 0,02; 0,05; 0,1.
Błąd drugiego rodzaju polega na przyjęciu sprawdzanej hipotezy mimo że jest ona fałszywa. Prawdopodobieństwo popełnienia błędu drugiego rodzaju oznaczamy b. Testy przy ustalonym prawdopodobieństwie a zminimalizowane jest prawdopodobieństwo popełnienia błędu drugiego rodzaju nazywane są testami najmocniejszymi. Problem popełnienia błędu drugiego rodzaju znika jeśli przy podejmowaniu decyzji bierzemy pod uwagę tylko dwie możliwości odrzucenie testowanej hipotezy H0 lub stwierdzenie że niema podstaw do odrzucenia testowanej hipotezy.
Testy parametryczne takiego typu nazywamy testami istotności wykorzystuje się je głównie do weryfikacji hipotez parametrycznych. Przy weryfikacji hipotez statystycznych stosujemy następujący schemat postępowania.
Odrzucenie hipotezy H0 oznacza że różnice między wynikami badania empirycznego a sformułowaną hipotezą są statystycznie istotne, jeśli nie ma podstaw do odrzucenia hipotezy H0 uznajemy że te różnice są statystycznie nie istotne.
Test istotności dla wartości oczekiwanej.
Zakładamy że badana cecha X ma w populacji generalnej rozkład normalny o nieznanych na m parametrach m i s, z populacji tej pobrano n elementową próbę i na podstawie tej próby obliczono średnią arytmetyczną i odchylenie standardowe.
H0: m=m0
Hipoteza H0 jest zawsze hipotezą o równości.
Dla tej hipotezy H0 możliwe są następujące hipotezy alternatywne H1
H1: m¹m0, albo H1: m>m0, albo H1: m<m0
W zależności od postaci hipotezy alternatywnej H1 obszar odrzucenia hipotezy będzie dwustronny, prawo stronny lub lewo stronny. Przy weryfikacji hipotez dotyczących wartości przeciętnej rozpatruje się następujące przypadki.
W firmie produkującej elementy hydrauliczne badano średnią dzienną wydajność. Na podstawie wydajności w ciągu 169 dni, obliczono że średnio produkuje się 2025 szt. I odchylenie standardowe wyniosło s=20 szt. Na poziomie istotności a=0,01 zweryfikuj hipotezę że :
AD1
a=0,01 to to 1-
0,995 wynik sprawdzamy w tablicach rozkładu normalnego i wynosi on 2,58
H1: m¹m0
m¹2030
OK=(-µ ; - 2,58)È(2,58 ; µ)
-3,25 -2,58 ...
sote12