METODY STATYSTYCZNE.doc

(283 KB) Pobierz
METODY STATYSTYCZNE

METODY STATYSTYCZNE

 

Metody wnioskowania statystycznego

 

Wnioskowanie statystyczne składa się z 2 części:

1/ estymacja statystyczna – szacowanie parametrów populacji generalnej na podstawie próby losowej

2/ weryfikacja hipotez dotyczących populacji generalnej na podstawie próby.

 

Wnioskowanie hipotez to:

I. Prawdopodobieństwo

1/ prawdopodobieństwem zdarzenia A nazywamy iloraz liczby zdarzeń elementarnych n(A) sprzyjających zajściu zdarzenia A do liczby n wszystkich zdarzeń elementarnych

 

    A-PRIORI

 

2/ definicja aksjomatyczna – prawdopodobieństwem nazywamy funkcję P odwzorowującą ciało zdarzeń Z w zbiór liczb rzeczywistych P:Z →[0,1] posiadającą następujące właściwości

- dla każdego zdarzenia AZ prawdopodobieństwo P(A) tego zdarzenia spełnia nierówność

   0≤P(A)≤1

- prawdopodobieństwo zdarzenia pewnego jest równe 1

- dla każdego ciągu zdarzeń rozłącznych mamy

3/ definicja statystyczna – prawdopodobieństwem zdarzenia A nazywamy granicę ilorazu liczby doświadczeń n’(A) sprzyjających zdarzeniu A do liczby n wszystkich doświadczeń

P (A) =      A-POSTERIORI

 

Jeżeli każdemu zdarzeniu elementarnemu ze zbioru zupełnego zdarzeń elementarnych przyporządkujemy dokładnie jedną liczbę rzeczywistą to, na zbiorze zdarzeń elementarnych zostanie określona funkcja zwana zmienną losową.

 

Jeżeli zmienna losowa przyjmuje skończoną lub przeliczalną ilość wartości nosi nazwę zmiennej losowej skokowej.

 

Rozkładem prawdopodobieństwa zmiennej losowej skokowej nazywamy następującą funkcję

                          

Dystrybuantą zmiennej losowej skokowej X nazywamy funkcję określoną wzorem:

a więc

 

Rozkłady statystyk z prób losowych

Przez próbę o wartościach x1, x2...xn należy rozumieć obserwacje wektora losowego

x = ( x1, x2...xn), gdzie wszystkie zmienne losowe x1, x2...xn mają ten sam rozkład.

Statystyką będziemy nazywali zmienną losową, która jest funkcją wektora X lub innymi słowy, funkcją obserwowanych wartości w próbie

np.

    lub   

Twierdzenie:

Jeżeli zmienne losowe x1, x2...xn są niezależne i mają jednakowy rozkład normalny.

 

ESTYMATORY I  ICH WłASNOŚCI
Estymacja jest to szacowanie parametrów bądź postaci rozkładu populacji generalnej na podstawie wyników próby losowej.
Statystyki służące do szacowania parametrów populacji generalnej nazywamy estymatorami.
Każdą jednoznacznie określoną funkcję wyników obserwacji dokonywanych na zmiennej losowej X, za pomocą której wnioskujemy o wartości parametru nazywamy estymatorem parametru . Konkretnie wyliczoną na podstawie estymatora wartość z próby nazywamy oceną parametru.
Estymator jest zmienną losową. Ocena parametru jest liczbą.  (najlepsza jest średnia arytmetyczna)


WłASNOŚCI ESTYMATORÓW
1. Nieobciążoność estymatora
Estymator parametru nazywa się nieobciążonym, jeżeli spełnia on relację:

   (estymator nieobciążony daje wyniki bez błędu systematycznego , nie zawyża i nie zaniża wyniku)

Obciążenie estymatora wynosi:

   (daje wyniki z błędem)

Estymatorem asymptotycznie nieobciążonym nazywamy estymator spełniający relację:

(granica prawdopodobieństwa)

Estymator – zmienna losowa wzięta z próby

 

2. Zgodność estymatora

Estymator Zn parametru nazywa się zgodnym, jeżeli przy dowolnie małym spełnia następującą relację:

 

 

(im wyższą weźmiemy próbę, tym różnica będzie mniejsza i wynik dokładniejszy)

 

Jeżeli estymator Zn jest estymatorem parametru nieobciążonym lub asymptotycznie nieobciążonym i spełnia warunek:

 

 

to estymator Zn jest zgodny.

 

3. Efektywność estymatora

Jeżeli estymator jest nieobciążony, to wariancja estymatora D2(Zn) jest miarą rozrzutu wartości estymatora w kolejnych próbach dokoła prawdziwej
wartości parametru (najlepszy jest taki, który ma najmniejszy rozrzut wyniku).
D(Zn) nosi nazwę błędu standardowego szacunku i określa o ile średnio różnią się wartości estymatora od wartości parametru.
Estymator, który jest nieobciążony posiada najmniejszą wariancję spośród wszystkich
nieobciążonych estymatorów danego parametru, wyznaczonych z prób n-elementowych, nazywa się estymatorem najefektywniejszym.
 

Estymatory średniej:

 

(mi) – średnia z populacji

- średnia arytmetyczna

Me – mediana

 

Dla średniej z populacji generalnej najlepszym estymatorem jest średnia z próby. Estymator ten jest nieobciążony, zgodny i najbardziej efektywny.

Błąd standardowy tego estymatora

 

- jeżeli próba jest duża

 

- jeżeli próba jest mała

 

Estymator wariancji
 

   - estymator zgodny, ale obciążony, nie jest najbardziej efektywny, asymptotycznie nieobciążony – przy zwiększaniu próby obciążenie znika  n<30

 

lub

 

- zapis czysto teoretyczny, w praktyce nie występuje

 

lub

 

- estymator zgodny i nieobciążony  n>30

 

Dla wskaźnika struktury p estymatorem będzie

 

(stosowane bardzo duże próby – zgodny i nieobciążony).

 

Estymacja punktowa i przedziałowa:

1/ punktowa parametru polega na

- wylosowaniu próby

- wyborze estymatora

- obliczeniu oceny parametru szacunku

- obliczeniu błędu standardowego szacunku

 

2/ przedziałowa polega na zbudowaniu przedziału nazywanego przedziałem ufności, który z prawdopodobieństwem równym 1-a obejmuje nam szacowaną wartość parametru.

postępowanie:

- losowanie próby

- zakładamy współczynnik ufności (zwykle 0,95 = 95% przedziałów ma być dobrych)

- obliczamy maksymalny błąd standardowy szacunku mnożąc odczytaną wartość z tablic dystrybuanta rozkładu normalnego, wartość Z dla wskaźnika struktury oraz średniej dla dużej próby. Przy średniej i małej próbie odczytujemy z tablic T-studenta wartość t i mnożymy przez błąd standardowy szacunku.

 

Przedział interpretujemy następująco:

1/ przedział o końcach dolny...górny przy współczynniku ufności 1-a obejmuje nieznaną szacunkową wartość parametru

2/ np. 1-a = 0,95

interpretacja:

Gdybyśmy wielokrotnie budowali przedział ufności przy tym współczynniku 0,95, to 95% przedziałów byłoby dobrych, a 5% byłoby złych (nie obejmowały szacowanego parametru).

 

Przedziały ufności dla średniej arytmetycznej

 

A. Populacja ma rozkład , znane jest

odchylenie standardowe w populacji , liczebność próby jest dowolna.

 

B. Rozkład populacji dowolny, odchylenie standardowe w populacji jest nieznane, próba duża tzn. n>30:

 

 

- z tablic

S – odchylenie standardowe

- liczebność z próby

 

C. Populacja ma rozkład , odchylenie standardowe w populacji jest nieznane, liczebność prób n<30:

 

 

 

Przedział ufności dla (wskaźnika struktury) p

 

Praktyczne efekty daje szacowanie wskaźnika struktury tylko w oparciu o bardzo dużą próbę (n=kilkadziesiąt jednostek). Wówczas rozkład estymatora jest asymptotycznie normalny, a przedział ufności ma postać:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Zadanie1

 

W celu zbadania przeciętnych wyników z testu w skali 100-punktowej wylosowano 26 studentów i uzyskano średnią ilość punktów wynoszącą 72 i odchylenie standardowe równe 12, przy współczynniku ufności 0,95 dokonać estymacji:

 

1/  podać jakiego parametru dotyczy zadanie

2/ określić co będzie estymatorem szacowanego parametru

3/ podać własności estymatora i jego rozkład

4/ czym z punktu widzenia estymacji jest 26, 72, 12.

5/ obliczyć błąd standardowy szacunku

6/ obliczyć maksymalny błąd standardowy szacunku

7/ przeprowadzić estymację punktową i przedziałową

 

n = 26

= 72

S = 12

              = 0,95

 

1/ dotyczy – parametrem będzie średnia arytmetyczna

2/ estymatorem – średnia z próby

3/ estymator – zgodny, nieobciążony i najbardziej efektywny

rozkład T-studenta, bo próba jest mała

4/

26 – liczebność próby (mała)

72 – ocena średniej arytmetycznej w populacji wyliczana z próby

12 – ocena odchylenia standardowego wyliczona z próby

              = 0,95 – współczynnik ufności

 

5/

  - o ile średnio możemy się mylić szacując próbę

 

6/

 

- do tego wyliczenia mamy zaufanie dla 0,95

 

7/

estymacja punktowa:

 

estymacja przedziałowa:

 

 

Zadanie 2

 

Wylosowano do próby 49 studentów i zbadano na tej podstawie wyniki testu w skali 100 punktowej

 

n = 49

= 76 pkt

S = 12 pkt. (błąd statystyczny)

              = 0,95

 

Oszacować metodą punktową i przedziałową przeciętny wynik testu.

1/ jakiego rodzaju dotyczy estymacja?

2/ co będzie estymatorem szacowanego parametru?

3/ jakie właściwości posiada ten parametr?

4/ czym z punktu widzenia estymacji jest 49, 76, 12?

5/ co to jest = 0,95?

6/ oblicz średni błąd szacunku

7/ oblicz maksymalny błąd szacunku

8/ przeprowadzić estymację punktową

9/ przeprowadzić estymację przedziałową

 

Zakładając, że wylosowana próba jest próbą pilotażową, obliczyć minimum liczebności próby tak aby maksymalny błąd szacunku był nie większy niż 2 pkt.

 

1/ dotyczy średniej arytmetycznej

2/ estymatorem – średnia z próby

3/ estymator – zgodny, nieobciążony, najbardziej efektywny

rozkład T-studenta, który przy dużej próbie (powyżej 30 jednostek) przechodzi w rozkład normalny

4/

49 – liczebność próby (duża)

76 – ocena średniej arytmetycznej w populacji wyliczana z próby

12 – ocena odchylenia standardowego wyliczona z próby

 

5/  = 0,95 – współczynnik ufności – gdybyśmy wielokrotnie budowali przedział to 5% przedziałów będzie złych, a 95% przedziałów dobrych

 

6/          -   o ile średnio możemy się mylić szacując próbę

przy dużej próbie nie ma (n-1) tylko samo „n”

średnie z prób 76-elementowych będą się różnić średnio od rzeczywistej średnio o 1,714 pkt.

 

7/ Ponieważ rozkład estymatora jest rozkładem asymptotycznie  normalnym, więc dla założonego współczynnika ufności z tablic dystrybuanty rozkładu normalnego odczytujemy wartość Zα.

jest to błąd standardowy szacunku po uwzględnieniu współczynnika ufności

 

 

8/ estymacja punktowa:

w estymacji punktowej zakładamy, że średnia z estymacji jest równa średniej z próby przy błędzie 1,714

 

9/ estymacja przedziałowa:

 

 

 

 

 

przedział o końcach 72,6 i 79,4, przy współczynniku ufności 0,95 obejmuje nam szacowną średnią ilość punktów dla całej populacji

 

minimalna liczebność próby

 

 

(z tablic)

 

(zaokrąglamy zawsze w górę)

 

...

Zgłoś jeśli naruszono regulamin