Mtd5f.doc

(383 KB) Pobierz

mtd5F (2008 / 2009) – 1

Tytus Sosnowski

Kurs 004 (2008 / 2009)

METODOLOGIA BADAŃ PSYCHOLOGICZNYCH

Wykład obligatoryjny dla I roku studiów wieczorowych

Wydziału Psychologii UW

PLANOWANIE I ANALIZA BADAŃ EMPIRYCZNYCH

Część F:

badania ex post facto:

Korelacja i regresja

Analiza korelacji i regresji jest bardzo uniwersalną metoda analizy. Dla przykładu, wszystko co można policzyć analizą wariancji można też policzyć analizą regresji ale nie na odwrót. Istnieje też wiele metod analizy danych

pochodnych od analizy korelacyjnej, w szczególności:

· analiza regresji prostej – jedna zmienna niezależna (zwana tez predyktorem) i jedna zmienna zależna

· analiza regresji wielokrotnej – wiele zmiennych niezależnych (predyktorów);

· analiza ścieżkowa;

· analiza dyskryminacyjna;

· analiza czynnikowa;

· model równań strukturalnych (LISREL).

KORELACJA

Istnieje wiele metod korelacji. Największe możliwości interpretacyjnych daje współczynnik korelacji według momentu iloczynowego (współczynnik r Pearsona). Wymaga on pomiaru zmiennych na skali co najmniej interwałowej oraz tzw. dwuwymiarowego rozkładu normalnego.

U każdego obiektu (np. osoby) pochodzącego z danej (jednej!) próby mierzymy co najmniej dwie zmienne. Korelacja oznacza związek (zależność statystyczną) między zmiennymi. Nie przesądza jednak o istnieniu zależności przyczynowej.

KORELACJA I REGRESJA PROSTA

Współczynnik korelacji stanowi miarę współzmienności dwu zmiennych (powiedzmy: X i Y). Współczynnik korelacji może przybierać wartości od r= -1 (perfekcyjna zależność ujemna), poprzez r=0 (doskonałą niezależność zmiennych), do r= 1 (perfekcyjny związek dodatni).

Wyrażenie r2 , nazywane jest współczynnikiem DETERMINACJI. Oznacza ono procent sumy kwadratów jednej zmiennej, który można przewidzieć na podstawie drugiej zmiennej.

Przykład 1a. Silny związek między zmiennymi

Przykład 1b: Silny związek między zmiennymi –
linia regresji.

Przykład 2: Słaba korelacja dodatnia

Przykład 3: Silna korelacja ujemna

Przykład 4: Korelacja zerowa (brak związku między
zmiennymi): dla wszystkich X taka sama
przewidywana wartość Y

Przykład 5: Korelacja zerowa (brak związku między
                     zmiennymi): nie można wykreślić linii (regresji)
                     najlepiej dopasowanej do danych (każda linia
                    jest równie (nie)dobra

Regresja i przewidywanie

Równanie regresji pozwala przewidywać wartość zmiennej zależnej Y na podstawie znajomości zmiennej niezależnej X.

Rysunek 5f-1. Linia regresji prostej

Równanie regresji prostej: Y = a + bX + e

lub:

Y’ = a + b X;

Y – wartość rzeczywista zmiennej zależnej;
Y’ – wartość przewidywana zmiennej zależnej;

– wartość średnia zmiennej zależnej

e – błąd przewidywania;

b – współczynnik nachylenia (slope) – wyznacza kąt
nachylenia linii regresji;

a – stała równania regresji (constant, intercept) – wyznacza
wysokości linii regresji. Jeśli X = 0, to Y = a; czyli a to
wysokość linii regresji (wartość Y) w punkcie X = 0.

Analizowane dane (zmienna zależną niezależną) możemy przedstawić w postaci standaryzowanej (jako odchylenia poszczególnych wyników od średniej całkowitej):

Dane w postaci standaryzowanej mają, z założenia, średnią:
= 0 i wariancję: s2 = 1.

Dla danych standaryzowanych równanie regresji ma postać:

Y’ = b X

(opuszczamy w równaniu a, gdyż wynosi ono zero).

Równanie regresji w postaci standaryzowanej jest bardzo wygodne gdyż eliminuje wpływ jednostek pomiaru na wartość zmiennych. Wszystkie zmienne wyrażone są w tych samych jednostkach: jednostkach odchylenia standardowego.

Analiza regresji umożliwia (analogicznie jak w wypadku ANOVA) rozłożenie sumy kwadratów (SS) zmiennej zależnej Y (Sy2) na dwie składowe:

· SS przewidywaną na podstawie równania regresji -

· SS nie przewidywalną przez równanie regresji – SS błędu (SSerror) lub SS resztową (residual -- ).

(porównaj rysunek na poprzedniej stronie)

Ponieważ dwa wyrażenia po prawej stronie równania
(w nawiasach) są nieskorelowane ze sobą, zachodzi równość:

Sy2 = SSreg + SSres

r2 =

Jak widać z ostatniego wzoru, r2 informuje o tym, jaką proporcję całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie zmiennej niezależnej (i równania regresji). Z wzoru tego widać też, że im większe jest SSreg (tzn. im bliżej linii regresji położone są punkty na wykresie, por. strony 4 i 5) tym wyższa jest korelacja (r i r2).

Istotność współczynnika regresji dana jest wzorem:

F = =

k= liczba zmiennych niezależnych, N = wielkość próby (dla jednej zm. niezależnej: df1 = 1, df2 = N - 2). Jeśli istotne jest r to istotne jest też r2 (przy identycznym alfa).

Istnieją metody analizy regresji krzywoliniowej, analizujące rozrzut punktów względem jakieś krzywej.

KORELACJA I REGRESJA WIELOKROTNA

(multiple correlation and regression)

Analiza regresji wielokrotnej pozwala przewidywać wartość zmiennej zależnej Y na podstawie wielu zmiennych niezależnych (predyktorów): X1, X2, ... Xn. Predyktory te:

· mogą być wzajemnie skorelowane ze sobą;

· mogą być zmiennymi ciągłymi jak i dyskretnymi (skokowymi). Poza przypadkiem, kiedy predyktory dyskretne przybierają wartości: 0 i 1, muszą być one, przed włączenie do analizy, zakodowane w specjalny sposób. Najczęściej jednak analizowana jest zależność między zmiennymi ciągłymi.

Równanie regresji wielokrotnej ma postać (czasem zamiast a pisze się b0):

Y’ = a + b1X1, + b2X2, + ... + bn Xn

Jeśli równanie regresji przedstawione jest w postaci standaryzowanej (patrz niżej), współczynniki beta (b) mogą być traktowane jako wagi zmiennych niezależnych. Informują one jak duży wpływ ma dana zmienna niezależna na zmienną zależną. Wielkości współczynników b są nieporównywalne, bo zależą od skali pomiarowej (zmiana jednostki pomiaru powoduje zmianę współczynnika b).

Y’ = b1 X1, + b2 X2, + ... + bn Xn

Analiza regresji pozwala

· Wybrać zbiór predyktorów (zmiennych niezależnych), spośród wszystkich predykatorów poddanych analizie, który zapewnia najlepsze przewidywanie zmiennej Y; przy doborze predyktorów brane jest pod uwagę ich wzajemne skorelowanie.

· Ocenić wagi poszczególnych predyktorów.

· Oszacować jaki procent całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie wszystkich zmiennych niezależnych uwzględnionych w równaniu regresji. Miarą tego efektu jest współczynnik determinacji (r2 lub R2).

Dla odróżnienia od korelacji prostej (r) współczynnik korelacji wielokrotnej oznacza się symbolem R. Współczynnik R jest miarą siły związku miedzy zmienną zależną a wszystkimi predyktorami uwzględnionymi w modelu analizy.

Warto pamiętać, że analiza regresji jest przede wszystkim narzędziem predykcji. Niekiedy mówi się, że zmienne niezależne, analizowane za pomocą analizy regresji, wyjaśniają określony procent zmienności zmiennej zależnej. Interpretacja taka nie zawsze jest uzasadniona a zawsze wymaga dodatkowych przesłanek statystycznych i merytorycznych.

Przykład

Szukamy czynników pozwalających najlepiej przewidywać ryzyko zachorowania na chorobę wieńcową. Analizujemy (za pomocą regresji wielokrotnej) następujące predyktory (czynniki ryzyka):

1) Palenie papierosów;

2) Picie alkoholu;

3) Dieta (zawartość tłuszczów i cukru);

4) Aktywność ruchowa;

5) Płeć;

6) Czynnik genetyczny (występowanie choroby w rodzinie)

7) Wiek (liczba lat życia);

8) Rok urodzenia.

Można oczekiwać (na podstawie dostępnej dotąd wiedzy), że trafność przewidywania ryzyka zachorowania będzie się zwiększała w miarę jak będziemy uwzględniali kolejne predyktory: 1, 2, ..., 7. Natomiast dołączenie zmiennej 8 nie polepszy trafności przewidywań ponieważ nie dostarcza ona żadnej nowej informacji o badanym (informuje o tym, co już wiemy na podstawie zmiennej 7). Fakt, że zmienna 8 jest bardzo wysoko (tu: perfekcyjnie) skorelowana ze zmienną 7 sprawia, że jest ona z bezużyteczna (redundantna) dla prognozy zmiennej zależnej.

Najlepszymi predyktorami zmiennej zależnej są takie zmienne niezależne, które wysoko korelują ze zmienną zależną (kryterium) i jednocześnie nisko korelują wzajemnie ze sobą.

Analiza regresji wielokrotnej – przykład liczbowy (SPSS)

...

Plik z chomika:

psychUW

Inne pliki z tego folderu:

Pytania zebrane.doc (19 KB)
Metodologia slajdy opracowane.pdf (658 KB)
Mtd2009.doc (55 KB)
Mtd5f.doc (383 KB)
Mtd5e.doc (92 KB)

Mtd5f.doc

KORELACJA I REGRESJA WIELOKROTNA

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: