mtd5F (2008 / 2009) – 1
Tytus Sosnowski
Kurs 004 (2008 / 2009)
METODOLOGIA BADAŃ PSYCHOLOGICZNYCH
Wykład obligatoryjny dla I roku studiów wieczorowych
Wydziału Psychologii UW
PLANOWANIE I ANALIZA BADAŃ EMPIRYCZNYCH
Część F:
badania ex post facto:
Korelacja i regresja
Analiza korelacji i regresji jest bardzo uniwersalną metoda analizy. Dla przykładu, wszystko co można policzyć analizą wariancji można też policzyć analizą regresji ale nie na odwrót. Istnieje też wiele metod analizy danych
pochodnych od analizy korelacyjnej, w szczególności:
· analiza regresji prostej – jedna zmienna niezależna (zwana tez predyktorem) i jedna zmienna zależna
· analiza regresji wielokrotnej – wiele zmiennych niezależnych (predyktorów);
· analiza ścieżkowa;
· analiza dyskryminacyjna;
· analiza czynnikowa;
· model równań strukturalnych (LISREL).
KORELACJA
Istnieje wiele metod korelacji. Największe możliwości interpretacyjnych daje współczynnik korelacji według momentu iloczynowego (współczynnik r Pearsona). Wymaga on pomiaru zmiennych na skali co najmniej interwałowej oraz tzw. dwuwymiarowego rozkładu normalnego.
U każdego obiektu (np. osoby) pochodzącego z danej (jednej!) próby mierzymy co najmniej dwie zmienne. Korelacja oznacza związek (zależność statystyczną) między zmiennymi. Nie przesądza jednak o istnieniu zależności przyczynowej.
KORELACJA I REGRESJA PROSTA
Współczynnik korelacji stanowi miarę współzmienności dwu zmiennych (powiedzmy: X i Y). Współczynnik korelacji może przybierać wartości od r= -1 (perfekcyjna zależność ujemna), poprzez r=0 (doskonałą niezależność zmiennych), do r= 1 (perfekcyjny związek dodatni).
Wyrażenie r2 , nazywane jest współczynnikiem DETERMINACJI. Oznacza ono procent sumy kwadratów jednej zmiennej, który można przewidzieć na podstawie drugiej zmiennej.
Przykład 1a. Silny związek między zmiennymi
Przykład 1b: Silny związek między zmiennymi – linia regresji.
Przykład 2: Słaba korelacja dodatnia
Przykład 3: Silna korelacja ujemna
Przykład 4: Korelacja zerowa (brak związku między zmiennymi): dla wszystkich X taka sama przewidywana wartość Y
Przykład 5: Korelacja zerowa (brak związku między zmiennymi): nie można wykreślić linii (regresji) najlepiej dopasowanej do danych (każda linia jest równie (nie)dobra
Regresja i przewidywanie
Równanie regresji pozwala przewidywać wartość zmiennej zależnej Y na podstawie znajomości zmiennej niezależnej X.
Rysunek 5f-1. Linia regresji prostej
Równanie regresji prostej: Y = a + bX + e
lub:
Y’ = a + b X;
Y – wartość rzeczywista zmiennej zależnej; Y’ – wartość przewidywana zmiennej zależnej;
– wartość średnia zmiennej zależnej
e – błąd przewidywania;
b – współczynnik nachylenia (slope) – wyznacza kąt nachylenia linii regresji;
a – stała równania regresji (constant, intercept) – wyznacza wysokości linii regresji. Jeśli X = 0, to Y = a; czyli a to wysokość linii regresji (wartość Y) w punkcie X = 0.
Analizowane dane (zmienna zależną niezależną) możemy przedstawić w postaci standaryzowanej (jako odchylenia poszczególnych wyników od średniej całkowitej):
Dane w postaci standaryzowanej mają, z założenia, średnią: = 0 i wariancję: s2 = 1.
Dla danych standaryzowanych równanie regresji ma postać:
Y’ = b X
(opuszczamy w równaniu a, gdyż wynosi ono zero).
Równanie regresji w postaci standaryzowanej jest bardzo wygodne gdyż eliminuje wpływ jednostek pomiaru na wartość zmiennych. Wszystkie zmienne wyrażone są w tych samych jednostkach: jednostkach odchylenia standardowego.
Analiza regresji umożliwia (analogicznie jak w wypadku ANOVA) rozłożenie sumy kwadratów (SS) zmiennej zależnej Y (Sy2) na dwie składowe:
· SS przewidywaną na podstawie równania regresji -
· SS nie przewidywalną przez równanie regresji – SS błędu (SSerror) lub SS resztową (residual -- ).
(porównaj rysunek na poprzedniej stronie)
Ponieważ dwa wyrażenia po prawej stronie równania (w nawiasach) są nieskorelowane ze sobą, zachodzi równość:
Sy2 = SSreg + SSres
r2 =
Jak widać z ostatniego wzoru, r2 informuje o tym, jaką proporcję całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie zmiennej niezależnej (i równania regresji). Z wzoru tego widać też, że im większe jest SSreg (tzn. im bliżej linii regresji położone są punkty na wykresie, por. strony 4 i 5) tym wyższa jest korelacja (r i r2).
Istotność współczynnika regresji dana jest wzorem:
F = =
k= liczba zmiennych niezależnych, N = wielkość próby (dla jednej zm. niezależnej: df1 = 1, df2 = N - 2). Jeśli istotne jest r to istotne jest też r2 (przy identycznym alfa).
Istnieją metody analizy regresji krzywoliniowej, analizujące rozrzut punktów względem jakieś krzywej.
(multiple correlation and regression)
Analiza regresji wielokrotnej pozwala przewidywać wartość zmiennej zależnej Y na podstawie wielu zmiennych niezależnych (predyktorów): X1, X2, ... Xn. Predyktory te:
· mogą być wzajemnie skorelowane ze sobą;
· mogą być zmiennymi ciągłymi jak i dyskretnymi (skokowymi). Poza przypadkiem, kiedy predyktory dyskretne przybierają wartości: 0 i 1, muszą być one, przed włączenie do analizy, zakodowane w specjalny sposób. Najczęściej jednak analizowana jest zależność między zmiennymi ciągłymi.
Równanie regresji wielokrotnej ma postać (czasem zamiast a pisze się b0):
Y’ = a + b1X1, + b2X2, + ... + bn Xn
Jeśli równanie regresji przedstawione jest w postaci standaryzowanej (patrz niżej), współczynniki beta (b) mogą być traktowane jako wagi zmiennych niezależnych. Informują one jak duży wpływ ma dana zmienna niezależna na zmienną zależną. Wielkości współczynników b są nieporównywalne, bo zależą od skali pomiarowej (zmiana jednostki pomiaru powoduje zmianę współczynnika b).
Y’ = b1 X1, + b2 X2, + ... + bn Xn
Analiza regresji pozwala
· Wybrać zbiór predyktorów (zmiennych niezależnych), spośród wszystkich predykatorów poddanych analizie, który zapewnia najlepsze przewidywanie zmiennej Y; przy doborze predyktorów brane jest pod uwagę ich wzajemne skorelowanie.
· Ocenić wagi poszczególnych predyktorów.
· Oszacować jaki procent całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie wszystkich zmiennych niezależnych uwzględnionych w równaniu regresji. Miarą tego efektu jest współczynnik determinacji (r2 lub R2).
Dla odróżnienia od korelacji prostej (r) współczynnik korelacji wielokrotnej oznacza się symbolem R. Współczynnik R jest miarą siły związku miedzy zmienną zależną a wszystkimi predyktorami uwzględnionymi w modelu analizy.
Warto pamiętać, że analiza regresji jest przede wszystkim narzędziem predykcji. Niekiedy mówi się, że zmienne niezależne, analizowane za pomocą analizy regresji, wyjaśniają określony procent zmienności zmiennej zależnej. Interpretacja taka nie zawsze jest uzasadniona a zawsze wymaga dodatkowych przesłanek statystycznych i merytorycznych.
Przykład
Szukamy czynników pozwalających najlepiej przewidywać ryzyko zachorowania na chorobę wieńcową. Analizujemy (za pomocą regresji wielokrotnej) następujące predyktory (czynniki ryzyka):
1) Palenie papierosów;
2) Picie alkoholu;
3) Dieta (zawartość tłuszczów i cukru);
4) Aktywność ruchowa;
5) Płeć;
6) Czynnik genetyczny (występowanie choroby w rodzinie)
7) Wiek (liczba lat życia);
8) Rok urodzenia.
Można oczekiwać (na podstawie dostępnej dotąd wiedzy), że trafność przewidywania ryzyka zachorowania będzie się zwiększała w miarę jak będziemy uwzględniali kolejne predyktory: 1, 2, ..., 7. Natomiast dołączenie zmiennej 8 nie polepszy trafności przewidywań ponieważ nie dostarcza ona żadnej nowej informacji o badanym (informuje o tym, co już wiemy na podstawie zmiennej 7). Fakt, że zmienna 8 jest bardzo wysoko (tu: perfekcyjnie) skorelowana ze zmienną 7 sprawia, że jest ona z bezużyteczna (redundantna) dla prognozy zmiennej zależnej.
Najlepszymi predyktorami zmiennej zależnej są takie zmienne niezależne, które wysoko korelują ze zmienną zależną (kryterium) i jednocześnie nisko korelują wzajemnie ze sobą.
Analiza regresji wielokrotnej – przykład liczbowy (SPSS)
...
psychUW