Mtd5f.doc

(383 KB) Pobierz
dd

                                                                                                                                     mtd5F (2008 / 2009)   –   1

 

Tytus Sosnowski

 

Kurs 004  (2008 / 2009)

 

METODOLOGIA  BADAŃ  PSYCHOLOGICZNYCH

 

Wykład obligatoryjny dla I roku studiów wieczorowych

Wydziału Psychologii UW

 

PLANOWANIE  I  ANALIZA  BADAŃ EMPIRYCZNYCH

 

Część F:

badania  ex post facto:

 

Korelacja  i  regresja
 


Analiza korelacji i regresji jest bardzo uniwersalną metoda analizy. Dla przykładu, wszystko co można policzyć analizą wariancji można też policzyć analizą regresji ale nie na odwrót.  Istnieje też wiele metod analizy danych

pochodnych od analizy korelacyjnej, w szczególności:
 

·       analiza regresji prostej – jedna zmienna niezależna (zwana tez predyktorem) i jedna zmienna zależna

·       analiza regresji wielokrotnej – wiele zmiennych niezależnych (predyktorów);

·       analiza ścieżkowa;

·       analiza dyskryminacyjna;

·       analiza czynnikowa;

·       model równań strukturalnych (LISREL).

 

 

 


KORELACJA

 

Istnieje wiele metod korelacji. Największe możliwości interpretacyjnych daje współczynnik korelacji według momentu iloczynowego (współczynnik r Pearsona). Wymaga on pomiaru zmiennych na skali co najmniej interwałowej oraz tzw. dwuwymiarowego rozkładu normalnego.

 

U każdego obiektu (np. osoby) pochodzącego z danej (jednej!) próby mierzymy co najmniej dwie zmienne. Korelacja oznacza związek (zależność statystyczną) między zmiennymi. Nie przesądza jednak o istnieniu zależności przyczynowej.

 

KORELACJA  I  REGRESJA  PROSTA

Współczynnik korelacji stanowi miarę współzmienności dwu zmiennych (powiedzmy: X i Y). Współczynnik korelacji może przybierać wartości od r= -1 (perfekcyjna zależność ujemna), poprzez r=0 (doskonałą niezależność zmiennych), do  r= 1 (perfekcyjny związek dodatni). 

 

Wyrażenie r2 , nazywane jest współczynnikiem  DETERMINACJI. Oznacza ono procent sumy kwadratów jednej zmiennej, który można przewidzieć na podstawie drugiej zmiennej.

 

 

Przykład 1a. Silny związek między zmiennymi

 

 

 

 

 

 

Przykład 1b: Silny związek między zmiennymi –
                       linia regresji.

 

 

 

             

 


 

Przykład 2: Słaba korelacja dodatnia

 

 

 

             

 

 

 

 

 

Przykład 3: Silna korelacja ujemna

 

 

 

             

 

 


Przykład 4: Korelacja zerowa (brak związku między
                     zmiennymi): dla wszystkich X taka sama       
                     przewidywana wartość Y

 

 

             

 

 

 

Przykład 5: Korelacja zerowa (brak związku między
                     zmiennymi): nie można wykreślić linii (regresji)
                     najlepiej dopasowanej do danych (każda linia
                    jest równie (nie)dobra

 

 

             

 

 

 


Regresja i przewidywanie

Równanie regresji pozwala przewidywać wartość zmiennej zależnej Y na podstawie znajomości zmiennej niezależnej X.

 



Rysunek 5f-1. Linia regresji prostej

 

Równanie regresji prostej:  Y = a + bX + e

                                                           lub:

Y’ = a + b X;

Y –  wartość rzeczywista zmiennej zależnej;
Y’ – wartość przewidywana zmiennej zależnej;

– wartość średnia zmiennej zależnej  

e – błąd przewidywania;

b – współczynnik nachylenia (slope) – wyznacza kąt
      nachylenia linii regresji;

a – stała równania regresji (constant, intercept) – wyznacza
      wysokości linii regresji. Jeśli X = 0, to Y = a; czyli a to
      wysokość linii regresji (wartość Y) w punkcie X = 0.

Analizowane dane (zmienna zależną niezależną) możemy przedstawić w postaci standaryzowanej (jako odchylenia poszczególnych wyników od średniej całkowitej):


 

Dane w postaci standaryzowanej mają, z założenia, średnią:
= 0  i wariancję: s2 = 1.

 

Dla danych standaryzowanych równanie regresji ma postać:

     Y’ = b X

(opuszczamy w równaniu a, gdyż wynosi ono zero).

 

Równanie regresji w postaci standaryzowanej jest bardzo wygodne gdyż eliminuje wpływ jednostek pomiaru na wartość zmiennych. Wszystkie zmienne wyrażone są w tych samych jednostkach: jednostkach odchylenia standardowego.

 

Analiza regresji umożliwia (analogicznie jak w  wypadku ANOVA) rozłożenie sumy kwadratów (SS) zmiennej zależnej Y (Sy2) na dwie składowe:
 

·       SS przewidywaną na podstawie równania regresji -
 

·       SS nie przewidywalną przez równanie regresji – SS błędu (SSerror) lub SS resztową (residual -- ).

 

(porównaj rysunek na poprzedniej stronie)

 

Ponieważ dwa wyrażenia po prawej stronie równania
(w nawiasach) są nieskorelowane ze sobą, zachodzi równość:

 

                           

Sy=   SSreg   +   SSres

                           

                                     

      r=

Jak widać z ostatniego wzoru, r2 informuje o tym, jaką proporcję całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie zmiennej niezależnej (i równania regresji). Z wzoru tego widać też, że im większe jest SSreg (tzn. im bliżej linii regresji położone są punkty na wykresie, por. strony 4 i 5) tym wyższa jest korelacja (r i r2).

 

Istotność współczynnika regresji dana jest wzorem:

 

F =   = 

 

k= liczba zmiennych niezależnych, N = wielkość próby (dla jednej zm. niezależnej: df1 = 1, df2 = N - 2). Jeśli istotne jest r to istotne jest też r2 (przy identycznym alfa).

 

Istnieją metody analizy regresji krzywoliniowej, analizujące rozrzut punktów względem jakieś krzywej.

KORELACJA  I  REGRESJA  WIELOKROTNA

(multiple correlation and regression)

 

Analiza regresji wielokrotnej pozwala przewidywać wartość zmiennej zależnej Y na podstawie wielu zmiennych niezależnych (predyktorów): X1, X2, ... Xn.  Predyktory te: 

·       mogą być wzajemnie skorelowane ze sobą;

·       mogą być zmiennymi ciągłymi jak i dyskretnymi (skokowymi). Poza przypadkiem, kiedy predyktory dyskretne przybierają wartości: 0 i 1, muszą być one, przed włączenie do analizy, zakodowane w specjalny sposób. Najczęściej jednak analizowana jest zależność między zmiennymi ciągłymi.

 

Równanie regresji wielokrotnej ma postać (czasem zamiast a pisze się b0):

Y’ = a + b1X1, + b2X2, + ... + bn Xn

Jeśli równanie regresji przedstawione jest w postaci standaryzowanej (patrz niżej), współczynniki beta (b) mogą być traktowane jako wagi zmiennych niezależnych. Informują one jak duży wpływ ma dana zmienna niezależna na zmienną zależną. Wielkości współczynników b są nieporównywalne, bo zależą od skali pomiarowej (zmiana jednostki pomiaru powoduje zmianę współczynnika b).

 

Y’ = b1 X1, + b2 X2, + ... + bn Xn

Analiza regresji pozwala
 

·       Wybrać zbiór predyktorów (zmiennych niezależnych), spośród wszystkich predykatorów poddanych analizie, który zapewnia najlepsze przewidywanie zmiennej Y; przy doborze predyktorów brane jest pod uwagę ich wzajemne skorelowanie.
 

·       Ocenić wagi poszczególnych predyktorów.
 

·       Oszacować jaki procent całkowitej sumy kwadratów zmiennej zależnej można przewidzieć na podstawie wszystkich zmiennych niezależnych uwzględnionych w równaniu regresji.  Miarą tego efektu jest współczynnik determinacji (r2 lub R2).

 

Dla odróżnienia od korelacji prostej (r)  współczynnik korelacji wielokrotnej oznacza się symbolem R. Współczynnik R jest miarą siły związku miedzy zmienną zależną a wszystkimi predyktorami uwzględnionymi w modelu analizy.

 

Warto pamiętać, że analiza regresji jest przede wszystkim narzędziem predykcji. Niekiedy mówi się, że zmienne niezależne, analizowane za pomocą analizy regresji, wyjaśniają określony procent zmienności zmiennej zależnej. Interpretacja taka nie zawsze jest uzasadniona a zawsze wymaga dodatkowych przesłanek statystycznych i merytorycznych.  


Przykład

 

Szukamy czynników pozwalających najlepiej przewidywać ryzyko zachorowania na chorobę wieńcową. Analizujemy (za pomocą regresji wielokrotnej) następujące predyktory (czynniki ryzyka):

1)            Palenie papierosów;

2)            Picie alkoholu;

3)            Dieta (zawartość tłuszczów i cukru);

4)            Aktywność ruchowa;

5)            Płeć;

6)            Czynnik genetyczny (występowanie choroby w rodzinie)

7)            Wiek (liczba lat życia);

8)            Rok urodzenia.

 

Można oczekiwać (na podstawie dostępnej dotąd wiedzy), że trafność przewidywania ryzyka zachorowania będzie się zwiększała w miarę jak będziemy uwzględniali kolejne predyktory: 1, 2, ..., 7. Natomiast dołączenie zmiennej 8 nie polepszy trafności przewidywań ponieważ nie dostarcza ona żadnej nowej informacji o badanym (informuje o tym, co już wiemy na podstawie zmiennej 7). Fakt, że zmienna 8 jest bardzo wysoko (tu: perfekcyjnie) skorelowana ze zmienną 7 sprawia, że jest ona z bezużyteczna (redundantna) dla prognozy zmiennej zależnej.

 

Najlepszymi predyktorami zmiennej zależnej są takie zmienne niezależne, które wysoko korelują ze zmienną zależną (kryterium) i jednocześnie nisko korelują wzajemnie ze sobą.

 


Analiza regresji wielokrotnej – przykład liczbowy (SPSS)

 

...

Zgłoś jeśli naruszono regulamin