Wojciszke - Systematycznie modyfikowane autoreplikacje-logika programu badań empirycznych w psychologii.pdf

(297 KB) Pobierz
Microsoft Word - SMAR wg Wojciszke.rtf
Do pracy zbiorowej pod redakcją Jerzego Brzezińskiego (2002)
W druku
Systematycznie Modyfikowane Autoreplikacje:
logika programu badań empirycznych w psychologii
Bogdan Wojciszke
Szkoła Wyższa Psychologii Społecznej
Warszawa
Dedykuję ten tekst moim doktorantom,
a także doktorantom moich koleżanek i kolegów.
2
Bogdan Wojciszke
Warsaw School of Social Psychology
Systematically Modified Self-Replications:
A strategy for programmatic research in psychology
A strategy of Systematicaly Modified Self-Replications (SMSR) is identified as a basic
way of planning and performing programmatic empirical research in contemporary
psychology. The SMSR strategy consists of replication studies on the same effect
performed by the same team of researchers, with a systematic modification and
diversification of the studied samples, variables and methods of their measurements.
The SMSR strategy is based on the recognition of an inescapable unreliability of a
single empirical study and a probabilistic nature of relationships among psychological
variables. The strategy enables researchers to achieve at least the following goals:
(1) showing reliability of a basic relationship of interest, (2) checking efficiency of
manipulations and construct validity of measures employed, (3) increasing internal
validity, (4) increasing external validity, (5) elimination of alternative explanations, (6)
identification of moderators of the basic relationship, and (7) identification of
mediators of the basic relationship. The chapter describes how the SMSR strategy
helps to achieve these goals both in general terms and in terms of examples drawn
from two research programs. It is concluded that SMSR is necessary to obtain
reliable and valid data (and to get published the data in a leading journal).
3
Psychologia jest – jak wiadomo – nauką empiryczną, a podstawowy rodzaj publikacji w tego rodzaju
nauce to doniesienie z własnych oryginalnych badań autora. Naukowcy z prawdziwego zdarzenia
śledzą te publikacje na bieżąco (ci ze zdarzenia mniej prawdziwego poprzestają na ich omówieniu z
drugiej ręki w monografiach, lub, co gorsza, podręcznikach), rzadko jednak zdarza się by zajrzeli do
roczników publikowanych wcześniej niż w ciągu ostatnich 10-20 lat. Uprawianie nauki empirycznej,
niczym życie motyla, rozgrywa się w czasie teraźniejszym i – jak się wyraził Robert Sternberg –
Nobody cites dead psychologists . Jednak zajrzenie do starszych roczników takich czołowych
czasopism psychologicznych, jak Journal of Personality and Social Psychology (JPSP) może być
całkiem pouczające, choćby przez porównanie ich zawartości z tym, co publikowane jest
współcześnie. Jedną z uderzających zmian widocznych w ostatnich kilku dekadach jest wzrost liczby
oddzielnych badań składających się na pojedyncze doniesienie empiryczne (obok wzrostu liczby
badanych osób i użytych metod pomiarowych). Np. w roku 1965 tylko 10% doniesień opublikowanych
w JPSP zawierało więcej niż jedno badanie, w roku 1975 było to 20%, zaś w roku 1995 – już 48%.
Tak więc o ile w latach sześćdziesiątych znaczna większość prac empirycznych z zakresu psychologii
społecznej i osobowości poprzestawała na doniesieniu z jednego tylko badania, w latach
dziewięćdziesiątych już niemalże połowa artykułów zawierała doniesienia z dwóch lub więcej badań
(dotyczy to w szczególności psychologii społecznej).
Przed kilkudziesięciu laty jedno badanie wystarczało do przekonania społeczności naukowej o
istnieniu jakiejś prawidłowości, współcześnie potrzeba do tego dwukrotnie więcej badań, a więc całego
programu badawczego. Jednokrotne uzyskanie jakiegoś wyniku nie wystarcza już do uznania go za
wiarygodny, co jest konsekwencją rozprzestrzenienia się wśród badaczy wiedzy o ułomności
pojedynczego badania empirycznego, a także wiedzy o charakterze prawidłowości rządzących ludzką
psychiką. Wiarygodny jest wynik powtórzony kilkakrotnie, w ramach programu badawczego
skonstruowanego na zasadzie systematycznie modyfikowanych autoreplikacji, która to zasada coraz
wyraźniej staje się regułą obowiązującą współczesnego psychologa-empiryka.
Systematycznie Modyfikowane Auto-Replikacje (SMAR) to strategia polegająca na
wielokrotnym powtarzaniu przez ten sam zespół autorów badania wykazującego jakąś prawidłowość
przy celowym wprowadzaniu modyfikacji próby, metod pomiaru i zmiennych stanowiących przedmiot
badania . SMAR służy co najmniej siedmiu celom: (1) wykazaniu rzetelności (powtarzalności)
podstawowego efektu, (2) sprawdzeniu skuteczności manipulacji i teoretycznej trafności
zastosowanych miar, (3) maksymalizacji trafności wewnętrznej, (4) maksymalizacji trafności
zewnętrznej i teoretycznej, (5) eliminacji alternatywnych wyjaśnień, (6) poszukiwaniu moderatorów
efektu oraz (7) poszukiwaniu mediatorów efektu. Osiągnięcie wartościowych poznawczo wyników
empirycznych jest niemożliwe bez realizacji większości tych celów, zaś w tym rozdziale pragnę
przekonać czytelnika do tezy, iż realizacja większości owych celów jest niemożliwa bez powtarzania
własnych badań. Omówię strategię SMAR zarówno w kategoriach ogólnych, jak i odwołując się do
przykładów zaczerpniętych z dwóch dość różnych programów badawczych, z których jeden dotyczy
huśtawki emocjonalnej jako techniki wpływu społecznego (a zrealizowany został przez Dariusza
Dolińskiego i współpracowników), drugi zaś dotyczy dominacji kategorii moralnych w formułowaniu
ocen innego człowieka (zrealizowany przeze mnie wraz ze współpracownikami).
1. Rzetelność podstawowego efektu
Znakomity fizyk francuski Rene Blondlot (1849-1930) ogłosił odkrycie promieni N
wkrótce po tym, jak Roentgen odkrył promieniowanie X. Promienie N miały być
emitowane przez niemalże wszystkie substancje, choć zaobserwować je można było
tylko w bardzo szczególnych warunkach (w ciemnościach i po refrakcji przez pryzmat
aluminiowy). W wielu innych laboratoriach francuskich potwierdzono występowanie
promieniowania N. Jednakże promieniowanie to miały cechować pewne niezwykłe
własności fizyczne, a w dodatku nie udało się go zaobserwować w żadnym z
laboratoriów angielskich i niemieckich. Skłoniło to pismo Nature do wysłania
amerykańskiego fizyka Roberta W. Wooda do laboratorium Blondlota w Nancy (na
cześć którego to miasta promienie otrzymały swoją nazwę). Wood podejrzewał, że
całe promieniowanie N jest po prostu złudzeniem jego odkrywców. Aby to sprawdzić,
wziął udział w demonstracji promieniowania wykonanej przez jednego z asystentów
Blondlota i podczas jej trwania (w ciemnościach) niepostrzeżenie usunął aluminiowy
pryzmat załamujący promieniowanie i czyniący je widzialnym. Nie przeszkodziło to
4
Blondlotowi i współpracownikiem nadal dostrzegać “ledwo widzialnego”
promieniowania. Dopiero po zapaleniu światła prawda wyszła na jaw (podobno
zresztą prawda ta przyprawiła Blondlota o chorobę umysłową, jak twierdzi Gardner,
1957).
Zapominana i przypominana na nowo historia niefortunnych promieni N
ilustruje, jak
ważną rolę odgrywają replikacje wyników badań, szczególne replikacje “nieskorelowane” –
wykonywane przez niezwiązanych ze sobą badaczy. Dotyczy to nawet tak twardej nauki, jak fizyka – a
cóż dopiero powiedzieć o tak miękkiej nauce, jaką jest psychologia. Przesadą byłoby twierdzić, że ta
ostatnia roi się od niezreplikowanych efektów, jednak można je napotkać bez trudu. Np. i w myśleniu
potocznym, i w wielu podręcznikach psychologii utrzymuje się przekonanie, że dzieci o różnej
kolejności urodzenia systematycznie różnią się osobowością (np. starsze są bardziej konformistyczne,
zależne i konserwatywne, zaś młodsze – bardziej niezależne, buntownicze, oryginalne i liberalne w
poglądach). Tego rodzaju wyniki badań okazały się jednak niereplikowalne (Ernst i Angst, 1983;
Harris, 2000; Schooler, 1972), a w dużym stopniu dotyczy to także większości oddziaływań
wychowawczych podejmowanych przez rodziców (Harris, 1995, 2000). Nie udało się też zreplikować
wpływu powiększonych źrenic na wzrost atrakcyjności fizycznej (Hensley, 1991), skuteczności
podświadomych (podprogowych) oddziaływań propagandowych i marketingowych na zachowanie
(Pratkanis, Eskenazi i Greenwald, 1994), czy sporej liczby bardziej szczegółowych prawidłowości
psychologicznych - np. postulowanego przez Aronsona wzrostu atrakcyjności osoby doskonałej pod
prawie każdym względem wskutek umiarkowanie negatywnej informacji na jej temat (co miałoby z tej
osoby czynić “fajnego chłopa, takiego jak ja” – por. Fishbein i Ajzen, 1975).
Nie ulega wątpliwości, że sceptycyzm w stosunku do jednorazowo uzyskanych zależności
empirycznych jest więcej niż uzasadniony. Nawet gdy nie mamy do czynienia z mistyfikacją czy
samookłamywaniem, nierzadko okazuje się, że jednorazowe zależności po prostu nie istnieją.
Prawidłowości psychologiczne mają charakter jedynie probabilistyczny - nie ma pewności ich
pojawienia się, lecz jedynie jakaś na to szansa. Np. choć to prawda, że im bardziej ktoś jest do nas
podobny, tym bardziej go lubimy, równie prawdziwy jest fakt, że nie w przypadku każdej znanej nam
osoby tak się dzieje. Po pierwsze dlatego, że każda prawidłowość obowiązuje jedynie w pewnych
granicach - np. związek lubienia z podobieństwem załamuje się przy bardzo dużym natężeniu
podobieństwa (pewna Zosia ma poglądy tak bardzo podobne do naszych, że po prostu nas nudzi) i
nie dotyczy partnerów należących do jakiejś nieporównywalnej kategorii (np. pacjentów
psychiatrycznych). Po drugie dlatego, że ludzkie funkcjonowanie jest podporządkowane wielu
prawidłowościom równocześnie i zwykle trudno orzec z góry, która z nich okaże się ważniejsza – np.
lubienie zależy od podobieństwa partnera, ale jeszcze silniej zależy od tego, jak partner nas traktuje
(Zosia wielokrotnie próbowała nam zaszkodzić i źle o nas się wyrażała, wobec czego jej nie lubimy
pomimo podobieństwa).
Empirycznemu badaniu poddajemy zawsze jakieś konkretne osoby, w konkretnych
warunkach, a specyfika tych osób i warunków może zamącić obraz ogólnych prawidłowości. Nawet
oczywista zależność między podobieństwem a lubieniem może zupełnie zaniknąć, jeżeli w badanej
przez nas próbie znajdzie się wiele skłóconych osób, np. dlatego że pochodzą z klasy szkolnej, w
której pojawiło się kilka skonfliktowanych grup. Pojedyncze badanie jest więc zawodną podstawą
wnioskowania o prawidłowościach ogólnych także z powodu błędu próby. Wyniki mierzone w każdej
próbie różnią się od wyników prawdziwych i nie ma nic dziwnego w zdarzeniu polegającym na
równoczesnym odbieganiu wyników jednej próby in minus , a drugiej – in plus od wyniku prawdziwego,
co doskonale wystarcza do uzyskania jednorazowego świadectwa rzekomej różnicy między tymi
dwoma próbami (której to różnicy nie udaje się wykazać w innych badaniach).
Każde badanie jest też obciążone jakimiś błędami wynikającymi z zastosowanych metod czy
doboru jego uczestników. Ponieważ różne badania są obciążone różnymi błędami, dopiero
wielokrotne powtórzenie studiów nad tą samą prawidłowością przy użyciu różnych metod pozwala
prawidłowości “przedrzeć się” przez zakłócenia, jakimi obarczone są poszczególne badania
(eliminacja błędu losowego). Szczególnie cenne są przy tym replikacje dokonane przez badaczy
innych niż autor pierwszego badania ujawniającego jakąś prawidłowość, co dobrze ilustruje historia z
promieniami N. Ci pierwsi są bowiem mniej przywiązani do (nie swojej) hipotezy i nie powtarzają w
mniej lub bardziej nieświadomy sposób błędów metody, które bywają odpowiedzialne za
“wykazywanie” nieistniejących prawidłowości. Tym bardziej dotkliwa jest dla psychologii niechęć do
wykonywania badań replikacyjnych (choć trudno obiektywnie oszacować natężenie tej niechęci), a w
każdym razie brak publikacji tego rodzaju badań w czołowych pismach psychologicznych. To ostatnie
można już ocenić łatwo – nie sposób w czołowym piśmie znaleźć replikację, zaś ankieta
5
przeprowadzona wśród redaktorów czasopism psychologicznych wykazała, że w znacznej większości
replikacji ani nie cenią, ani nie zamierzają drukować (Neuliep i Crandall, 1991). Redaktorzy nie różnią
się od innych badaczy, spośród których oczywiście się rekrutują (John Garcia, odkrywca roli
odgrywanej w procesach warunkowania przez biologiczne przygotowanie organizmu, wyraził to
słowami: Editors are just like other people, only more so ). Badacze po prostu nie wysyłają doniesień o
replikacji do cenionych periodyków w przekonaniu, że i tak nie zostałyby opublikowane.
Dodatkowy problem to kwestia, jaki wynik replikacji czyni ją udaną. Psychologowie nagminnie
przyjmują za kryterium udanej replikacji istotność statystyczną związku - udane replikacje to takie,
które przynoszą zależności istotne statystycznie (podobnie jak badanie oryginalne), zaś replikacje
nieudane, to takie, w których dany związek nie okazuje się istotny. Jest to zapewne jeszcze jeden
przejaw znanego skądinąd, bałwochwalczego stosunku psychologów do istotności statystycznej –
mniej lub bardziej uświadamianego przekonania, że jeżeli coś jest istotne statystycznie, to tym samym
staje się istotne merytorycznie. W rzeczywistości kryterium to jest całkowicie błędne, co można
zilustrować hipotetycznym przykładem dwóch badaczy pracujących nad tą samą zależnością
(przykład przytaczam po spolszczeniu za Rosenthalem, 1991a). Jak widać w tabeli 1, Kowalski
uzyskał istotną różnicą między grupą eksperymentalną i kontrolną, Nowak zaś – różnicę nieistotną
statystycznie. Zwykle jest to podstawą do twierdzenia, że Nowakowi nie udało się zreplikować
wyników Kowalskiego. Dobrze jednak wiadomo, że poziom statystycznej istotności różnicy zależy nie
tylko od jej wielkości, ale i od liczebności próby (oraz wielkości wariancji wyników), zaś nasz
przykładowy Nowak posługiwał się czterokrotnie mniejszą próbą niż Kowalski. Stąd też miernikiem
podobieństwa wyników badań Kowalskiego i Nowaka powinien być nie poziom istotności, ale raczej
jakiś wskaźnik siły efektu, taki jak statystyka d Cohena (różnica między średnimi podzielona przez
wspólne odchylenie standardowe obu grup) albo współczynnik korelacji r Pearsona. Z tego punktu
widzenia wyniki uzyskane przez Nowaka i Kowalskiego są identyczne – w jednym i drugim przypadku
d wyniosło 0,50, co oznacza zależność umiarkowaną. Co więcej, ostatnia kolumna tabeli 1 pokazuje,
że oba badania potraktowane łącznie, równie silnie przemawiają za istnieniem zależności, jak samo
pierwsze badanie Kowalskiego. Nawet różnica poziomów istotności między nimi okazuje się
nieistotna:
z różnicy = (z Kowalski – z Nowak )/√2 = (2,17 – 1,03)/√2 = 0,81; p = 0,42.
----- tutaj tabela 1 ----
Tak więc przy decyzji, czy replikacja jest udana czy też nie, należy stosować kryteria
ilościowe, a najlepiej uwzględniające wskaźniki siły efektu, nie zaś “na oko” i błędnie stosowane
wskaźniki istotności statystycznej. Nawet przyjęcie adekwatnych kryteriów udanej replikacji, nie
rozwiązuje jednak problemu jej wartości poznawczej. A problem jest dosyć oczywisty – jeżeli
replikacja się powiedzie, badanie nie wnosi nic oryginalnego do istniejącej już wiedzy. Jeżeli zaś
replikacja się nie uda, nie wiadomo, co to znaczy – czy jest to świadectwem braku umiejętności
drugiego autora, skutkiem modyfikacji metody (ta przecież siłą rzeczy musi się mniej lub bardziej
różnić od oryginału), wyrazem zmian historycznych (co może dotyczyć wielu zagadnień psychologii
wychowawczej, rozwojowej i społecznej), czy też wreszcie wyrazem nieistnienia oryginalnej
zależności.
Publikowanie replikacji zarówno udanych, jak i nieudanych zdaje się więc mieć niewiele
sensu. Jednakże brak publikacji tego rodzaju jest jeszcze mniej sensowny, ponieważ prowadzi do
zniekształconego obrazu świata, szczególnie w połączeniu z inną dobrze znaną tendencyjnością
psychologii polegającą na niechęci do publikowania badań, których wyniki okazały się nieistotne w
sensie statystycznym (por. Brzeziński, 1996). Statystyczna istotność (na poziomie p<0,05) jest jednym
z najsilniejszych predyktorów kwalifikowania artykułu do druku przez recenzentów i redaktorów. W
konsekwencji, psychologia jako dziedzina wiedzy staje się podatna na błąd I rodzaju – większa jest
szansa, że ujrzą światło dzienne dane przemawiające za jakąś nieistniejącą prawidłowością, niż dane
sugerujące pominięcie prawidłowości faktycznie istniejących. Jest to o tyle paradoksalne, iż
obowiązujące we współczesnej psychologii reguły wnioskowania statystycznego jednoznacznie każą
unikać właśnie tego błędu na poziomie pojedynczego badania. Niebezpieczeństwo jest tym większe,
że w psychologii następuje dosyć szybki wzrost przynajmniej niektórych standardów
metodologicznych, co sprawia, że wiele wcześniejszych w czasie badań oryginalnych jest
nieporównanie gorszych od późniejszych badań replikacyjnych, choć te ostatnie mają znacznie
mniejszą szansę publikacji. Dobrą ilustracją są tu dzieje badań nad wpływem rozszerzenia źrenic na
wzrost atrakcyjności fizycznej. Eckhard Hess (1975), odkrywca tego zjawiska, z reguły posługiwał się
próbami liczącymi sobie od kilku do trzydziestu kilku osób badanych. Kiedy Hensley (1991) powtórzył
badania Hessa na 501 osobach, wszelkie różnice w spostrzeganiu osób z poszerzonymi i normalnymi
źrenicami zanikły. Sam wzrost liczebności próby (i liczby metod pomiaru zmiennej zależnej – w tym
Zgłoś jeśli naruszono regulamin