Wojciszke - Systematycznie modyfikowane autoreplikacje-logika programu badań empirycznych w psychologii.pdf - Metodologia badań psychologicznych A.Tarnowski - wsobietylkoja

Do pracy zbiorowej pod redakcją Jerzego Brzezińskiego (2002)

W druku

Systematycznie Modyfikowane Autoreplikacje:

logika programu badań empirycznych w psychologii

Bogdan Wojciszke

Szkoła Wyższa Psychologii Społecznej

Warszawa

Dedykuję ten tekst moim doktorantom,

a także doktorantom moich koleżanek i kolegów.

Bogdan Wojciszke

Warsaw School of Social Psychology

Systematically Modified Self-Replications:

A strategy for programmatic research in psychology

A strategy of Systematicaly Modified Self-Replications (SMSR) is identified as a basic

way of planning and performing programmatic empirical research in contemporary

psychology. The SMSR strategy consists of replication studies on the same effect

performed by the same team of researchers, with a systematic modification and

diversification of the studied samples, variables and methods of their measurements.

The SMSR strategy is based on the recognition of an inescapable unreliability of a

single empirical study and a probabilistic nature of relationships among psychological

variables. The strategy enables researchers to achieve at least the following goals:

(1) showing reliability of a basic relationship of interest, (2) checking efficiency of

manipulations and construct validity of measures employed, (3) increasing internal

validity, (4) increasing external validity, (5) elimination of alternative explanations, (6)

identification of moderators of the basic relationship, and (7) identification of

mediators of the basic relationship. The chapter describes how the SMSR strategy

helps to achieve these goals both in general terms and in terms of examples drawn

from two research programs. It is concluded that SMSR is necessary to obtain

reliable and valid data (and to get published the data in a leading journal).

Psychologia jest – jak wiadomo – nauką empiryczną, a podstawowy rodzaj publikacji w tego rodzaju

nauce to doniesienie z własnych oryginalnych badań autora. Naukowcy z prawdziwego zdarzenia

śledzą te publikacje na bieżąco (ci ze zdarzenia mniej prawdziwego poprzestają na ich omówieniu z

drugiej ręki w monografiach, lub, co gorsza, podręcznikach), rzadko jednak zdarza się by zajrzeli do

roczników publikowanych wcześniej niż w ciągu ostatnich 10-20 lat. Uprawianie nauki empirycznej,

niczym życie motyla, rozgrywa się w czasie teraźniejszym i – jak się wyraził Robert Sternberg –

Nobody cites dead psychologists . Jednak zajrzenie do starszych roczników takich czołowych

czasopism psychologicznych, jak Journal of Personality and Social Psychology (JPSP) może być

całkiem pouczające, choćby przez porównanie ich zawartości z tym, co publikowane jest

współcześnie. Jedną z uderzających zmian widocznych w ostatnich kilku dekadach jest wzrost liczby

oddzielnych badań składających się na pojedyncze doniesienie empiryczne (obok wzrostu liczby

badanych osób i użytych metod pomiarowych). Np. w roku 1965 tylko 10% doniesień opublikowanych

w JPSP zawierało więcej niż jedno badanie, w roku 1975 było to 20%, zaś w roku 1995 – już 48%.

Tak więc o ile w latach sześćdziesiątych znaczna większość prac empirycznych z zakresu psychologii

społecznej i osobowości poprzestawała na doniesieniu z jednego tylko badania, w latach

dziewięćdziesiątych już niemalże połowa artykułów zawierała doniesienia z dwóch lub więcej badań

(dotyczy to w szczególności psychologii społecznej).

Przed kilkudziesięciu laty jedno badanie wystarczało do przekonania społeczności naukowej o

istnieniu jakiejś prawidłowości, współcześnie potrzeba do tego dwukrotnie więcej badań, a więc całego

programu badawczego. Jednokrotne uzyskanie jakiegoś wyniku nie wystarcza już do uznania go za

wiarygodny, co jest konsekwencją rozprzestrzenienia się wśród badaczy wiedzy o ułomności

pojedynczego badania empirycznego, a także wiedzy o charakterze prawidłowości rządzących ludzką

psychiką. Wiarygodny jest wynik powtórzony kilkakrotnie, w ramach programu badawczego

skonstruowanego na zasadzie systematycznie modyfikowanych autoreplikacji, która to zasada coraz

wyraźniej staje się regułą obowiązującą współczesnego psychologa-empiryka.

Systematycznie Modyfikowane Auto-Replikacje (SMAR) to strategia polegająca na

wielokrotnym powtarzaniu przez ten sam zespół autorów badania wykazującego jakąś prawidłowość

przy celowym wprowadzaniu modyfikacji próby, metod pomiaru i zmiennych stanowiących przedmiot

badania . SMAR służy co najmniej siedmiu celom: (1) wykazaniu rzetelności (powtarzalności)

podstawowego efektu, (2) sprawdzeniu skuteczności manipulacji i teoretycznej trafności

zastosowanych miar, (3) maksymalizacji trafności wewnętrznej, (4) maksymalizacji trafności

zewnętrznej i teoretycznej, (5) eliminacji alternatywnych wyjaśnień, (6) poszukiwaniu moderatorów

efektu oraz (7) poszukiwaniu mediatorów efektu. Osiągnięcie wartościowych poznawczo wyników

empirycznych jest niemożliwe bez realizacji większości tych celów, zaś w tym rozdziale pragnę

przekonać czytelnika do tezy, iż realizacja większości owych celów jest niemożliwa bez powtarzania

własnych badań. Omówię strategię SMAR zarówno w kategoriach ogólnych, jak i odwołując się do

przykładów zaczerpniętych z dwóch dość różnych programów badawczych, z których jeden dotyczy

huśtawki emocjonalnej jako techniki wpływu społecznego (a zrealizowany został przez Dariusza

Dolińskiego i współpracowników), drugi zaś dotyczy dominacji kategorii moralnych w formułowaniu

ocen innego człowieka (zrealizowany przeze mnie wraz ze współpracownikami).

1. Rzetelność podstawowego efektu

Znakomity fizyk francuski Rene Blondlot (1849-1930) ogłosił odkrycie promieni N

wkrótce po tym, jak Roentgen odkrył promieniowanie X. Promienie N miały być

emitowane przez niemalże wszystkie substancje, choć zaobserwować je można było

tylko w bardzo szczególnych warunkach (w ciemnościach i po refrakcji przez pryzmat

aluminiowy). W wielu innych laboratoriach francuskich potwierdzono występowanie

promieniowania N. Jednakże promieniowanie to miały cechować pewne niezwykłe

własności fizyczne, a w dodatku nie udało się go zaobserwować w żadnym z

laboratoriów angielskich i niemieckich. Skłoniło to pismo Nature do wysłania

amerykańskiego fizyka Roberta W. Wooda do laboratorium Blondlota w Nancy (na

cześć którego to miasta promienie otrzymały swoją nazwę). Wood podejrzewał, że

całe promieniowanie N jest po prostu złudzeniem jego odkrywców. Aby to sprawdzić,

wziął udział w demonstracji promieniowania wykonanej przez jednego z asystentów

Blondlota i podczas jej trwania (w ciemnościach) niepostrzeżenie usunął aluminiowy

pryzmat załamujący promieniowanie i czyniący je widzialnym. Nie przeszkodziło to

Blondlotowi i współpracownikiem nadal dostrzegać “ledwo widzialnego”

promieniowania. Dopiero po zapaleniu światła prawda wyszła na jaw (podobno

zresztą prawda ta przyprawiła Blondlota o chorobę umysłową, jak twierdzi Gardner,

1957).

Zapominana i przypominana na nowo historia niefortunnych promieni N

ilustruje, jak

ważną rolę odgrywają replikacje wyników badań, szczególne replikacje “nieskorelowane” –

wykonywane przez niezwiązanych ze sobą badaczy. Dotyczy to nawet tak twardej nauki, jak fizyka – a

cóż dopiero powiedzieć o tak miękkiej nauce, jaką jest psychologia. Przesadą byłoby twierdzić, że ta

ostatnia roi się od niezreplikowanych efektów, jednak można je napotkać bez trudu. Np. i w myśleniu

potocznym, i w wielu podręcznikach psychologii utrzymuje się przekonanie, że dzieci o różnej

kolejności urodzenia systematycznie różnią się osobowością (np. starsze są bardziej konformistyczne,

zależne i konserwatywne, zaś młodsze – bardziej niezależne, buntownicze, oryginalne i liberalne w

poglądach). Tego rodzaju wyniki badań okazały się jednak niereplikowalne (Ernst i Angst, 1983;

Harris, 2000; Schooler, 1972), a w dużym stopniu dotyczy to także większości oddziaływań

wychowawczych podejmowanych przez rodziców (Harris, 1995, 2000). Nie udało się też zreplikować

wpływu powiększonych źrenic na wzrost atrakcyjności fizycznej (Hensley, 1991), skuteczności

podświadomych (podprogowych) oddziaływań propagandowych i marketingowych na zachowanie

(Pratkanis, Eskenazi i Greenwald, 1994), czy sporej liczby bardziej szczegółowych prawidłowości

psychologicznych - np. postulowanego przez Aronsona wzrostu atrakcyjności osoby doskonałej pod

prawie każdym względem wskutek umiarkowanie negatywnej informacji na jej temat (co miałoby z tej

osoby czynić “fajnego chłopa, takiego jak ja” – por. Fishbein i Ajzen, 1975).

Nie ulega wątpliwości, że sceptycyzm w stosunku do jednorazowo uzyskanych zależności

empirycznych jest więcej niż uzasadniony. Nawet gdy nie mamy do czynienia z mistyfikacją czy

samookłamywaniem, nierzadko okazuje się, że jednorazowe zależności po prostu nie istnieją.

Prawidłowości psychologiczne mają charakter jedynie probabilistyczny - nie ma pewności ich

pojawienia się, lecz jedynie jakaś na to szansa. Np. choć to prawda, że im bardziej ktoś jest do nas

podobny, tym bardziej go lubimy, równie prawdziwy jest fakt, że nie w przypadku każdej znanej nam

osoby tak się dzieje. Po pierwsze dlatego, że każda prawidłowość obowiązuje jedynie w pewnych

granicach - np. związek lubienia z podobieństwem załamuje się przy bardzo dużym natężeniu

podobieństwa (pewna Zosia ma poglądy tak bardzo podobne do naszych, że po prostu nas nudzi) i

nie dotyczy partnerów należących do jakiejś nieporównywalnej kategorii (np. pacjentów

psychiatrycznych). Po drugie dlatego, że ludzkie funkcjonowanie jest podporządkowane wielu

prawidłowościom równocześnie i zwykle trudno orzec z góry, która z nich okaże się ważniejsza – np.

lubienie zależy od podobieństwa partnera, ale jeszcze silniej zależy od tego, jak partner nas traktuje

(Zosia wielokrotnie próbowała nam zaszkodzić i źle o nas się wyrażała, wobec czego jej nie lubimy

pomimo podobieństwa).

Empirycznemu badaniu poddajemy zawsze jakieś konkretne osoby, w konkretnych

warunkach, a specyfika tych osób i warunków może zamącić obraz ogólnych prawidłowości. Nawet

oczywista zależność między podobieństwem a lubieniem może zupełnie zaniknąć, jeżeli w badanej

przez nas próbie znajdzie się wiele skłóconych osób, np. dlatego że pochodzą z klasy szkolnej, w

której pojawiło się kilka skonfliktowanych grup. Pojedyncze badanie jest więc zawodną podstawą

wnioskowania o prawidłowościach ogólnych także z powodu błędu próby. Wyniki mierzone w każdej

próbie różnią się od wyników prawdziwych i nie ma nic dziwnego w zdarzeniu polegającym na

równoczesnym odbieganiu wyników jednej próby in minus , a drugiej – in plus od wyniku prawdziwego,

co doskonale wystarcza do uzyskania jednorazowego świadectwa rzekomej różnicy między tymi

dwoma próbami (której to różnicy nie udaje się wykazać w innych badaniach).

Każde badanie jest też obciążone jakimiś błędami wynikającymi z zastosowanych metod czy

doboru jego uczestników. Ponieważ różne badania są obciążone różnymi błędami, dopiero

wielokrotne powtórzenie studiów nad tą samą prawidłowością przy użyciu różnych metod pozwala

prawidłowości “przedrzeć się” przez zakłócenia, jakimi obarczone są poszczególne badania

(eliminacja błędu losowego). Szczególnie cenne są przy tym replikacje dokonane przez badaczy

innych niż autor pierwszego badania ujawniającego jakąś prawidłowość, co dobrze ilustruje historia z

promieniami N. Ci pierwsi są bowiem mniej przywiązani do (nie swojej) hipotezy i nie powtarzają w

mniej lub bardziej nieświadomy sposób błędów metody, które bywają odpowiedzialne za

“wykazywanie” nieistniejących prawidłowości. Tym bardziej dotkliwa jest dla psychologii niechęć do

wykonywania badań replikacyjnych (choć trudno obiektywnie oszacować natężenie tej niechęci), a w

każdym razie brak publikacji tego rodzaju badań w czołowych pismach psychologicznych. To ostatnie

można już ocenić łatwo – nie sposób w czołowym piśmie znaleźć replikację, zaś ankieta

przeprowadzona wśród redaktorów czasopism psychologicznych wykazała, że w znacznej większości

replikacji ani nie cenią, ani nie zamierzają drukować (Neuliep i Crandall, 1991). Redaktorzy nie różnią

się od innych badaczy, spośród których oczywiście się rekrutują (John Garcia, odkrywca roli

odgrywanej w procesach warunkowania przez biologiczne przygotowanie organizmu, wyraził to

słowami: Editors are just like other people, only more so ). Badacze po prostu nie wysyłają doniesień o

replikacji do cenionych periodyków w przekonaniu, że i tak nie zostałyby opublikowane.

Dodatkowy problem to kwestia, jaki wynik replikacji czyni ją udaną. Psychologowie nagminnie

przyjmują za kryterium udanej replikacji istotność statystyczną związku - udane replikacje to takie,

które przynoszą zależności istotne statystycznie (podobnie jak badanie oryginalne), zaś replikacje

nieudane, to takie, w których dany związek nie okazuje się istotny. Jest to zapewne jeszcze jeden

przejaw znanego skądinąd, bałwochwalczego stosunku psychologów do istotności statystycznej –

mniej lub bardziej uświadamianego przekonania, że jeżeli coś jest istotne statystycznie, to tym samym

staje się istotne merytorycznie. W rzeczywistości kryterium to jest całkowicie błędne, co można

zilustrować hipotetycznym przykładem dwóch badaczy pracujących nad tą samą zależnością

(przykład przytaczam po spolszczeniu za Rosenthalem, 1991a). Jak widać w tabeli 1, Kowalski

uzyskał istotną różnicą między grupą eksperymentalną i kontrolną, Nowak zaś – różnicę nieistotną

statystycznie. Zwykle jest to podstawą do twierdzenia, że Nowakowi nie udało się zreplikować

wyników Kowalskiego. Dobrze jednak wiadomo, że poziom statystycznej istotności różnicy zależy nie

tylko od jej wielkości, ale i od liczebności próby (oraz wielkości wariancji wyników), zaś nasz

przykładowy Nowak posługiwał się czterokrotnie mniejszą próbą niż Kowalski. Stąd też miernikiem

podobieństwa wyników badań Kowalskiego i Nowaka powinien być nie poziom istotności, ale raczej

jakiś wskaźnik siły efektu, taki jak statystyka d Cohena (różnica między średnimi podzielona przez

wspólne odchylenie standardowe obu grup) albo współczynnik korelacji r Pearsona. Z tego punktu

widzenia wyniki uzyskane przez Nowaka i Kowalskiego są identyczne – w jednym i drugim przypadku

d wyniosło 0,50, co oznacza zależność umiarkowaną. Co więcej, ostatnia kolumna tabeli 1 pokazuje,

że oba badania potraktowane łącznie, równie silnie przemawiają za istnieniem zależności, jak samo

pierwsze badanie Kowalskiego. Nawet różnica poziomów istotności między nimi okazuje się

nieistotna:

z różnicy = (z Kowalski – z Nowak )/√2 = (2,17 – 1,03)/√2 = 0,81; p = 0,42.

----- tutaj tabela 1 ----

Tak więc przy decyzji, czy replikacja jest udana czy też nie, należy stosować kryteria

ilościowe, a najlepiej uwzględniające wskaźniki siły efektu, nie zaś “na oko” i błędnie stosowane

wskaźniki istotności statystycznej. Nawet przyjęcie adekwatnych kryteriów udanej replikacji, nie

rozwiązuje jednak problemu jej wartości poznawczej. A problem jest dosyć oczywisty – jeżeli

replikacja się powiedzie, badanie nie wnosi nic oryginalnego do istniejącej już wiedzy. Jeżeli zaś

replikacja się nie uda, nie wiadomo, co to znaczy – czy jest to świadectwem braku umiejętności

drugiego autora, skutkiem modyfikacji metody (ta przecież siłą rzeczy musi się mniej lub bardziej

różnić od oryginału), wyrazem zmian historycznych (co może dotyczyć wielu zagadnień psychologii

wychowawczej, rozwojowej i społecznej), czy też wreszcie wyrazem nieistnienia oryginalnej

zależności.

Publikowanie replikacji zarówno udanych, jak i nieudanych zdaje się więc mieć niewiele

sensu. Jednakże brak publikacji tego rodzaju jest jeszcze mniej sensowny, ponieważ prowadzi do

zniekształconego obrazu świata, szczególnie w połączeniu z inną dobrze znaną tendencyjnością

psychologii polegającą na niechęci do publikowania badań, których wyniki okazały się nieistotne w

sensie statystycznym (por. Brzeziński, 1996). Statystyczna istotność (na poziomie p<0,05) jest jednym

z najsilniejszych predyktorów kwalifikowania artykułu do druku przez recenzentów i redaktorów. W

konsekwencji, psychologia jako dziedzina wiedzy staje się podatna na błąd I rodzaju – większa jest

szansa, że ujrzą światło dzienne dane przemawiające za jakąś nieistniejącą prawidłowością, niż dane

sugerujące pominięcie prawidłowości faktycznie istniejących. Jest to o tyle paradoksalne, iż

obowiązujące we współczesnej psychologii reguły wnioskowania statystycznego jednoznacznie każą

unikać właśnie tego błędu na poziomie pojedynczego badania. Niebezpieczeństwo jest tym większe,

że w psychologii następuje dosyć szybki wzrost przynajmniej niektórych standardów

metodologicznych, co sprawia, że wiele wcześniejszych w czasie badań oryginalnych jest

nieporównanie gorszych od późniejszych badań replikacyjnych, choć te ostatnie mają znacznie

mniejszą szansę publikacji. Dobrą ilustracją są tu dzieje badań nad wpływem rozszerzenia źrenic na

wzrost atrakcyjności fizycznej. Eckhard Hess (1975), odkrywca tego zjawiska, z reguły posługiwał się

próbami liczącymi sobie od kilku do trzydziestu kilku osób badanych. Kiedy Hensley (1991) powtórzył

badania Hessa na 501 osobach, wszelkie różnice w spostrzeganiu osób z poszerzonymi i normalnymi

źrenicami zanikły. Sam wzrost liczebności próby (i liczby metod pomiaru zmiennej zależnej – w tym

Wojciszke - Systematycznie modyfikowane autoreplikacje-logika programu badań empirycznych w psychologii.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: