Analiza korespondencji i jej zastosowania w naukach społecznych.PDF

(1188 KB) Pobierz
72346841 UNPDF
O Ļ wiadczenie kieruj Ģ cego prac Ģ
O Ļ wiadczam, Ň e niniejsza praca została przygotowana pod moim kierunkiem
i stwierdzam, Ň e spełnia ona warunki do przedstawienia jej w post ħ powaniu o nadanie
tytułu zawodowego.
Data Podpis kieruj Ģ cego prac Ģ
Analiza korespondencji
i jej zastosowania
w naukach społecznych
O Ļ wiadczenie autora pracy
ĺ wiadom odpowiedzialno Ļ ci prawnej o Ļ wiadczam, Ň e niniejsza praca dyplomowa
została napisana przez mnie samodzielnie i nie zawiera tre Ļ ci uzyskanych w sposób
niezgodny z obowi Ģ zuj Ģ cymi przepisami.
O Ļ wiadczam równie Ň , Ň e przedstawiona praca nie była wcze Ļ niej przedmiotem procedur
zwi Ģ zanych z uzyskaniem tytułu zawodowego w wy Ň szej uczelni.
O Ļ wiadczam ponadto, Ň e niniejsza wersja pracy jest identyczna z zał Ģ czon Ģ wersj Ģ
elektroniczn Ģ .
Data Podpis autora pracy
- 2 -
Streszczenie
SPIS TRE ĺ CI:
1. Wprowadzenie ............................................................................................................... 5
1.1. Charakterystyka analizy korespondencji ............................................................... 6
1.2. Geneza analizy korespondencji – analyse des données vs. data analysis ............. 7
1.3. Techniki tworzenia map percepcyjnych ................................................................ 9
1.4. Zastosowania ....................................................................................................... 11
2. Formalny model analizy korespondencji..................................................................... 13
2.1. Skala nominalna .................................................................................................. 13
2.2. Statystyka chi kwadrat ......................................................................................... 14
2.3. Analiza korespondencji – podstawowe poj ħ cia................................................... 16
2.4. Obliczenia w analizie korespondencji ................................................................. 17
2.4.1. Profile i masy, macierz korespondencji....................................................... 18
2.4.2. Inercja układu i algorytm SVD.................................................................... 23
2.4.3. Obliczanie współrz ħ dnych........................................................................... 30
2.5. Interpretacja wyników ......................................................................................... 33
2.6. Dystanse............................................................................................................... 38
2.7. Rotacja i skalowanie mapy .................................................................................. 40
2.8. Zakłócenia ........................................................................................................... 42
3. Postrzeganie, kategoryzacja, podobie ı stwo, przestrzenie konceptualne, mapy
percepcyjne .......................................................................................................................... 44
3.1. Kategoryzacja ...................................................................................................... 44
3.1.1. Model porównywania własno Ļ ci ................................................................. 45
3.1.2. Podej Ļ cie prototypowe................................................................................. 46
3.1.3. Podej Ļ cie wzorcowe .................................................................................... 50
3.1.4. Podej Ļ cie sieciowe....................................................................................... 51
3.2. Własno Ļ ci............................................................................................................. 52
3.3. Obiekty i podobie ı stwo....................................................................................... 57
3.4. Redukcja wymiarów ............................................................................................ 59
3.5. Procedura pomiarowa .......................................................................................... 63
3.6. Preklasyfikacja respondentów ............................................................................. 66
4. Przykłady zastosowa ı analizy korespondencji............................................................ 73
4.1. Badanie postrzegania polityków – wyniki i analiza ............................................ 73
4.2. Zastosowanie analizy korespondencji do sieci afiliacji....................................... 84
4.3. Zanieczyszczenie województw............................................................................ 89
4.4. Wyniki wyborów do Sejmu z 2005 r................................................................... 92
5. Zako ı czenie................................................................................................................. 96
6. Bibliografia.................................................................................................................. 97
7. Aneks ......................................................................................................................... 100
7.1. Kod programu do obliczania współrz ħ dnych głównych w programie MatLab
(oprac. Filip Tomaszewski) ........................................................................................... 100
7.2. Ankieta u Ň yta do badania postrzegania polityków ............................................ 101
7.3. Ilustracja współzale Ň no Ļ ci warto Ļ ci inercji całkowitej układu i rozrzutu punktów
profili w przestrzeni....................................................................................................... 102
7.4. Tabela kontyngencji do przykładu z rozdziału 4.4............................................ 106
Przedmiotem pracy jest analiza korespondencji – technika analizy danych
statystycznych słu ŇĢ ca m.in. do graficznego przedstawienia w niskowymiarowej
przestrzeni numerycznych danych zawartych w tabeli kontyngencji. Poza przedstawieniem
formalnego modelu tej techniki zostan Ģ zaprezentowane ramy teoretyczne oparte na
koncepcji schematów poznawczych oraz teorii przestrzeni konceptualnych Petera
Gärdenforsa, które pozwalaj Ģ na zastosowanie analizy korespondencji do konstruowania
map percepcyjnych. Ponadto zaproponowane zostanie udoskonalenie samej mapy
korespondencji poprzez zawarcie na niej informacji o masach wierszowych
i kolumnowych.
Słowa kluczowe
analiza korespondencji, SVD, mapy percepcyjne, przestrzenie konceptualne,
metryka chi kwadrat, inercja, własno Ļ ci, obiekty, podobie ı stwo
Dziedzina pracy (kody wg programu Socrates-Erasmus)
14.2 Socjologia
- 3 -
- 4 -
1. Wprowadzenie
mo Ň na przygotowa ę dane u Ň ywane do konstruowania map percepcyjnych poprzez
preklasyfikacj ħ respondentów. Dzi ħ ki tej operacji uzyska ę mo Ň na bardziej rzetelne wyniki.
W rozdziale czwartym przedstawi ħ przykładowe zastosowania analizy
korespondencji. Na pocz Ģ tku zaprezentuj ħ wyniki przeprowadzonego przez siebie badania
postrzegania polityków. W ich analizie wykorzystałem t ħ technik ħ do konstruowania map
percepcyjnych. Poka Ňħ ponadto trzy inne ciekawe przykłady zastosowania tej techniki
analizy danych.
Niniejsza praca ma na celu przybli Ň enie bardzo interesuj Ģ cej i posiadaj Ģ cej du Ň y
potencjał aplikacyjny techniki analizy danych – analizy korespondencji. Technika ta
zyskuje sobie w ostatnim czasie coraz wi ħ cej zwolenników, czego dowodem mo Ň e by ę
rosn Ģ ca liczba publikacji – zarówno tych na jej temat, jak i wykorzystuj Ģ cych j Ģ
(Beh, 2004b). Mo Ň na jej u Ň ywa ę do graficznej reprezentacji tabeli kontyngencji, a tak Ň e do
bardziej wyrafinowanych przedsi ħ wzi ħę badawczych, takich jak np. tworzenie map
percepcyjnych (Fiedler, 1996).
W pracy tej przedstawione zostan Ģ zało Ň enia teoretyczne i metodologiczne, a tak Ň e
Ň ne sposoby aplikacji tej techniki w naukach społecznych. Ponadto zaproponowane
zostanie udoskonalenie samej mapy korespondencji poprzez zawarcie na niej informacji
o masach wierszowych i kolumnowych.
W rozdziale pierwszym dokonam krótkiej charakterystyki analizy korespondencji –
poka Ňħ , gdzie po Ļ ród innych metod statystycznej analizy danych si ħ sytuuje, jaka była jej
geneza, a tak Ň e zasygnalizuj ħ problem zastosowania tej techniki w sposób inny ni Ň
tradycyjny.
W rozdziale drugim przedstawi ħ matematyczny algorytm, który jest
wykorzystywany w tej technice. Wykonam krok po kroku obliczenia na autentycznych
danych, pokazuj Ģ c, jak z tablicy kontyngencji uzyska ę macierz współrz ħ dnych
potrzebnych do wykonania mapy korespondencji.
Rozdział trzeci b ħ dzie kluczowy dla rozwi Ģ zania zasygnalizowanego pod koniec
rozdziału pierwszego problemu – zastosowania analizy korespondencji do konstruowania
map percepcyjnych przy u Ň yciu danych, które nie maj Ģ charakteru frekwencyjnego.
Wykorzystuj Ģ c teorie wyja Ļ niaj Ģ ce ludzkie procesy postrzegania i kategoryzacji oraz teori ħ
przestrzeni konceptualnych Petera Gärdenforsa zawart Ģ w jego ksi ĢŇ ce pt.: Conceptual
spaces. The geometry of thought (Gärdenfors, 2000), postaram si ħ wykaza ę , Ň e analiza
korespondencji mo Ň e by ę dobrym narz ħ dziem do tworzenia map percepcyjnych. Moim
celem b ħ dzie pokazanie, Ň e redukcja wymiarów, jaka dokonuje si ħ dzi ħ ki algorytmowi
wykorzystywanemu w analizie korespondencji, odpowiada ę mo Ň e mechanizmowi
kognitywnemu, za pomoc Ģ którego umysł ludzki kategoryzuje przedmioty z otaczaj Ģ cego
Ļ wiata, uznaj Ģ c jedne za bardziej podobne do innych. W rozdziale tym poka Ňħ ponadto, jak
1.1. Charakterystyka analizy korespondencji
Analiza korespondencji to – w najwi ħ kszym skrócie – technika, która pozwala
graficznie przedstawi ę w niskowymiarowej przestrzeni numeryczne dane zawarte w tabeli
kontyngencji. Technika ta nale Ň y zatem – obok skalowania wielowymiarowego, analizy
głównych składowych oraz analizy czynnikowej – do klasy technik redukcji danych.
Redukcja danych najcz ħĻ ciej wi ĢŇ e si ħ z utrat Ģ pewnej ilo Ļ ci informacji, co jest cen Ģ , jak Ģ
badacz płaci za zwi ħ kszenie przejrzysto Ļ ci tych danych i – tym samym – ułatwienie ich
interpretacji. Ułatwienie wgl Ģ du w dane empiryczne i ułatwienie ich interpretacji ma
szczególnie du Ň e znaczenie przy bardzo bogatych zestawach danych, kiedy konieczne jest
zanalizowanie zmiennych o wielu warto Ļ ciach. Za procedur Ģ redukcji danych mo Ň e
ponadto sta ę prze Ļ wiadczenie o tym, Ň e w zebranej informacji wyst ħ puj Ģ jakie Ļ ukryte
wzory, swoiste zale Ň no Ļ ci, które wi ĢŇĢ warto Ļ ci zmiennych ze sob Ģ i które pozwalaj Ģ
przewidywa ę warto Ļ ci jednej zmiennej przy pomocy warto Ļ ci innej zmiennej. W analizie
wielowymiarowej badacz ma cz ħ sto do czynienia z redundancj Ģ zmiennych – wiele
wska Ņ ników mierzy te same zmienne ukryte (latentne). Dzi ħ ki analizie wielowymiarowej
mo Ň liwe jest m.in. sprawdzenie, które wska Ņ niki mierz Ģ te same zmienne ukryte. To daje
mo Ň liwo Ļę zmniejszenia liczby zmiennych, dzi ħ ki czemu mo Ň na pozna ę najistotniejsze
informacje kryj Ģ ce si ħ w danych.
Analiz ħ korespondencji zalicza si ħ ponadto do tzw. niepełnych metod
taksonomicznych (Górniak, 2000: 115–134). Jest ona technik Ģ eksploracyjnej analizy
danych, której celem jest odkrywanie struktur i wzorów w zbieranych danych. Niepełno Ļę
tej techniki wi ĢŇ e si ħ z faktem, Ň e identyfikacja i zaliczanie analizowanych obiektów do
skupie ı nast ħ puje w toku interpretacji przestrzennej konfiguracji wyników, nie za Ļ
- 5 -
- 6 -
w wyniku jednoznacznego przyporz Ģ dkowania dokonywanego przez algorytm. Tak wi ħ c
to od intuicji socjologicznej badacza, a tak Ň e oczekiwa ı wynikaj Ģ cych z teorii zale Ň y,
w jaki sposób zinterpretuje on otrzymane wykresy i czy uda mu si ħ skojarzy ę odkryte
w mapach analizy korespondencji wzorce ze znanymi zjawiskami w taki sposób, aby móc
sensownie wyja Ļ ni ę badany fragment rzeczywisto Ļ ci.
Wreszcie jest analiza korespondencji technik Ģ eksploracyjn Ģ , bardzo typow Ģ
mo Ň na powiedzie ę – dla francuskiej socjologii ilo Ļ ciowej. Nazwa – l’analyse des
correspondances – została ukuta w latach 60. ubiegłego stulecia przez francuskiego
lingwist ħ Jean-Paula Benzécriego (Benzécri, 1992). To Benzécri zaproponował
geometryczny sposób przedstawienia wyników w postaci mapy korespondencji.
***
Na czym polega francuski sposób stosowania statystyki? Czym ró Ň ni si ħ tzw.
analyse des données od anglosaskiego data analysis ? W odpowiedzi na te pytania zawiera
si ħ po trosze charakterystyka analizy korespondencji, jakiej dokonałem powy Ň ej, a wi ħ c:
eksploracyjno Ļę i to, Ň e jest to niepełna metoda taksonomiczna. Otó Ň we francuskim
modelu analiza danych rzadko jest wykorzystywana jako operacja poprzedzaj Ģ ca analiz ħ
konfirmacyjn Ģ , weryfikuj Ģ c Ģ hipotezy teoretyczne, których była jednym ze Ņ ródeł. Jest ona
raczej zaledwie jednym z całego zestawu narz ħ dzi, przy pomocy których dokonuje si ħ
opisu społecze ı stwa i wymiarów społecznego uniwersum. Uwa Ň a si ħ , Ň e zmienne nie
figuruj Ģ same w sobie, ale raczej poprzez klasy zjawisk, które wyró Ň niaj Ģ . Przedmiotem
komentarza socjologicznego s Ģ szczególne konfiguracje klas i ich własno Ļ ci. Ko ı cowe
uogólnienie post ħ puje przy pomocy retoryki ró Ň nej od retoryki nauk przyrodniczych.
Argumentów w tym przypadku dostarcza zestawianie podobnych konfiguracji
(Desrosières, 2001). Benzécri zwykł był mówi ę , Ň e to „model powinien pod ĢŇ a ę za
danymi”, a nie na odwrót. W praktyce badawczej oznacza to, Ň e badacz, otrzymuj Ģ c dane
empiryczne, eksploruje je przy u Ň yciu takich technik jak np. analiza korespondencji
i dokonuje interpretacji otrzymanych wyników, przy czym wynikiem s Ģ wła Ļ nie te
szczególne konfiguracje klas i ich własno Ļ ci.
W ten sposób post ħ pował m.in. jeden z najsłynniejszych francuskich socjologów
Pierre Bourdieu. W ksi ĢŇ ce La disctinction Bourdieu (1979) u Ň ył analizy korespondencji
do badania stylów Ň ycia francuskiego społecze ı stwa.
Takie zastosowanie statystyki stoi w opozycji do sposobu, w jaki zwykli stosowa ę
statystyk ħ socjologowie w krajach anglosaskich. Tam metody statystyczne – tzw. data
analysis – wyró Ň niaj Ģ analiz ħ eksploracyjn Ģ , która poprzez metody badania i wizualizacj ħ
pozwala na formułowanie pierwszych hipotez lub szkiców modeli probabilistycznych,
które testowane s Ģ nast ħ pnie przy pomocy analizy konfirmacyjnej. Krótko mówi Ģ c,
post ħ powanie przebiega w odwrotnym kierunku, ni Ň to si ħ dzieje w tradycji francuskiej:
najpierw konstruuje si ħ model, umieszczaj Ģ c w nim zmienne, które podejrzewa si ħ
o wpływ na interesuj Ģ ce badacza zjawisko, a nast ħ pnie sprawdza si ħ , jak (i czy w ogóle)
model ten pasuje do danych empirycznych. W zwi Ģ zku z tym, Ň e na ogół model nie do
ko ı ca pasuje do tych danych, pojawia si ħ konieczno Ļę jego modyfikacji, nadaj Ģ c całemu
procesowi badawczemu swoi Ļ cie iteracyjny charakter.
1.2. Geneza analizy korespondencji – analyse des données vs. data analysis
Teoretycznymi zagadnieniami zwi Ģ zanymi z analizowaniem danych numerycznych
zawartych w tabeli kontyngencji zajmowało si ħ przed Benzécrim wielu uczonych. Mo Ň na
tu wymieni ę m.in. Karla Pearsona (twórc ħ współczynnika korelacji w dwudzielnej tablicy
kontyngencji), H. O. Hirschfelda (autora wzoru na korelacj ħ pomi ħ dzy rz ħ dami
i kolumnami tablicy kontyngencji), Louisa Guttmana (twórc ħ skalowania optymalnego,
która to technika była fundamentem wielokrotnej analizy korespondencji) (Beh, 2004a).
Jednak Ň e wszyscy ci badacze podchodzili do problemu bardziej od strony algebraicznej.
Dopiero Benzécri wraz ze swymi współpracownikami podeszli do zagadnienia od strony
geometrycznej, nadaj Ģ c analizie korespondencji tak Ģ form ħ , jak Ģ ma obecnie, a wi ħ c
graficznej reprezentacji w najcz ħĻ ciej dwuwymiarowym układzie kartezja ı skim
numerycznych danych zawartych w tablicy kontyngencji. Przez długi czas dokonania
grupy Benzécriego nie były popularyzowane ze wzgl ħ du na barier ħ , jak Ģ okazał si ħ j ħ zyk
francuski, w którym były publikowane.
W 1973 r. współprac ħ z Benzécrim rozpocz Ģ ł Greenacre, czego owocem było
opublikowanie w 1984 r. ksi ĢŇ ki pt.: Theory and applications of correspondence analysis .
Dzi ħ ki jasnemu i przyst ħ pnemu opisowi metodologii oraz przedstawieniu przykładów
zastosowania, a tak Ň e dzi ħ ki temu, Ň e napisana została w j ħ zyku angielskim, ksi ĢŇ ka ta
przyczyniła si ħ do spopularyzowania tej techniki i jest obecnie jedn Ģ z najcz ħĻ ciej
cytowanych ksi ĢŇ ek z tej dziedziny statystyki (Stanimir, 2005: 17).
- 7 -
- 8 -
W ostatnim czasie pojawiaj Ģ si ħ wszak Ň e próby ł Ģ czenia analizy korespondencji
z takim technikami jak regresja logistyczna czy regresja liniowa w celu nadania jej
charakteru techniki konfirmacyjnej.
Poza analiz Ģ korespondencji istniej Ģ tak Ň e inne techniki słu ŇĢ ce do eksploracji map
percepcyjnych, takie jak: analiza czynnikowa, analiza głównych składowych, analiza
dyskryminacyjna czy skalowanie wielowymiarowe (ang. multidimensional scaling ). M. T.
Higgs (1991) w swoim artykule pt.: Practical and Innovative Uses of Correspondence
Analysis przedstawia niedogodno Ļ ci i ograniczenia tych technik analitycznych.
Analiza głównych składowych operuje na poziomie niezagregowanym na
zmiennych mierzonych na skalach interwałowych. W efekcie tworzona jest macierz
korelacji, a algorytm zasadniczo polega na „wi Ģ zaniu” atrybutów w ortogonalne wobec
siebie czynniki. Nast ħ pnie uzyskiwana jest macierz F czynników × J marek ( F < J ).
Uznaje si ħ , Ň e czynnik reprezentuje ukryty wymiar znaczeniowy. Graficzna reprezentacja
zredukowanej macierzy dokonywana jest poprzez umieszczanie marek w ró Ň nych
przestrzeniach czynnikowych. Zalet Ģ tej techniki jest to, Ň e posługuje si ħ ona przestrzeni Ģ
euklidesow Ģ , przez co jest łatwa w interpretacji. Jednak Ň e posiada ona tak Ň e wiele
niedogodno Ļ ci, w Ļ ród których wymieni ę nale Ň y m.in. fakt, Ň e mo Ň liwe jest „zmapowanie”
jedynie dwóch wymiarów na raz (na dwuwymiarowej płaszczy Ņ nie), co spowalnia
eksploracj ħ . Poza tym konieczne jest przypisanie znaczenia do ka Ň dego z wymiarów, które
raz nazwane w procesie subiektywnej interpretacji, s Ģ trudne pó Ņ niej do reinterpretacji
i przedefiniowania (Higgs, 1991).
Analiza dyskryminacyjna nie jest wolna od wad, o których wspomniano powy Ň ej.
Poza tym jej słabo Ļ ci Ģ jest niebezpiecze ı stwo wyst ħ powania korelacji pomi ħ dzy
analizowanymi atrybutami, co mo Ň e prowadzi ę do zakłóce ı w otrzymywanych wynikach.
Zalet Ģ skalowania wielowymiarowego w jego niemetrycznej postaci jest to, Ň e nie
wymaga, aby zmienne mierzone były na skalach interwałowych – mo Ň liwe jest stosowanie
skal porz Ģ dkowych. Najcz ħĻ ciej stosowana operacjonalizacja tej techniki polega na
porównywaniu przez respondenta poszczególnych marek ze sob Ģ . Nale Ň y zwróci ę uwag ħ
na to, Ň e w takim badaniu abstrahuje si ħ od własno Ļ ci, które badane obiekty posiadaj Ģ .
Dopiero dzi ħ ki graficznej reprezentacji na niskowymiarowej przestrzeni mo Ň na próbowa ę
wskazywa ę własno Ļ ci, które s Ģ wspólne obiektom.
1.3. Techniki tworzenia map percepcyjnych
Mapy percepcyjne stanowi Ģ swoisty nieu Ļ wiadamiany konstrukt w ludzkich
umysłach słu ŇĢ cy do organizowania wiedzy o obiektach z otaczaj Ģ cego Ļ wiata. Ludzie nie
zdaj Ģ sobie sprawy z ich istnienia, chocia Ň posługuj Ģ si ħ nimi w Ň yciu codziennym. My Ļ l Ģ c
na przykład o partiach politycznych, ka Ň dy (kompetentny w tej materii) człowiek jest
w stanie przyporz Ģ dkowa ę poszczególnym partiom cechy charakterystyczne – np. czy dana
partia jest liberalna, socjaldemokratyczna, ludowa; czy głosuj Ģ na ni Ģ raczej ludzie
z wykształceniem wy Ň szym, czy ni Ň szym; czy w swoich postulatach dana partia skupia si ħ
raczej na walce z bezrobociem, na rozwoju gospodarczym, czy na równouprawnieniu
kobiet.
Dost ħ pu do tych map nie mo Ň na uzyska ę drog Ģ bezpo Ļ redni Ģ – tzn. spyta ę si ħ
respondenta, jak wygl Ģ da jego mapa percepcyjna pewnej klasy obiektów, np. partii
politycznych czy marek samochodów. Jedyn Ģ drog Ģ uzyskania wgl Ģ du w nie jest po Ļ rednie
pytanie. Np. o to, w jakim stopniu obiekty, których percepcyjna mapa nas interesuje,
posiadaj Ģ jakie Ļ atrybuty, czy te Ň , w jakim stopniu obiekty s Ģ do siebie podobne.
Wi ħ kszo Ļę technik, które słu ŇĢ do tworzenia map percepcyjnych składa si ħ z trzech
kroków:
  transformacji lub wa Ň enia danych,
  ustalenia podstawowych osi (wymiarów) poprzez algorytm SVD,
  na ko ı cu tworzona jest mapa w układzie współrz ħ dnych.
W przypadku danych typu marka/atrybut wi ħ kszo Ļę technik wymaga od
respondentów, aby ocenili marki na ka Ň dym z atrybutów u Ň ywaj Ģ c przy tym skali lub te Ň
skojarzenia atrybutów z markami. Skutkuje to uzyskaniem macierzy warto Ļ ci Ļ rednich lub
stopnia asocjacji I atrybutów na J marek (Higgs, 1991: 183-194). Wszystkie te techniki
maj Ģ jedno powa Ň ne ograniczenie operacyjne, od którego wolna jest analiza
korespondencji. Wymagaj Ģ one mianowicie, aby analizowane zmienne mierzone były na
skalach interwałowych lub ilorazowych.
- 9 -
- 10 -
Zgłoś jeśli naruszono regulamin