Rozklad_normalny.pdf

(112 KB) Pobierz
Strona 1 z 6
Krzywa dzwonowa
dr in Ŝ . Adam Walanus
StatSoft Polska
Po co komu dzisiaj dzwon? Nawet w kościołach są teraz głośniki, co jest jeszcze jednym przejawem
oczywistej przewagi softwaru nad hardwarem. Chyba Ŝe Dzwon Zygmunta (patrz rysunek 1). Ten
potrzebny jest narodowi, Ŝeby go jednoczyć. I tu dochodzimy do sedna sprawy z krzywą dzwonową.
Co to jest naród i jak go jednoczyć? Ludzi coś łączy i coś dzieli. Wiele rzeczy ich łączy i tyle samo
dzieli. Jednych bardziej, innych mniej (łączy i dzieli). Ludzie są róŜni. RóŜni pod wieloma
względami
Rys 1. . Dzwon Zygmunta, Kraków
Czy da się w tej chaosie znaleźć jakiś porządek? Tu, w statystycznym kąciku, da się. Jedyny
moŜliwy porządek w chaosie to porządek statystyczny. Opis statystyczny chaosu, róŜnorodności jest
moŜliwy i wskazany. Oczywiście moŜna spisać dokładnie cechy kaŜdego obiektu, np. Adam ma 185
cm wzrostu, a Zenek 158. Ludzie (przynajmniej niektórzy) mają jeszcze inne właściwości niŜ
wzrost, ale zostańmy na razie przy czymś prostym i łatwym do zmierzenia. Jaki wzrost mają Polacy?
Na to proste pytanie istnieją dwie odpowiedzi, jedna, dość mało przydatna, to ta, Ŝe Zenek N. ma
158 cm itd. dla wszystkich 40 milionów osób. Dla współczesnego programu analizy danych
STATISTICA wielkość pliku problemem nie jest, ale kto tę informację skonsumuje? Dlatego jest
druga odpowiedź. Ŝe średnio Polak ma 171,5 cm, albo Ŝe średni czyli przeciętny, czyli szary
obywatel ma taki wzrost. Ta liczba: 171,5 to średnia ze wzrostu Adama i Zenka. Ani jeden ani drugi
nie ma takiego wzrostu. To jaki jest sens średniej? Taki, Ŝe jak będą nieśli deskę, to jej środek będzie
na wysokości 171,5 cm. Średnia to średnia, duŜo więcej tu się nie da powiedzieć, moŜe tylko wzór:
(w A +w Z )/2 albo dla wszystkich: (w 1 +w 2 +...+w n )/n.
Średnia dla wszystkich Polaków, no powiedzmy dla dorosłych męŜczyzn między 20 a 70 rokiem
Ŝycia, Ŝeby dać spokój noworodkom, a takŜe nie udawać, Ŝe kobiety od męŜczyzn się nie róŜnią,
wynosi np. 171,54380573 (Uwaga! Wszelkie podobieństwo cytowanych liczb do rzeczywistych
wartości jest przypadkowe). Czy te wszystkie cyfry rozwinięcia dziesiętnego mają sens, to sprawa
trudniejsza, trzeba ją zostawić na później. Ciekawsze jest następne pytanie o wzrost dorosłych
Polaków, następne, gdy znamy juŜ odpowiedź na pytanie o średni wzrost. Wiedząc, Ŝe nie wszyscy
mają 171,5 cm, i spodziewając się, Ŝe część ma więcej a część mniej, moŜna zapytać jakoś
dokładniej, jaka część ma duŜo więcej, jaka duŜo mniej itd. I tu właśnie potrzebna jest krzywa
dzwonowa przedstawiona na rysunku 2..
file://G:\Statystyka\dzwon.html
05-11-2008
987016165.021.png 987016165.022.png 987016165.023.png
 
Strona 2 z 6
Rys 2. . Krzywa dzwonowa wskazująca procent osób o danym wzroście
Prawda (statystyczna) jest taka właśnie, jak na rysunku 2. Ilu ludzi mieści się pod krzywą
dzwonową, tylu ma taki wzrost, jak napisane jest pod nimi. Aby nie przesadzać w urąganiu ścisłości,
powiedzmy tak: na osi pionowej podany jest procent Polaków o wzroście podanym na osi poziomej
wykresu. Koniecznie jednak pamiętać trzeba, Ŝe chodzi tu o jednostkę wzrostu, w tym przypadku
jest to 1 cm. Na przykład na przedział 160-161 cm przypada ok. 2%. Dla przedziału 160-160,5
byłaby mniej więcej połowa z tego (nieco mniej).
Krzywa dzwonowa jest wykresem funkcji
tak na prawdę (na prawdę matematyczną, Ŝeby 100% to było 100%) wzór jest taki:
a krzywa z rysunku 2 ma dokładnie taki wzór:
który uwzględnia konkretną sytuację, tu akurat wzrost.
Skąd ten wzór? Dlaczego prawie wszystko na tym świecie rozkłada się zgodnie z taką właśnie
funkcją?
Weźmy kostkę do gry. Wiadomo, Ŝe wyrzucenie kaŜdej liczby oczek od 1 do 6 jest jednakowo
prawdopodobne. Co jednak będzie gdy rzucać będziemy dwoma kostkami, a liczbę oczek sumować?
Czy kaŜdy wynik od 2 do 12 będzie dalej tak samo prawdopodobny? Nie, bo np. 7 moŜna otrzymać
aŜ na 6 sposobów: 1+6, 2+5, 3+4, 4+3, 5+2 i 6+1. (JeŜeli kogoś dziwi, Ŝe 1+6 i 6+1 to nie to samo,
to znaczy, Ŝe dostrzega dość głęboką fizyczną kwestię nieidentyczności kostek.) Zostawmy dziecku
kostki, weźmy lepiej jakiś generator liczb losowych, np. wyliczmy zmienną STATISTICA jako =Rnd
(1), otrzymamy liczby losowe z przedziału od 0 do 1. Np. takie: 0,429, 0,128, 0,275, 0,785, 0,036.
file://G:\Statystyka\dzwon.html
05-11-2008
987016165.001.png 987016165.002.png 987016165.003.png 987016165.004.png 987016165.005.png 987016165.006.png
Strona 3 z 6
Wszystkie są jednakowo prawdopodobne (rys.3/1).
Rys 3. . Wykresy gęstości prawdopodobieństwa otrzymania róŜnych wartości przy pojedynczym
losowaniu liczby losowej, przy sumowaniu dwóch i trzech takich liczb. Trzecia krzywa składa się z
trzech paraboli: f(x)=x 2 /2 (od 0 do 1), f(x)=0,75-(x-1,5) 2 (od 1 do 2) i f(x)=(x-3) 2 /2 (od 2 do 3). Nie
jest to jeszcze krzywa dzwonowa.
Dodajmy dwie takie liczby, zróbmy w STATISTICA tak: = Rnd(1)+Rnd(1) , otrzymamy np. 1,191,
1,637, 0,772, 0,608, 1,162. Podobnie jak przy sumowaniu oczek na dwóch kostkach najbardziej
prawdopodobne będzie otrzymanie środkowej wartości, tu jest to jedynka. Prawdopodobieństwo
wzrasta, a następnie maleje liniowo (rys. 3/2). Jest tak jak przy kostkach, co moŜemy sprawdzić
przeliczając na ile sposobów moŜna dostać 2, 3, ... 12. Ciekawie wygląda dopiero rysunek 3/3.
Wynik sumowania trzech liczb losowych z przedziału od 0 do 1. Niech nie wprowadzi nas w błąd
podobieństwo, to jeszcze nie jest krzywa dzwonowa. Funkcja z rysunku 3/3 to trzy sklejone
parabole. ZauwaŜmy, Ŝe dla jednej kostki była jedna funkcja stopnia zerowego (x 0 - stała), dla
dwóch dwie proste, czyli krzywe stopnia 1 (x 1 ), dla trzech trzy parabole, czyli krzywe stopnia 2 (x 2 ).
I tak dalej.
Czym się to kończy w nigdy nieosiągalnej nieskończoności? Krzywą dzwonową. Te ciągi krzywych
potęgowych kończą się funkcją
a jak to robią, to juŜ prawdziwa matematyka. Ścisły matematyczny dowód, Ŝe tak jest, jest trudny.
Pozostaje pytanie, co to wszystko ma do wzrostu Polaków? To się stosuje do średniego wzrostu
Polaków. Po prostu dlatego, Ŝe średnia to suma wielu przypadkowych wzrostów. Średnia to suma
podzielona przez liczbę zsumowanych liczb, ale to dzielenie przez nielosową wartość nic nie
zmienia. WaŜne jest to, Ŝe sumują się wielkości niezaleŜne od siebie, jak wzrost Adama i Zenka (nie
są krewnymi).
Dlatego krzywa dzwonowa ma zastosowanie prawie wszędzie, dlatego nazywa się krzywą rozkładu
normalnego, bo normalna jest taka sytuacja, Ŝe duŜo róŜnych czynników sumuje się na końcowy
wynik, gdy np. wiele jest róŜnych, niezaleŜnych zaburzeń psujących stabilność produkcji.
file://G:\Statystyka\dzwon.html
05-11-2008
987016165.007.png 987016165.008.png 987016165.009.png 987016165.010.png
Strona 4 z 6
Krzywa dzwonowa ma pewną ciekawą i uŜyteczną własność, bardzo szybko maleje przy oddalaniu
się od środka.
Rys 4. . Krzywa dzwonowa pokazana w zmiennej skali pionowej, tak Ŝe co pewien krok (=1) skalę
powiększa się, by na powrót osiągnąć maksymalną wartość. Widać, Ŝe krzywa coraz szybciej
maleje. Wykres otrzymano w STATISTICA Basic .
Zacznijmy jednak od tego, Ŝe ten dzwon nigdzie się nie kończy;
zawsze jest większe od zera. Największa suma oczek przy rzucie dziesięcioma kostkami to 60.
Oczywiście przy nieskończenie wielu kostkach (lepiej sobie tego nie wyobraŜać, to tylko
matematyka...) nie ma Ŝadnego ograniczenia, moŜna osiągnąć nieskończoność. Tak spełnia się
nieograniczoność krzywej dzwonowej. A co z szybkim spadaniem w stronę zera? Pomyślmy, jak
mało prawdopodobne jest otrzymanie samych szóstek w dziesięciu rzutach (p=1/6 10 =0,000000016),
albo jak mało prawdopodobne jest, Ŝe w większej, przypadkowej grupie osób średni wzrost jest 2 m.
Inny przykład to, Ŝe przewrócił nam się barek, wszystkie alkohole się zlały i powstał wspaniały
koktajl. W tym ostatnim przypadku trzeba zwrócić uwagę na niezaleŜność składników, jeŜeli
rzeczywiście były przypadkowe to wynik na pewno nie będzie dobry.
Krzywa maleje szybko do zera i tylko teoretycznie nigdy go nie osiąga. Praktycznie nigdy nie
dostaniemy dziesięciu szóstek po kolei. Czyli wszystko co jest sumą albo innym wynikiem wielu
oddziaływań jest ograniczone. Jest, ale moŜna teŜ popatrzeć na sprawę inaczej, moŜna dostrzec
właśnie "ogony" krzywej dzwonowej. Właśnie odchylenia od normy, które, jak to odchylenia, nie są
bardzo prawdopodobne, ale się zdarzają. Czasami lubi się odchylenia od codzienności. Wiele emocji
wywołała kiedyś w USA ksiąŜka o tytule takim samym jak tytuł tego artykułu, w której zajmowano
się poziomem inteligencji. Oczywiście przyjemnie być w prawym ogonie krzywej opisującej rozkład
IQ w społeczeństwie. Ekstremalne przypadki muszą istnieć, i to z obydwu stron. Czy one się
równowaŜą? Raczej nie. Średnia dochodów jednego prezesa i jednego bezrobotnego nie ma wiele
wspólnego ze średnią krajową. Ale to nie jest najlepszy przykład, bo rozkład zarobków normalny nie
jest, to znaczy nie podlega krzywej dzwonowej. Jest asymetryczny, chociaŜby z jednego powodu,
tego, Ŝe lewy ogon krzywej nie zejdzie poniŜej zera, a prawy ograniczeń nie ma.
Dość tej socjologii, wróćmy do matematyki. Popatrzmy jeszcze raz na rysunek 3. W pierwszym
przypadku mamy zupełny rozrzut wartości w całym moŜliwym przedziale. W drugim pojawia się
skupienie wokół środka, a w trzecim skupienie to jest jeszcze wyraźniejsze. Jest to ogólna cecha
sumowania wpływu wielu czynników. Przy dodawaniu dwóch wielkości A i Z, które mogą być
trochę większe albo trochę mniejsze, moŜliwe są cztery przypadki: A raczej większe i Z raczej
większe itd.
Odchyłka sumy od średniej wartości moŜe być co prawda dwa razy większa (++, --) niŜ odchyłki
file://G:\Statystyka\dzwon.html
05-11-2008
987016165.011.png 987016165.012.png 987016165.013.png 987016165.014.png 987016165.015.png
Strona 5 z 6
składowe, ale w połowie przypadków jest zerowa. To jest przyczyna, dla której średnia jest
względnie bardziej skupiona wokół przeciętnej wartości niŜ składniki. Popatrzmy jak sumują się
składniki podlegające dokładnie krzywej dzwonowej.
Rys 4. . Sumowanie krzywych dzwonowych. Krzywa sumy jest tylko 1,41 razy szersza, szerokości
się nie dodają.
Dodawano wielkość A , która wynosi ok. 5 do wielkości Z , równej ok. 10. Wynik A+Z jest w okolicy
15. PołoŜenie krzywych jest takie, jak trzeba. Ale co z szerokością? Szerokość krzywych A i Z jest,
dla uproszczenia sytuacji taka sama. Szerokość krzywej opisującej sumę A+Z nie jest sumą
szerokości krzywych A i Z , nie jest dwa razy większa. Widać to najlepiej po wysokości krzywej
A+Z , nie jest ona aŜ dwa razy niŜsza, a musiałaby być dwa razy niŜsza gdyby miała być dwa razy
szersza, Ŝeby pole pod krzywą było ciągle równe 1. Krzywa dzwonowa sumy jest szersza, ale tylko o
czyli 1.41.
JeŜeli obliczamy średnią to dzielimy przez dwa, 15/2=7.5, ale jednocześnie dzieli się przez dwa
szerokość krzywej, 1.41/2=0.7 a to jest mniej niŜ jeden, szerokość krzywej dla średniej jest mniejsza
niŜ dla składników. To jest właśnie powód, dla którego średnia jest dokładniejsza. Średnia ze stu
składników będzie dziesięć razy dokładniejsza, bo pierwiastek ze 100 =10. JeŜeli szerokość krzywej
dzwonowej dla wzrostu pojedynczego (przypadkowego) męŜczyzny jest np. 10 cm, to dla średniego
wzrostu 10 milionów Polaków szerokość ta będzie 10 cm/10.000.000 1/2 =0,0031 cm. Oznacza to, Ŝe
całkiem poprawny jest zapis średniej z taką dokładnością: 171,544. A gdyby jakaś inna średnia (np.
dla Czechów) wynosiła 171,524, to z czystym sumieniem moŜna wypowiedzieć statystyczną
prawdę: Czesi są niŜsi, o całe 0,2 mm. Jest to prawda statystyczna nawet jeśli uwzględnić, Ŝe jest ich
mniej i ich średnia jest mniej dokładna.
Teraz moŜemy obliczyć jakie jest prawdopodobieństwo, Ŝe przypadkowy Czech będzie niŜszy od
przypadkowego Polaka. Mniej więcej będzie to tak:
taka jest róŜnica, więc prawdopodobieństwo będzie wynosiło 0.50008, oczywiście jest większe od
1/2, ale nie na tyle, Ŝeby na to stawiać.
W niektórych społeczeństwach bardzo wielkie emocje budzą kwestie róŜnicy poziomu inteligencji
róŜnych grup etnicznych. Warto wtedy pamiętać, Ŝe róŜnica uznana za istotną dla średnich
niekoniecznie musi oznaczać jakąkolwiek zauwaŜalną róŜnicę przy rozpatrywaniu jednostek.
Nie najlepsze opinie słyszy się o tzw. prawdzie statystycznej. Czy słuszne? Czy to, Ŝe średni Polak
nie istnieje jest argumentem? JeŜeli mamy duŜo danych, moŜe nie o wszystkich ale o tysiącach osób,
klientów, uŜytkowników, to inna prawda jak statystyczna jest nieuŜyteczna. Statystyka to nie tylko
średnia, nawet nie tylko krzywa dzwonowa z jej dziwnym kształtem. Statystyka to ogromne
narzędzie, na szczęście dostępne w programie STATISTICA . Z łatwością dostępu do baz danych,
szybkością przetwarzania, ale co najwaŜniejsze z intuicyjnym interfejsem podpowiadającym
kierunek analizy, a w ostateczności z obszernym podręcznikiem elektronicznym STATISTICA jest
rozwiązaniem dla osób, które juŜ wiedzą, Ŝe potrzebują prawdy statystycznej w podejmowaniu
decyzji, w kontroli jakości, w badaniach.
file://G:\Statystyka\dzwon.html
05-11-2008
987016165.016.png 987016165.017.png 987016165.018.png 987016165.019.png 987016165.020.png
Zgłoś jeśli naruszono regulamin