lab3.pdf

(119 KB) Pobierz
399823743 UNPDF
Katedra
Podstaw
Konstrukcji
Maszyn
Wydział
Mechaniczny
Technologiczny
MetodySztucznej
Politechnika
l¡ska
Inteligencji
Rok akademicki 2007/08
Instrukcja do ¢wicze« laboratoryjnych
wiczenie 3
Temat
Odkrywaniewiedzywbazachdanych
Opracował: dr in». D. Wachla
ul.Konarskiego18a
44-100Gliwice
tel.2371467
fax.2371360
http://kpkm.polsl.pl
- 1/7 -
 
1.Cel¢wiczenia
Celem ¢wiczenia jest nabycie umiej¦tno±ci posługiwania si¦ heurystykami pozwalaj¡cymi na
odkrywanie prostych praw fizycznych jak np. równanie gazu doskonałego, III prawo Keplera,
prawo Coulomba itd.
2.Wprowadzenieteoretyczne
Kilka wieków temu, tacy badacze jak Kepler i Galileusz zapocz¡tkowali proces odkrywania praw
opisuj¡cych zachowanie si¦ otaczaj¡cego ich ±wiata. W swoich odkryciach stosowali proste re-
guły heurystyczne, pozwalaj¡ce na opisywanie zwi¡zków pomi¦dzy danymi, które gromadzili w
trakcie dokonywanych obserwacji. Id¡c ich ±ladem, na pocz¡tku lat osiemdziesi¡tych ubiegłe-
go stulecia, został opracowany system odkry¢ naukowych BACON [4, 5], którego celem jest
„automatyczne” odkrywanie praw (zwi¡zków) pomi¦dzy dostarczonymi danymi. Podobnie jak
wspomniani badacze, tak»e i w systemie BACON zawarto te same heurystyki, które mo»na
przedstawi¢ w nast¦puj¡cy sposób [1, 4]:
1. je±li zmienna y ma warto±¢ v dla odpowiednio du»ej liczby przykładów to przyjmij, »e y
ma stał¡ warto±¢ v ,
2. je±li zmienne x i y s¡ liniowo zale»ne z pochyleniem a i przesuni¦ciem b , czyli y = ax + b
dla odpowiednio du»ej liczby przykładów to przyjmij, »e ten zwi¡zek zachodzi zawsze,
3. je±li y zmniejsza si¦ przy zwi¦kszeniu si¦ x oraz x i y nie s¡ zale»ne liniowo, to utwórz
now¡ zmienn¡ t = xy ,
4. je±li y zwi¦ksza si¦ przy zwi¦kszaniu x oraz x i y nie s¡ zale»ne liniowo, to utwórz now¡
zmienn¡ t = x/y .
Chocia» przedstawione powy»ej heurystyki s¡ bardzo proste, to w wielu wypadkach ich zasto-
sowanie zako«czy si¦ niepowodzeniem, gdy [1]:
odkrywany jest zwi¡zek wielomianowy taki jak np. y = ax 2 + b ,
x i y nie s¡ monotoniczne,
dane dla których odkrywane jest równanie s¡ cz¦±ciowo niepoprawne.
Wpływ ostatniego przypadku mo»na cz¦±ciowo zminimalizowa¢ w trakcie sprawdzenia stałej
warto±ci zmiennej lub jej liniowej zale»no±ci od innej zmiennej, przyjmuj¡c, »e poszukiwana
zale»no±¢ mo»e by¢ w „przybli»eniu” stała lub liniowa. Warto±ci zmiennej mo»na uzna¢ (w
„przybli»eniu”) za stałe gdy ich odchylenie standardowe jest dostatecznie małe. Dla dowolnej
zmiennej v odchylenie standardowe mo»na obliczy¢ nast¦puj¡co:
v =
v u u t 1
N
N X
( v i v ) 2
(1)
i =1
- 2/7 -
399823743.011.png 399823743.012.png 399823743.013.png 399823743.001.png
gdzie v jest ±redni¡ warto±ci¡ v , obliczan¡ nast¦puj¡co:
v =
1
N
N X
v i
(2)
i =1
Je»eli v 0 , to zmienna v ma stał¡ warto±¢ równ¡ v w rozwa»anym zbiorze warto±ci. W
przypadku poszukiwania zwi¡zku liniowego dla dwóch zmiennych v 1 i v 2 wyznacza si¦ ich
współczynnik korelacji:
k v 1 v 2 =
q P N i =1 ( v 1 i v 1 ) 2 P N i =1 ( v 2 i v 2 ) 2
(3)
Je»eli wyznaczony współczynnik korelacji ma warto±¢ blisk¡ 1 lub 1 , to parametry a i b
zale»no±ci v 1 av 2 + b mo»na oszacowa¢ stosuj¡c metody regresji liniowej.
2.1.Przykład
Aby zrozumie¢ istot¦ zastosowania powy»szych heurystyk w dokonywaniu odkry¢, prze±ledzi-
my proces odkrywania równania opisuj¡cego zale»no±¢ pomi¦dzy pr¦dko±ci¡ rozchodzenia si¦
d¹wi¦ku V w danym o±rodku a temperatur¡ T tego o±rodka. Potrzebne dane zamieszczono
w (Tab. 1).
Tab. 1: Dane do odkrywania równania opisuj¡cego zwi¡zek pr¦dko±ci rozchodzenia si¦ d¹wi¦ku
V w o±rodku a temperatur¡ o±rodka T .
T V
250 316 . 75
273 331 . 00
320 358 . 36
330 363 . 92
1. Pocz¡tkowo mamy dwie zmienne { T,V } (Tab. 1). Mo»na zauwa»y¢, »e »adna z tych
zmiennych nie ma stałej warto±ci. W zwi¡zku z tym tworzymy nowe zmienne.
(a) Dla pary zmiennych h T,V i ( T – zmienna niezale»na, V – zmienna zale»na) war-
to±ci V rosn¡ przy wzro±cie warto±ci T . W zwi¡zku z tym faktem stosujemy 4
heurystyk¦ i tworzymy now¡ zmienn¡ x 1 o definicji x 1 = T V oraz obliczamy jej
warto±ci. Obliczone warto±ci zmiennej x 1 dopisujemy do tabeli (Tab. 2) jako now¡
kolumn¦, powi¦kszaj¡c tym samym zbiór rozpatrywanych zmiennych.
(b) Dla pary zmiennych h V,T i ( V – zmienna niezale»na, T – zmienna zale»na) warto±ci
T rosn¡ przy wzro±cie warto±ci V . W zwi¡zku z tym faktem stosujemy 4 heurystyk¦,
- 3/7 -
P N i =1 ( v 1 i v 1 )( v 2 i v 2 )
399823743.002.png 399823743.003.png 399823743.004.png 399823743.005.png
Tab. 2:
T V x 1
250 316 . 75 0 . 78927
273 331 . 00 0 . 82477
320 358 . 36 0 . 89295
330 363 . 92 0 . 90680
tworzymy zmienn¡ x 2 o definicji x 2 = V T i obliczamy jej warto±ci. Obliczone warto±ci
zmiennej x 2 dopisujemy do tabeli (Tab. 3)
Tab. 3:
T V x 1 x 2
250 316 . 75 0 . 78927 1 . 2670
273 331 . 00 0 . 82477 1 . 2125
320 358 . 36 0 . 89295 1 . 1199
330 363 . 92 0 . 90680 1 . 1028
2. W wyniku powy»szych działa« otrzymujemy nast¦puj¡cy zbiór zmiennych { T,V,x 1 ,x 2 }
(Tab. 3). adna ze zmiennych w tym zbiorze nie jest stała. W zwi¡zku z tym tworzymy
nowe zmienne.
(a) Dla pary zmiennych h T,x 1 i ( T – zmienna niezale»na, x 1 – zmienna zale»na)
warto±ci x 1 rosn¡ przy wzro±cie warto±ci T co prowadzi do utworzenia zmiennej o
definicji T x 1 = T · V T odpowiadaj¡cej pocz¡tkowej zmiennej V , któr¡ w zwi¡zku z tym
mo»emy pomin¡¢.
(b) Dla pary zmiennych h x 1 ,T i ( x 1 – zmienna niezale»na, T – zmienna zale»na)
warto±ci T rosn¡ przy wzro±cie warto±ci x 1 . W zwi¡zku z tym stosujemy heurystyk¦
nr.4 i tworzymy zmienn¡ x 3 = x 1 T = T V · T = 1 T . Obliczone warto±ci zmiennej x 3
dopisujemy do (Tab. 4).
(c) Dla pary zmiennych h V,x 1 i ( V – zmienna niezale»na, x 1 – zmienna zale»na)
warto±ci x 1 rosn¡ przy wzro±cie warto±ci V . Stosujemy heurystyk¦ nr.4 i tworzymy
zmienn¡ o definicji x 4 = V x 1 = V 2
- 4/7 -
T . Obliczamy warto±ci zmiennej tej zmiennej i
dopisujemy je do (Tab 5).
(d) Dla pary zmiennych h x 1 ,V i ( x 1 – zmienna niezale»na, V – zmienna zale»na)
warto±ci V rosn¡ przy wzro±cie warto±ci x 1 . W zwi¡zku z tym stosujemy ostatni¡
heurystyk¦ i tworzymy zmienn¡ o definicji x 5 = x 1 V = T V 2 . Nast¦pnie obliczamy
warto±ci zmiennej x 5 i umieszczamy je w (Tab. 6) jako now¡ kolumn¦.
399823743.006.png 399823743.007.png 399823743.008.png
Tab. 4:
T V x 1 x 2 x 3
250 316 . 75 0 . 78927 1 . 2670 0 . 0031571
273 331 . 00 0 . 82477 1 . 2125 0 . 0030211
320 358 . 36 0 . 89295 1 . 1199 0 . 0027905
330 363 . 92 0 . 90680 1 . 1028 0 . 0027479
Tab. 5:
T V x 1 x 2 x 3 x 4
250 316 . 75 0 . 78927 1 . 2670 0 . 0031571 401 . 32
273 331 . 00 0 . 82477 1 . 2125 0 . 0030211 401 . 32
320 358 . 36 0 . 89295 1 . 1199 0 . 0027905 401 . 32
330 363 . 92 0 . 90680 1 . 1028 0 . 0027479 401 . 32
Tab. 6:
T V x 1 x 2 x 3 x 4 x 5
250 316 . 75 0 . 78927 1 . 2670 0 . 0031571 401 . 32 0 . 0024918
273 331 . 00 0 . 82477 1 . 2125 0 . 0030211 401 . 32 0 . 0024918
320 358 . 36 0 . 89295 1 . 1199 0 . 0027905 401 . 32 0 . 0024918
330 363 . 92 0 . 90680 1 . 1028 0 . 0027479 401 . 32 0 . 0024918
(e) Dla pary zmiennych h T,x 2 i ( T – zmienna niezale»na, x 2 – zmienna zale»na) war-
to±ci x 2 malej¡ przy wzro±cie warto±ci T , co prowadzi przy zastosowaniu heurystyki
nr.3 do utworzenia zmiennej o definicji T · x 2 = T · V T , która odpowiada zmiennej
V i któr¡ pomijamy. Podobnie, rozpatruj¡c h x 2 ,T i ( x 2 – zmienna niezale»na, T
– zmienna zale»na), otrzymujemy ten sam rezultat.
(f) Dla pary zmiennych h V,x 2 i ( V – zmienna niezale»na, x 2 – zmienna zale»na) war-
to±ci x 2 malej¡ przy wzro±cie warto±ci x 2 . W zwi¡zku z tym stosujemy heurystyk¦
nr.3 tworz¡c zmienn¡ o definicji x 6 = V · x 2 = V · V T = V 2
T . Dalej
zauwa»amy, »e zmienna x 5 ma tak»e stał¡ warto±¢ równ¡ 0.0024918 a jej definicja jest
postaci T V 2 , co jest oczywi±cie odwrotno±ci¡ uzyskanych wyników dla zmiennych x 4 i
- 5/7 -
T . Podobnie, rozpatruj¡c
h x 2 ,V i ( x 2 – zmienna niezale»na, T – zmienna zale»na), otrzymujemy ten sam
rezultat. Wyznaczamy warto±ci zmiennej x 6 i dopisujemy je do tabeli (Tab. 7).
3. Dysponujemy teraz zbiorem { T,V,x 1 ,x 2 ,x 3 ,x 4 ,x 5 ,x 6 } , dla którego mo»emy zauwa»y¢
»e zmienne x 4 i x 6 maj¡ stał¡ warto±¢ równ¡ 401.32 oraz t¡ sam¡ definicj¦ V 2
399823743.009.png 399823743.010.png
Zgłoś jeśli naruszono regulamin