lab3.pdf

Katedra

Podstaw

Konstrukcji

Maszyn

Wydział

Mechaniczny

Technologiczny

MetodySztucznej

Politechnika

l¡ska

Inteligencji

Rok akademicki 2007/08

Instrukcja do ¢wicze« laboratoryjnych

wiczenie 3

Temat

Odkrywaniewiedzywbazachdanych

Opracował: dr in». D. Wachla

ul.Konarskiego18a

44-100Gliwice

tel.2371467

fax.2371360

http://kpkm.polsl.pl

- 1/7 -

1.Cel¢wiczenia

Celem ¢wiczenia jest nabycie umiej¦tno±ci posługiwania si¦ heurystykami pozwalaj¡cymi na

odkrywanie prostych praw ﬁzycznych jak np. równanie gazu doskonałego, III prawo Keplera,

prawo Coulomba itd.

2.Wprowadzenieteoretyczne

Kilka wieków temu, tacy badacze jak Kepler i Galileusz zapocz¡tkowali proces odkrywania praw

opisuj¡cych zachowanie si¦ otaczaj¡cego ich ±wiata. W swoich odkryciach stosowali proste re-

guły heurystyczne, pozwalaj¡ce na opisywanie zwi¡zków pomi¦dzy danymi, które gromadzili w

trakcie dokonywanych obserwacji. Id¡c ich ±ladem, na pocz¡tku lat osiemdziesi¡tych ubiegłe-

go stulecia, został opracowany system odkry¢ naukowych BACON [4, 5], którego celem jest

„automatyczne” odkrywanie praw (zwi¡zków) pomi¦dzy dostarczonymi danymi. Podobnie jak

wspomniani badacze, tak»e i w systemie BACON zawarto te same heurystyki, które mo»na

przedstawi¢ w nast¦puj¡cy sposób [1, 4]:

1. je±li zmienna y ma warto±¢ v dla odpowiednio du»ej liczby przykładów to przyjmij, »e y

ma stał¡ warto±¢ v ,

2. je±li zmienne x i y s¡ liniowo zale»ne z pochyleniem a i przesuni¦ciem b , czyli y = ax + b

dla odpowiednio du»ej liczby przykładów to przyjmij, »e ten zwi¡zek zachodzi zawsze,

3. je±li y zmniejsza si¦ przy zwi¦kszeniu si¦ x oraz x i y nie s¡ zale»ne liniowo, to utwórz

now¡ zmienn¡ t = xy ,

4. je±li y zwi¦ksza si¦ przy zwi¦kszaniu x oraz x i y nie s¡ zale»ne liniowo, to utwórz now¡

zmienn¡ t = x/y .

Chocia» przedstawione powy»ej heurystyki s¡ bardzo proste, to w wielu wypadkach ich zasto-

sowanie zako«czy si¦ niepowodzeniem, gdy [1]:

odkrywany jest zwi¡zek wielomianowy taki jak np. y = ax 2 + b ,

x i y nie s¡ monotoniczne,

dane dla których odkrywane jest równanie s¡ cz¦±ciowo niepoprawne.

Wpływ ostatniego przypadku mo»na cz¦±ciowo zminimalizowa¢ w trakcie sprawdzenia stałej

warto±ci zmiennej lub jej liniowej zale»no±ci od innej zmiennej, przyjmuj¡c, »e poszukiwana

zale»no±¢ mo»e by¢ w „przybli»eniu” stała lub liniowa. Warto±ci zmiennej mo»na uzna¢ (w

„przybli»eniu”) za stałe gdy ich odchylenie standardowe jest dostatecznie małe. Dla dowolnej

zmiennej v odchylenie standardowe mo»na obliczy¢ nast¦puj¡co:

v =

v u u t 1

N X

( v i − v ) 2

(1)

i =1

- 2/7 -

gdzie v jest ±redni¡ warto±ci¡ v , obliczan¡ nast¦puj¡co:

v =

N X

v i

(2)

i =1

Je»eli v 0 , to zmienna v ma stał¡ warto±¢ równ¡ v w rozwa»anym zbiorze warto±ci. W

przypadku poszukiwania zwi¡zku liniowego dla dwóch zmiennych v 1 i v 2 wyznacza si¦ ich

współczynnik korelacji:

k v 1 v 2 =

q P N i =1 ( v 1 i − v 1 ) 2 P N i =1 ( v 2 i − v 2 ) 2

(3)

Je»eli wyznaczony współczynnik korelacji ma warto±¢ blisk¡ − 1 lub 1 , to parametry a i b

zale»no±ci v 1 av 2 + b mo»na oszacowa¢ stosuj¡c metody regresji liniowej.

2.1.Przykład

Aby zrozumie¢ istot¦ zastosowania powy»szych heurystyk w dokonywaniu odkry¢, prze±ledzi-

my proces odkrywania równania opisuj¡cego zale»no±¢ pomi¦dzy pr¦dko±ci¡ rozchodzenia si¦

d¹wi¦ku V w danym o±rodku a temperatur¡ T tego o±rodka. Potrzebne dane zamieszczono

w (Tab. 1).

Tab. 1: Dane do odkrywania równania opisuj¡cego zwi¡zek pr¦dko±ci rozchodzenia si¦ d¹wi¦ku

V w o±rodku a temperatur¡ o±rodka T .

T V

250 316 . 75

273 331 . 00

320 358 . 36

330 363 . 92

1. Pocz¡tkowo mamy dwie zmienne { T,V } (Tab. 1). Mo»na zauwa»y¢, »e »adna z tych

zmiennych nie ma stałej warto±ci. W zwi¡zku z tym tworzymy nowe zmienne.

(a) Dla pary zmiennych h T,V i ( T – zmienna niezale»na, V – zmienna zale»na) war-

to±ci V rosn¡ przy wzro±cie warto±ci T . W zwi¡zku z tym faktem stosujemy 4

heurystyk¦ i tworzymy now¡ zmienn¡ x 1 o deﬁnicji x 1 = T V oraz obliczamy jej

warto±ci. Obliczone warto±ci zmiennej x 1 dopisujemy do tabeli (Tab. 2) jako now¡

kolumn¦, powi¦kszaj¡c tym samym zbiór rozpatrywanych zmiennych.

(b) Dla pary zmiennych h V,T i ( V – zmienna niezale»na, T – zmienna zale»na) warto±ci

T rosn¡ przy wzro±cie warto±ci V . W zwi¡zku z tym faktem stosujemy 4 heurystyk¦,

- 3/7 -

P N i =1 ( v 1 i − v 1 )( v 2 i − v 2 )

Tab. 2:

T V x 1

250 316 . 75 0 . 78927

273 331 . 00 0 . 82477

320 358 . 36 0 . 89295

330 363 . 92 0 . 90680

tworzymy zmienn¡ x 2 o deﬁnicji x 2 = V T i obliczamy jej warto±ci. Obliczone warto±ci

zmiennej x 2 dopisujemy do tabeli (Tab. 3)

Tab. 3:

T V x 1 x 2

250 316 . 75 0 . 78927 1 . 2670

273 331 . 00 0 . 82477 1 . 2125

320 358 . 36 0 . 89295 1 . 1199

330 363 . 92 0 . 90680 1 . 1028

2. W wyniku powy»szych działa« otrzymujemy nast¦puj¡cy zbiór zmiennych { T,V,x 1 ,x 2 }

(Tab. 3). adna ze zmiennych w tym zbiorze nie jest stała. W zwi¡zku z tym tworzymy

nowe zmienne.

(a) Dla pary zmiennych h T,x 1 i ( T – zmienna niezale»na, x 1 – zmienna zale»na)

warto±ci x 1 rosn¡ przy wzro±cie warto±ci T co prowadzi do utworzenia zmiennej o

deﬁnicji T x 1 = T · V T odpowiadaj¡cej pocz¡tkowej zmiennej V , któr¡ w zwi¡zku z tym

mo»emy pomin¡¢.

(b) Dla pary zmiennych h x 1 ,T i ( x 1 – zmienna niezale»na, T – zmienna zale»na)

warto±ci T rosn¡ przy wzro±cie warto±ci x 1 . W zwi¡zku z tym stosujemy heurystyk¦

nr.4 i tworzymy zmienn¡ x 3 = x 1 T = T V · T = 1 T . Obliczone warto±ci zmiennej x 3

dopisujemy do (Tab. 4).

warto±ci x 1 rosn¡ przy wzro±cie warto±ci V . Stosujemy heurystyk¦ nr.4 i tworzymy

zmienn¡ o deﬁnicji x 4 = V x 1 = V 2

- 4/7 -

T . Obliczamy warto±ci zmiennej tej zmiennej i

dopisujemy je do (Tab 5).

(d) Dla pary zmiennych h x 1 ,V i ( x 1 – zmienna niezale»na, V – zmienna zale»na)

warto±ci V rosn¡ przy wzro±cie warto±ci x 1 . W zwi¡zku z tym stosujemy ostatni¡

heurystyk¦ i tworzymy zmienn¡ o deﬁnicji x 5 = x 1 V = T V 2 . Nast¦pnie obliczamy

warto±ci zmiennej x 5 i umieszczamy je w (Tab. 6) jako now¡ kolumn¦.

Tab. 4:

T V x 1 x 2 x 3

250 316 . 75 0 . 78927 1 . 2670 0 . 0031571

273 331 . 00 0 . 82477 1 . 2125 0 . 0030211

320 358 . 36 0 . 89295 1 . 1199 0 . 0027905

330 363 . 92 0 . 90680 1 . 1028 0 . 0027479

Tab. 5:

T V x 1 x 2 x 3 x 4

250 316 . 75 0 . 78927 1 . 2670 0 . 0031571 401 . 32

273 331 . 00 0 . 82477 1 . 2125 0 . 0030211 401 . 32

320 358 . 36 0 . 89295 1 . 1199 0 . 0027905 401 . 32

330 363 . 92 0 . 90680 1 . 1028 0 . 0027479 401 . 32

Tab. 6:

T V x 1 x 2 x 3 x 4 x 5

250 316 . 75 0 . 78927 1 . 2670 0 . 0031571 401 . 32 0 . 0024918

273 331 . 00 0 . 82477 1 . 2125 0 . 0030211 401 . 32 0 . 0024918

320 358 . 36 0 . 89295 1 . 1199 0 . 0027905 401 . 32 0 . 0024918

330 363 . 92 0 . 90680 1 . 1028 0 . 0027479 401 . 32 0 . 0024918

(e) Dla pary zmiennych h T,x 2 i ( T – zmienna niezale»na, x 2 – zmienna zale»na) war-

to±ci x 2 malej¡ przy wzro±cie warto±ci T , co prowadzi przy zastosowaniu heurystyki

nr.3 do utworzenia zmiennej o deﬁnicji T · x 2 = T · V T , która odpowiada zmiennej

V i któr¡ pomijamy. Podobnie, rozpatruj¡c h x 2 ,T i ( x 2 – zmienna niezale»na, T

– zmienna zale»na), otrzymujemy ten sam rezultat.

(f) Dla pary zmiennych h V,x 2 i ( V – zmienna niezale»na, x 2 – zmienna zale»na) war-

to±ci x 2 malej¡ przy wzro±cie warto±ci x 2 . W zwi¡zku z tym stosujemy heurystyk¦

nr.3 tworz¡c zmienn¡ o deﬁnicji x 6 = V · x 2 = V · V T = V 2

T . Dalej

zauwa»amy, »e zmienna x 5 ma tak»e stał¡ warto±¢ równ¡ 0.0024918 a jej deﬁnicja jest

postaci T V 2 , co jest oczywi±cie odwrotno±ci¡ uzyskanych wyników dla zmiennych x 4 i

- 5/7 -

T . Podobnie, rozpatruj¡c

h x 2 ,V i ( x 2 – zmienna niezale»na, T – zmienna zale»na), otrzymujemy ten sam

rezultat. Wyznaczamy warto±ci zmiennej x 6 i dopisujemy je do tabeli (Tab. 7).

3. Dysponujemy teraz zbiorem { T,V,x 1 ,x 2 ,x 3 ,x 4 ,x 5 ,x 6 } , dla którego mo»emy zauwa»y¢

»e zmienne x 4 i x 6 maj¡ stał¡ warto±¢ równ¡ 401.32 oraz t¡ sam¡ deﬁnicj¦ V 2

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: