Praca Dyplomowa Automatyka.pdf

(1350 KB) Pobierz
Microsoft Word - Jakub Galka - praca dyplomowa.doc
A KADEMIA G ÓRNICZO - H UTNICZA
WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI,
INFORMATYKI I ELEKTRONIKI
Katedra Elektroniki
Praca magisterska
Zastosowanie transformacji
falkowych do analizy sygnału mowy
Autor
Promotor
Jakub Gałka
prof. dr hab. Mariusz Ziółko
Kraków 2003
266584508.001.png
Składam podziękowania prof. Mariuszowi Ziółko
za inspirację oraz opiekę nad merytoryczną stroną
niniejszej pracy. Michałowi Kępińskiemu dziękuję
za pomoc w implementacji algorytmu.
Szczególne wyrazy wdzięczności za wsparcie
i pomoc kieruję do moich rodziców i brata.
Dziękuję też Darii za cierpliwość i wyrozumiałość
okazaną mi w trakcie pisania tej pracy.
1
 
Spis treści
1 WSTĘP ......................................................................................................................................................... 4
2 KLASYFIKACJA I ZASTOSOWANIE SYSTEMÓW PRZETWARZANIA MOWY ........................ 5
2.1 A NALIZA MOWY .................................................................................................................................... 5
2.1.1 Systemy rozpoznawania mówcy ....................................................................................................... 6
2.1.2 Diagnostyka ..................................................................................................................................... 7
2.1.3 Kodowanie mowy............................................................................................................................. 7
2.1.4 Modyfikacja sygnału mowy.............................................................................................................. 8
2.2 S YNTEZA MOWY .................................................................................................................................... 8
3 WYBRANE ZAGADNIENIA TEORII SYGNAŁÓW ............................................................................. 9
3.1 P ODZIAŁ SYGNAŁÓW ............................................................................................................................. 9
3.2 T WIERDZENIE O PRÓBKOWANIU ............................................................................................................ 9
3.3 K LASYFIKACJA PODSTAWOWYCH TYPÓW ANALIZY SYGNAŁÓW .........................................................10
3.4 T RANSFORMACJA F OURIERA ...............................................................................................................10
3.5 T RANSFORMACJA F ALKOWA ...............................................................................................................12
3.5.1 Falki...............................................................................................................................................14
3.5.2 Falkowa dekompozycja sygnałów..................................................................................................16
3.6 T RANSFORMACJA FALKOWO - FOURIEROWSKA .....................................................................................17
3.7 F ILTRACJA SYGNAŁÓW ........................................................................................................................17
4 SYGNAŁ MOWY ...................................................................................................................................... 20
4.1 M OWA W JĘZYKOZNAWSTWIE ............................................................................................................. 20
4.2 F IZYCZNE WŁAŚCIWOŚCI SYGNAŁU MOWY .......................................................................................... 22
5 SYSTEM ROZPOZNAWANIA MOWY OPARTY O TRANSFORMACJĘ
FALKOWO-FOURIEROWSKĄ....................................................................................................................... 26
5.1 C HARAKTERYSTYKA ALGORYTMU ...................................................................................................... 26
5.2 W PROWADZANIE SYGNAŁU MOWY DO SYSTEMU ................................................................................. 28
5.3 T RANSFORMACJA FALKOWA SYGNAŁU MOWY . ................................................................................... 30
5.4 M OC CHWILOWA SYGNAŁU ................................................................................................................. 32
5.5 O BWIEDNIA MOCY ............................................................................................................................... 34
5.5.1 Homomorficzna filtracja cepstralna ..............................................................................................34
5.5.2 Filtry typu FIR ............................................................................................................................... 37
5.5.3 Filtr medianowy............................................................................................................................. 38
5.5.4 Filtracja sygnału zlogarytmowanego ............................................................................................ 39
5.6 S EGMENTACJA .................................................................................................................................... 40
5.6.1 Przeszukiwanie obwiedni mocy ..................................................................................................... 40
5.6.2 Segmentacja widma falkowego...................................................................................................... 42
5.7 F ALKOWO - FOURIEROWSKA TRANSFORMACJA WYDZIELONYCH SEGMENTÓW ..................................... 42
5.8 P ARAMETRYZACJA WIDMA .................................................................................................................. 44
5.9 P ORÓWNYWANIE WZORCÓW ............................................................................................................... 44
5.10 S YSTEM DECYZYJNY ........................................................................................................................... 45
6 IMPLEMENTACJA SYSTEMU ROZPOZNAWANIA MOWY ......................................................... 46
6.1 C HARAKTERYSTYKA ŚRODOWISKA MATLAB ................................................................................... 46
6.2 A RCHITEKTURA SYSTEMU ................................................................................................................... 46
6.3 O PIS FUNKCJI ...................................................................................................................................... 50
6.3.1 Funkcja start(...) ........................................................................................................................... 50
6.3.2 Funkcja dodaj_wzor(...)................................................................................................................ 53
6.3.3 Funkcja kasuj_wzor(...) ................................................................................................................ 54
6.3.4 Funkcja pokaz_wzor(...) ............................................................................................................... 55
6.3.5 Funkcja graj(...)............................................................................................................................ 56
7 PODSUMOWANIE ................................................................................................................................... 58
2
8 ZAŁĄCZNIK I - KOD ŹRÓDŁOWY IMPLEMENTACJI SYSTEMU .............................................. 59
8.1 K OD ŹRÓDŁOWY FUNKCJI START (...) ................................................................................................... 59
8.2 K OD ŹRÓDŁOWY FUNKCJI DODAJ _ WZOR (...) ....................................................................................... 61
8.3 K OD ŹRÓDŁOWY FUNKCJI KASUJ _ WZOR (...) ........................................................................................ 62
8.4 K OD ŹRÓDŁOWY FUNKCJI POKAZ _ WZOR (...) ....................................................................................... 63
8.5 K OD ŹRÓDŁOWY FUNKCJI GRAJ (...) ..................................................................................................... 65
8.6 K OD ŹRÓDŁOWY FUNKCJI CELL _ NORM (...).......................................................................................... 67
8.7 K OD ŹRÓDŁOWY FUNKCJI CELLABS (...) ............................................................................................... 67
8.8 K OD ŹRÓDŁOWY FUNKCJI CELLQUANT (...) .......................................................................................... 68
8.9 K OD ŹRÓDŁOWY FUNKCJI CELLTRUNC (...) .......................................................................................... 68
8.10 K OD ŹRÓDŁOWY FUNKCJI DWTEXPN (...).............................................................................................. 68
8.11 K OD ŹRÓDŁOWY FUNKCJI DWTEXPN 2(...)............................................................................................ 69
8.12 K OD ŹRÓDŁOWY FUNKCJI ENV _ CEPSTR (...) ......................................................................................... 69
8.13 K OD ŹRÓDŁOWY FUNKCJI ENV _FIR(...) .............................................................................................. 70
8.14 K OD ŹRÓDŁOWY FUNKCJI ENV _ MED (...).............................................................................................. 70
8.15 K OD ŹRÓDŁOWY FUNKCJI ENV _ SCAN (...) ............................................................................................ 71
8.16 K OD ŹRÓDŁOWY FUNKCJI PLOT _1(...) ................................................................................................. 72
8.17 K OD ŹRÓDŁOWY FUNKCJI PLOT _2(...) ................................................................................................. 73
8.18 K OD ŹRÓDŁOWY FUNKCJI PLOT _3(...) ................................................................................................. 74
8.19 K OD ŹRÓDŁOWY FUNKCJI PRMD _ DIST (...) ........................................................................................... 76
8.20 K OD ŹRÓDŁOWY FUNKCJI PRMDSEGM (...) ........................................................................................... 77
8.21 K OD ŹRÓDŁOWY FUNKCJI STD _ POWER (...) .......................................................................................... 77
8.22 K OD ŹRÓDŁOWY FUNKCJI TRANSIND (...) ............................................................................................. 77
8.23 K OD ŹRÓDŁOWY FUNKCJI W AVRNSC (...) ............................................................................................ 78
8.24 K OD ŹRÓDŁOWY FUNKCJI WVT _ POWER (...)......................................................................................... 79
9 LITERATURA........................................................................................................................................... 80
3
1 Wstęp
Mowa jest najbardziej naturalnym i jednocześnie najdoskonalszym sposobem
porozumiewania się ludzi. Dlatego od lat ludzie podejmują próby stworzenia metody
umożliwiającej wykorzystanie tej naturalnej formy komunikacji do interakcji człowieka
z maszyną.
Na skutek trwającej wiele tysięcy lat ewolucji, obecna postać mowy jest bardzo
złożona. Złożoność ta dotyczy nie tylko fizycznej postaci mowy, czyli sygnału akustycznego,
ale również języka, który jest zbiorem zasad kształtujących mowę. Analiza tak
skomplikowanego sygnału wymaga zastosowania bardzo złożonych metod.
Niniejsza praca charakteryzuje metodę analizy akustycznego sygnału mowy polskiej
do celów jej rozpoznawania. Polega ona na podziale sygnału mowy na segmenty
odpowiadające najmniejszym rozróżnialnym elementom języka mówionego – fonemom.
Następnym etapem jest opisanie każdego segmentu zbiorem cech charakterystycznych czyli
parametryzacja. Zbiór tych indywidualnych cech jest punktem wyjścia dla systemu
decyzyjnego, który na ich podstawie określa tożsamość każdego segmentu.
Dwa przedstawione zagadnienia (segmentacja i parametryzacja) realizowane są
za pomocą nowatorskich metod wykorzystujących transformację falkową oraz transformację
falkowo-fourierowską.
Kolejne rozdziały zawierają wprowadzenie podstawowych pojęć związanych
z przetwarzaniem mowy oraz krótkie przedstawienie elementów teorii sygnałów, które
wykorzystano w niniejszej pracy (rozdziały 2 i 3). Rozdział 4 prezentuje charakterystykę
mowy. Istota zagadnienia przedstawiona jest w rozdziale 5, który szczegółowo omawia
konstrukcję algorytmu rozpoznawania mowy. Rozdział 6 dotyczy praktycznej implementacji
algorytmu w środowisku Matlab. Jest ona istotnym elementem pracy, który pozwala badać
rzeczywistą skuteczność oraz możliwości algorytmu.
4
Zgłoś jeśli naruszono regulamin