Model źródła-filtra - Source–filter model

Model źródło-filtr przedstawia mowę jako połączenie źródła dźwięku, takiego jak struny głosowe , i liniowego filtra akustycznego, czyli drogi głosowej . Model jest tylko przybliżeniem, ale jest szeroko stosowany w wielu zastosowaniach, takich jak synteza mowy i analiza mowy, ze względu na jego względną prostotę. Jest to również związane z predykcją liniową . Rozwój modelu jest w dużej mierze wynikiem wczesnych prac Gunnara Fanta , chociaż inni, w szczególności Ken Stevens , również wnieśli istotny wkład w modele leżące u podstaw analizy akustycznej mowy i syntezy mowy. Fant zbudował prace Tsutomu Chiby i Masato Kajiyamy, którzy jako pierwsi pokazali związek między właściwościami akustycznymi samogłoski a kształtem drogi głosowej.

Ważnym założeniem, które jest często przyjmowane przy stosowaniu modelu źródło-filtr, jest niezależność źródła i filtra. W takich przypadkach model należy dokładniej nazywać „modelem niezależnego źródła-filtru”.

Historia

W 1942 roku Chiba i Kajiyama opublikowali swoje badania nad akustyką samogłosek i traktem głosowym w swojej książce The Vowel: Its nature and structure . Tworząc modele dróg głosowych za pomocą fotografii rentgenowskiej , byli w stanie przewidzieć częstotliwości formantowe różnych samogłosek, ustalając związek między nimi. Gunnar Fant, pionier logistyki, wykorzystał badania Chiba i Kajiyamy dotyczące zdjęć rentgenowskich kanału głosowego do zinterpretowania własnych danych dotyczących dźwięków mowy rosyjskiej w Acoustic Theory of Speech Production , w której ustalono model źródło-filtr.

Aplikacje

W różnym stopniu różne fonemy można rozróżnić na podstawie właściwości ich źródła (źródeł) i ich kształtu widmowego . Dźwięki dźwięczne (np. Samogłoski) mają co najmniej jedno źródło ze względu na przeważnie okresowe wzbudzenie głośni, które można aproksymować ciągiem impulsów w dziedzinie czasu i harmonicznymi w dziedzinie częstotliwości oraz filtr zależny np. Od języka położenie i występ warg. Z drugiej strony, środki cierne , takie jak [s] i [f] , mają co najmniej jedno źródło ze względu na turbulentny hałas powstający przy zwężeniu w jamie ustnej lub gardle . Tak zwane dźwięczne frykaty , takie jak [z] i [v] , mają dwa źródła - jedno w głośni, a drugie w zwężeniu nadgłośniowym.

Synteza mowy

We wdrażaniu modelu źródło-filtr produkcji mowy, źródło dźwięku lub sygnał wzbudzenia jest często modelowany jako okresowy ciąg impulsów w przypadku mowy dźwięcznej lub biały szum w przypadku mowy bezdźwięcznej. Filtr traktu głosowego jest w najprostszym przypadku aproksymowany przez filtr wielobiegunowy, w którym współczynniki są uzyskiwane przez wykonanie predykcji liniowej w celu zminimalizowania błędu średniokwadratowego w odtwarzanym sygnale mowy. Splot sygnału pobudzenia z odpowiedzią filtra wytwarza syntetyzowaną mowę.

Modelowanie produkcji mowy ludzkiej

Jedna możliwa kombinacja źródła i filtra w ludzkim przewodzie głosowym.

W produkcji mowy ludzkiej źródłem dźwięku są fałdy głosowe , które mogą wytwarzać okresowy dźwięk, gdy są ściśnięte, lub aperiodyczny (biały szum), gdy są rozluźnione. Filtr to reszta drogi głosowej, która może zmieniać kształt poprzez manipulację gardłem , ustami i jamą nosową. Fant z grubsza porównuje źródło i filtr odpowiednio z fonacją i artykulacją . Źródło wytwarza szereg harmonicznych o różnych amplitudach , które przemieszczają się przez przewód głosowy i są wzmacniane lub tłumione w celu wytworzenia dźwięku mowy.

Zobacz też

Bibliografia