Model źródła-filtra - Source–filter model
Część serii na | ||||||
Fonetyka | ||||||
---|---|---|---|---|---|---|
Część serii Lingwistyka | ||||||
Subdyscypliny | ||||||
Artykulacja | ||||||
|
||||||
Akustyka | ||||||
|
||||||
Postrzeganie | ||||||
|
||||||
Portal lingwistyczny | ||||||
Model źródło-filtr przedstawia mowę jako połączenie źródła dźwięku, takiego jak struny głosowe , i liniowego filtra akustycznego, czyli drogi głosowej . Model jest tylko przybliżeniem, ale jest szeroko stosowany w wielu zastosowaniach, takich jak synteza mowy i analiza mowy, ze względu na jego względną prostotę. Jest to również związane z predykcją liniową . Rozwój modelu jest w dużej mierze wynikiem wczesnych prac Gunnara Fanta , chociaż inni, w szczególności Ken Stevens , również wnieśli istotny wkład w modele leżące u podstaw analizy akustycznej mowy i syntezy mowy. Fant zbudował prace Tsutomu Chiby i Masato Kajiyamy, którzy jako pierwsi pokazali związek między właściwościami akustycznymi samogłoski a kształtem drogi głosowej.
Ważnym założeniem, które jest często przyjmowane przy stosowaniu modelu źródło-filtr, jest niezależność źródła i filtra. W takich przypadkach model należy dokładniej nazywać „modelem niezależnego źródła-filtru”.
Historia
W 1942 roku Chiba i Kajiyama opublikowali swoje badania nad akustyką samogłosek i traktem głosowym w swojej książce The Vowel: Its nature and structure . Tworząc modele dróg głosowych za pomocą fotografii rentgenowskiej , byli w stanie przewidzieć częstotliwości formantowe różnych samogłosek, ustalając związek między nimi. Gunnar Fant, pionier logistyki, wykorzystał badania Chiba i Kajiyamy dotyczące zdjęć rentgenowskich kanału głosowego do zinterpretowania własnych danych dotyczących dźwięków mowy rosyjskiej w Acoustic Theory of Speech Production , w której ustalono model źródło-filtr.
Aplikacje
W różnym stopniu różne fonemy można rozróżnić na podstawie właściwości ich źródła (źródeł) i ich kształtu widmowego . Dźwięki dźwięczne (np. Samogłoski) mają co najmniej jedno źródło ze względu na przeważnie okresowe wzbudzenie głośni, które można aproksymować ciągiem impulsów w dziedzinie czasu i harmonicznymi w dziedzinie częstotliwości oraz filtr zależny np. Od języka położenie i występ warg. Z drugiej strony, środki cierne , takie jak [s] i [f] , mają co najmniej jedno źródło ze względu na turbulentny hałas powstający przy zwężeniu w jamie ustnej lub gardle . Tak zwane dźwięczne frykaty , takie jak [z] i [v] , mają dwa źródła - jedno w głośni, a drugie w zwężeniu nadgłośniowym.
Synteza mowy
We wdrażaniu modelu źródło-filtr produkcji mowy, źródło dźwięku lub sygnał wzbudzenia jest często modelowany jako okresowy ciąg impulsów w przypadku mowy dźwięcznej lub biały szum w przypadku mowy bezdźwięcznej. Filtr traktu głosowego jest w najprostszym przypadku aproksymowany przez filtr wielobiegunowy, w którym współczynniki są uzyskiwane przez wykonanie predykcji liniowej w celu zminimalizowania błędu średniokwadratowego w odtwarzanym sygnale mowy. Splot sygnału pobudzenia z odpowiedzią filtra wytwarza syntetyzowaną mowę.
Modelowanie produkcji mowy ludzkiej
W produkcji mowy ludzkiej źródłem dźwięku są fałdy głosowe , które mogą wytwarzać okresowy dźwięk, gdy są ściśnięte, lub aperiodyczny (biały szum), gdy są rozluźnione. Filtr to reszta drogi głosowej, która może zmieniać kształt poprzez manipulację gardłem , ustami i jamą nosową. Fant z grubsza porównuje źródło i filtr odpowiednio z fonacją i artykulacją . Źródło wytwarza szereg harmonicznych o różnych amplitudach , które przemieszczają się przez przewód głosowy i są wzmacniane lub tłumione w celu wytworzenia dźwięku mowy.
Zobacz też
Bibliografia
-
Chiba, T .; Kajiyama, M. (1942). Samogłoska: jej natura i struktura . Tokio: Pub Tokyo-Kaiseikan. Spółka.
(przedrukowano wydanie w 1952 r., a japońskie wydanie przetłumaczone w 2003 r. jako ISBN 4-00-002107-9 ) - Stevens, KN (2001). „Książka Chiba i Kajiyama jako prekursor akustycznej teorii produkcji mowy” . Journal of Phonetic Society of Japan . 5 (2): 6–7.
- Stevens, KN (1998). Fonetyka akustyczna . Cambridge, MA: MIT Press . ISBN 978-0-262-19404-4 . (twarda oprawa 1999) / (miękka 2000).