Fonetyka -Phonetics

Fonetyka to gałąź językoznawstwa , która bada, w jaki sposób ludzie wytwarzają i odbierają dźwięki lub, w przypadku języków migowych , równoważne aspekty znaku. Fonetycy — językoznawcy specjalizujący się w badaniu fonetyki fizycznych właściwości mowy. Dziedzina fonetyki jest tradycyjnie podzielona na trzy poddyscypliny w oparciu o pytania badawcze, takie jak: jak ludzie planują i wykonują ruchy, aby wytworzyć mowę ( fonetyka artykulacyjna ), jak różne ruchy wpływają na właściwości powstającego dźwięku ( fonetyka akustyczna ) lub jak ludzie przekształcają fale dźwiękowe w informacje językowe ( fonetyka słuchowa ). Tradycyjnie minimalną jednostką językową fonetyki jest fon — dźwięk mowy w języku, który różni się od jednostki fonologicznej fonem ; fonem to abstrakcyjna kategoryzacja telefonów.

Fonetyka zajmuje się dwoma aspektami ludzkiej mowy: produkcją – sposobem, w jaki ludzie wydają dźwięki – oraz percepcją – sposobem, w jaki mowa jest rozumiana. Modalność komunikacyjna języka opisuje sposób, w jaki język wytwarza i postrzega języki. Języki z modalnościami ustno-słuchowymi, takie jak angielski, produkują mowę ustnie (za pomocą ust) i odbierają mowę ustnie (za pomocą uszu). Języki migowe , takie jak australijski język migowy ( Auslan ) i amerykański język migowy ( ASL ), mają modalność manualno-wizualną, wytwarzając mowę ręcznie (za pomocą rąk) i postrzegając mowę wizualnie (za pomocą oczu). ASL i niektóre inne języki migowe mają dodatkowo dialekt manualno-ręczny do używania w migowaniu dotykowym przez głuchoniewidomych mówców, gdzie znaki są wytwarzane rękami i odbierane również rękami.

Produkcja języka składa się z kilku współzależnych procesów, które przekształcają komunikat niejęzykowy w mówiony lub migowy sygnał językowy. Po zidentyfikowaniu komunikatu, który ma być zakodowany językowo, mówca musi wybrać poszczególne słowa — znane jako elementy leksykalne — reprezentujące ten komunikat w procesie zwanym selekcją leksykalną. Podczas kodowania fonologicznego, mentalnej reprezentacji słów przypisuje się ich treść fonologiczną w postaci sekwencji fonemów , które mają zostać wyprodukowane. Fonemy są określone dla cech artykulacyjnych, które oznaczają określone cele, takie jak zamknięte usta lub język w określonym miejscu. Te fonemy są następnie koordynowane w sekwencję poleceń mięśniowych, które mogą być wysyłane do mięśni, a gdy polecenia te są wykonywane prawidłowo, wytwarzane są zamierzone dźwięki.

Ruchy te zakłócają i modyfikują strumień powietrza, czego efektem jest fala dźwiękowa. Modyfikację dokonują artykulatory, przy czym różne miejsca i sposoby artykulacji dają różne wyniki akustyczne. Na przykład słowa tack i sack zaczynają się od dźwięków wyrostka zębodołowego w języku angielskim, ale różnią się odległością języka od wyrostka zębodołowego. Ta różnica ma duży wpływ na strumień powietrza, a tym samym na wytwarzany dźwięk. Podobnie kierunek i źródło strumienia powietrza może wpływać na dźwięk. Najczęstszym mechanizmem przepływu powietrza jest płucny – wykorzystujący płuca – ale głośnia i język mogą być również wykorzystywane do wytwarzania strumieni powietrza.

Percepcja języka to proces, w którym sygnał językowy jest dekodowany i rozumiany przez słuchacza. Aby móc odbierać mowę, ciągły sygnał dźwiękowy musi zostać przekształcony w odrębne jednostki językowe, takie jak fonemy , morfemy i słowa . W celu prawidłowej identyfikacji i kategoryzacji dźwięków, słuchacze nadają priorytet pewnym aspektom sygnału, które umożliwiają rzetelne rozróżnienie kategorii językowych. Podczas gdy niektóre wskazówki mają pierwszeństwo przed innymi, wiele aspektów sygnału może przyczynić się do percepcji. Na przykład, chociaż języki ustne nadają priorytet informacjom akustycznym, efekt McGurka pokazuje, że informacje wizualne są wykorzystywane do rozróżniania niejednoznacznych informacji, gdy sygnały akustyczne są niewiarygodne.

Współczesna fonetyka ma trzy gałęzie:

  • Fonetyka artykulacyjna , która dotyczy sposobu wytwarzania dźwięków za pomocą artykulatorów,
  • Fonetyka akustyczna , która odnosi się do wyników akustycznych różnych artykulacji, oraz
  • Fonetyka słuchowa , która dotyczy sposobu, w jaki słuchacze odbierają i rozumieją sygnały językowe.

Historia

Antyk

Pierwsze znane badania fonetyczne zostały przeprowadzone już w VI wieku p.n.e. przez gramatyków sanskryckich . Hinduski uczony Panini jest jednym z najbardziej znanych z tych wczesnych badaczy, którego czteroczęściowa gramatyka, napisana około 350 roku p.n.e., ma wpływ na współczesne językoznawstwo i nadal stanowi „najbardziej kompletną gramatykę generatywną ze wszystkich dotychczas napisanych języków”. Jego gramatyka stanowiła podstawę nowoczesnego językoznawstwa i opisywała kilka ważnych zasad fonetycznych, w tym dźwięczność. Ta wczesna relacja opisywała rezonans jako wytwarzany przez ton, gdy struny głosowe są zamknięte, lub hałas, gdy struny głosowe są otwarte. Zasady fonetyczne w gramatyce są uważane za „prymitywne”, ponieważ stanowią one podstawę jego analizy teoretycznej, a nie same przedmioty analizy teoretycznej, a zasady te można wywnioskować z jego systemu fonologicznego.

Sanskryckie studium fonetyki nazywa się Shiksha . Upaniszada Taittiriya , datowana na 1 tysiąclecie pne, definiuje Shiksha w następujący sposób:

Om! Wyjaśnimy Shiksha.
Dźwięki i akcentowanie, Ilość (samogłosek) i ekspresja (spółgłosek),
Równoważenie (Saman) i połączenie (dźwięków), Tyle o badaniu Shiksha. || 1 |

Taittiriya Upaniszada 1.2, Shikshavalli, przetłumaczone przez Paula Deussena.

Nowoczesny

Postępy w fonetyce po Pāṇini i jemu współczesnych były ograniczone do czasów nowożytnych, z wyjątkiem pewnych ograniczonych badań gramatyków greckich i rzymskich. W tysiącleciach między gramatykami indyjskimi a nowoczesną fonetyką, uwaga przesunęła się z różnicy między językiem mówionym i pisanym, która była siłą napędową relacji Paṇini, i zaczęła skupiać się wyłącznie na fizycznych właściwościach mowy. Utrzymujące się zainteresowanie fonetyką rozpoczęło się ponownie około 1800 r. n.e., a termin „fonetyka” został po raz pierwszy użyty w obecnym znaczeniu w 1841 r. Wraz z rozwojem medycyny i rozwojem urządzeń do nagrywania dźwięku i obrazu, wgląd fonetyczny był w stanie używać i recenzować nowe i bardziej szczegółowe dane. Ten wczesny okres współczesnej fonetyki obejmował rozwój wpływowego alfabetu fonetycznego opartego na pozycjach artykulacyjnych Alexandra Melville'a Bella . Znana jako mowa widzialna , zyskała na znaczeniu jako narzędzie w edukacji ustnej dzieci głuchych .

Przed powszechną dostępnością sprzętu do nagrywania dźwięku fonetycy w dużym stopniu polegali na tradycji praktycznej fonetyki, aby zapewnić spójność transkrypcji i wyników wśród fonetyków. Szkolenie to obejmowało zarówno trening słuchu – rozpoznawanie dźwięków mowy – jak i trening produkcji – umiejętność wytwarzania dźwięków. Fonetycy mieli nauczyć się rozpoznawać ze słuchu różne dźwięki w międzynarodowym alfabecie fonetycznym , a IPA nadal testuje i poświadcza mówcom ich zdolność do dokładnego wytwarzania wzorów fonetycznych języka angielskiego (chociaż zaprzestano tej praktyki w przypadku innych języków). W ramach rewizji swojej widocznej metody mowy, Melville Bell opracował opis samogłosek według wysokości i cofania, co dało 9 samogłosek kardynalnych . W ramach szkolenia z praktycznej fonetyki oczekiwano, że fonetycy nauczą się tworzyć te samogłoski kardynalne w celu zakotwiczenia percepcji i transkrypcji tych telefonów podczas pracy w terenie. Podejście to zostało skrytykowane przez Petera Ladefogeda w latach 60. w oparciu o dowody eksperymentalne, w których odkrył, że samogłoski kardynalne były celami słuchowymi, a nie artykulacyjnymi, kwestionując twierdzenie, że reprezentują one kotwice artykulacyjne, dzięki którym fonetycy mogą oceniać inne artykulacje.

Produkcja

Produkcja języka składa się z kilku współzależnych procesów, które przekształcają niejęzykowy przekaz w mówiony lub migowy sygnał językowy. Lingwiści zastanawiają się, czy proces tworzenia języka przebiega w kilku etapach (przetwarzanie seryjne), czy też procesy produkcyjne zachodzą równolegle. Po zidentyfikowaniu komunikatu, który ma być zakodowany językowo, mówca musi wybrać poszczególne słowa — znane jako elementy leksykalne — reprezentujące ten komunikat w procesie zwanym selekcją leksykalną. Słowa są dobierane na podstawie ich znaczenia, które w językoznawstwie nazywa się informacją semantyczną . Dobór leksykalny aktywuje lemat słowa , który zawiera zarówno informacje semantyczne, jak i gramatyczne o tym słowie.

Po zaplanowaniu wypowiedzi przechodzi ona kodowanie fonologiczne. Na tym etapie tworzenia języka, mentalnej reprezentacji słów przypisuje się ich treść fonologiczną w postaci sekwencji fonemów , które mają zostać wytworzone. Fonemy są określone dla cech artykulacyjnych, które oznaczają określone cele, takie jak zamknięte usta lub język w określonym miejscu. Te fonemy są następnie koordynowane w sekwencję poleceń mięśniowych, które mogą być wysyłane do mięśni, a gdy polecenia te są wykonywane prawidłowo, wytwarzane są zamierzone dźwięki. W ten sposób proces produkcji od przekazu do dźwięku można podsumować w następującej sekwencji:

  • Planowanie wiadomości
  • Wybór lematów
  • Pobieranie i przypisywanie fonologicznych form wyrazowych
  • Specyfikacja artykulacyjna
  • Polecenia mięśni
  • Artykulacja
  • Dźwięki mowy

Miejsce artykulacji

Dźwięki powstające przy całkowitym lub częściowym zwężeniu traktu głosowego nazywane są spółgłoskami . Spółgłoski są wymawiane w przewodzie głosowym, zwykle w jamie ustnej, a położenie tego zwężenia wpływa na wynikowy dźwięk. Ze względu na ścisły związek między położeniem języka a powstającym dźwiękiem, miejsce artykulacji jest ważnym pojęciem w wielu subdyscyplinach fonetyki.

Dźwięki są częściowo klasyfikowane według lokalizacji zwężenia, a także części ciała, która się zwęża. Na przykład w języku angielskim słowa „ walka i myśl ” są minimalną parą różniącą się jedynie organem wykonującym konstrukcję, a nie lokalizacją konstrukcji. Litera „f” w walce to staw wargowo-zębowy wykonany z dolną wargą przy zębach. „th” w myśli to artykulacja językowo-zębowa wykonana z językiem przy zębach. Zwężenia wargowe nazywane są wargami , a te, które powstają za pomocą języka, nazywane są językowymi.

Zwężenia językowe mogą powstawać w kilku częściach traktu głosowego, ogólnie zaliczanych do koronowych, grzbietowych i radykalnych miejsc artykulacji. Artykulacje wieńcowe tworzy się przodem języka, stawy grzbietowe – tyłem, a stawy radykalne – w gardle . Te podziały nie wystarczają do rozróżnienia i opisania wszystkich dźwięków mowy. Na przykład w języku angielskim dźwięki [s] i [ʃ] są koronalne, ale są wytwarzane w różnych miejscach ust. Aby to wyjaśnić, potrzebne są bardziej szczegółowe miejsca artykulacji w oparciu o obszar jamy ustnej, w którym występuje zwężenie.

Wargowy

Artykulacje obejmujące wargi można wykonywać na trzy różne sposoby: obiema ustami (dwuwargowe), jedną wargą i zębami (wargowo-zębowe) oraz językiem i górną wargą (językowo-wargowe). W zależności od użytej definicji, niektóre lub wszystkie z tych artykulacji można zaliczyć do klasy artykulacji wargowych . Spółgłoski dwuwargowe są tworzone obiema wargami. Przy wytwarzaniu tych dźwięków dolna warga porusza się najdalej, aby spotkać się z górną wargą, która również przesuwa się nieznacznie w dół, chociaż w niektórych przypadkach siła powietrza przepływającego przez otwór (otwarcie między wargami) może spowodować, że wargi rozejdą się szybciej, niż są w stanie nadejść. razem. W przeciwieństwie do większości innych artykulatorów, oba artykulatory są wykonane z tkanki miękkiej, a więc przy niepełnych zamknięciach istnieje większe prawdopodobieństwo, że stopery dwuwargowe są bardziej prawdopodobne niż w przypadku artykulacji z twardymi powierzchniami, takimi jak zęby czy podniebienie. Zatory dwuwargowe są również niezwykłe, ponieważ artykulator w górnej części traktu głosowego aktywnie porusza się w dół, ponieważ górna warga wykazuje pewien aktywny ruch w dół. Spółgłoski językowo-wargowe są tworzone z ostrzem języka zbliżającym się lub stykającym się z górną wargą. Podobnie jak w artykulacjach dwuwargowych, górna warga przesuwa się nieznacznie w kierunku bardziej aktywnego artykulatora. Artykulacje z tej grupy nie mają własnych symboli w międzynarodowym alfabecie fonetycznym, a raczej powstają przez połączenie symbolu wierzchołkowego ze znakiem diakrytycznym, domyślnie umieszczając je w kategorii koronalnej. Występują w wielu językach rdzennych dla Vanuatu , takich jak Tangoa .

Spółgłoski labiodental powstają przez dolną wargę wznoszącą się do górnych zębów. Spółgłoski wargowo-zębowe są najczęściej spółgłoskami szczelinowymi, podczas gdy typologicznie powszechne są również nosowo-zębowe. Toczy się debata na temat tego, czy prawdziwe spółdzielnie wargowo -zębowe występują w jakimkolwiek języku naturalnym, chociaż doniesiono, że wiele języków ma spółdzielnie zębowe , w tym Zulu , Tonga i Shubi .

Koronalny

Spółgłoski koronalne są tworzone za pomocą czubka lub ostrza języka i ze względu na zwinność przedniej części języka reprezentują różnorodność nie tylko w miejscu, ale także w postawie języka. Koronalne miejsca artykulacji reprezentują obszary jamy ustnej, w których język styka się lub powoduje zwężenie i obejmują lokalizacje zębowe, zębodołowe i zazębowe. Pozycje języka przy użyciu czubka języka mogą być wierzchołkowe , jeśli używa się górnej części języka, laminalne , jeśli wykonuje się je ostrzem języka, lub pod-wierzchołkowe , jeśli czubek języka jest zwinięty do tyłu, a dolna część języka. Koronale są wyjątkowe jako grupa, ponieważ potwierdzony jest każdy sposób artykulacji . Języki australijskie są dobrze znane z dużej liczby kontrastów koronalnych występujących w obrębie języków regionu i między nimi. Spółgłoski zębowe wykonuje się czubkiem lub ostrzem języka i górnymi zębami. Są one podzielone na dwie grupy w zależności od części języka użytej do ich wytworzenia: spółgłoski zębowe wierzchołkowe są tworzone z końcówką języka dotykającą zębów; spółgłoski międzyzębowe powstają za pomocą ostrza języka, ponieważ jego czubek wystaje przed zęby. Żaden język nie jest znany z używania obu kontrastowo, chociaż mogą one istnieć alofonicznie . Spółgłoski wyrostka zębodołowego są tworzone z czubkiem lub ostrzem języka na grzbiecie wyrostka zębodołowego tuż za zębami i podobnie mogą być wierzchołkowe lub blaszkowe.

Międzyjęzykowo spółgłoski zębowe i spółgłoski dziąsłowe są często przeciwstawiane, co prowadzi do szeregu uogólnień wzorów międzyjęzykowych. Różne miejsca artykulacji są również skontrastowane w części języka używanej do ich produkcji: większość języków ze zwartymi zębami ma ząbki blaszkowe, podczas gdy języki ze zwartymi wierzchołkami mają zwykle zwarte wierzchołki. Języki rzadko mają dwie spółgłoski w tym samym miejscu z kontrastem w laminalności, chociaż Taa (ǃXóõ) jest kontrprzykładem dla tego wzorca. Jeśli język ma tylko jeden z punktów zębowych lub zębodołowych, zwykle będzie to laminatowy, jeśli jest to zator dentystyczny, a zwarcie będzie zwykle wierzchołkowe, jeśli jest to zator zębodołowy, chociaż na przykład Temne i bułgarski nie podążają ten wzór. Jeśli język ma zarówno wierzchołkowy, jak i laminalny zwarcie, wtedy zgrubienie laminalne jest bardziej prawdopodobne, jak w Isoko , chociaż Dahalo pokazuje odwrotny wzór z bardziej zrośniętymi zębodołami.

Spółgłoski retroflex mają kilka różnych definicji w zależności od tego, czy uwydatnione jest położenie języka, czy położenie na podniebieniu. Generalnie reprezentują one grupę stawów, w których czubek języka jest do pewnego stopnia podwinięty do góry. W ten sposób artykulacje odruchowe mogą występować w kilku różnych miejscach na podniebieniu, w tym w okolicy wyrostka zębodołowego, za wyrostka zębodołowego i podniebiennego. Jeśli dolna część opuszki języka styka się z podniebieniem, jest to obszar podwierzchołkowy, chociaż tony wyrostka zębodołowego są również określane jako retroflex. Typowe przykłady podwierzchołkowych stopów zębodołowych są powszechnie spotykane w językach drawidyjskich , aw niektórych językach rdzennych mieszkańców południowo-zachodnich Stanów Zjednoczonych kontrastująca różnica między stoperami zębowymi i zębodołowymi polega na niewielkim retrofleksji stopu zębodołowego. Akustycznie retrofleksja ma tendencję do wpływania na wyższe formanty.

Artykulacje odbywające się tuż za grzbietem wyrostka zębodołowego, zwane spółgłoskami postpęcherzykowymi , określane są różnymi terminami. Spółgłoski wierzchołkowe zapęcherzykowe są często nazywane retroflex, podczas gdy stawy laminalne są czasami nazywane podniebienno-pęcherzykowymi; w literaturze australijskiej te listewki są często określane jako „podniebienne”, chociaż są one wytwarzane dalej niż obszar podniebienia typowo opisywany jako podniebienny. Ze względu na indywidualne różnice anatomiczne dokładna artykulacja zwarć podniebienno-pęcherzykowych (i ogólnie koronalnych) może się znacznie różnić w obrębie społeczności mowy.

Grzbietowy

Spółgłoski grzbietowe to spółgłoski tworzone przy użyciu języka, a nie czubka lub ostrza i są zwykle wytwarzane na podniebieniu, welumie lub języczku. Spółgłoski podniebienne tworzy się za pomocą języka na podniebieniu twardym na podniebieniu. Często są one kontrastowane ze spółgłoskami welarnymi lub języczkowymi, chociaż rzadko zdarza się, aby język kontrastował wszystkie trzy jednocześnie, z Jaqaru jako możliwym przykładem kontrastu trójdrożnego. Spółgłoski welarne są tworzone przy użyciu języka na welum . Są niezwykle powszechne w wielu językach; prawie wszystkie języki mają stopę welarną. Ponieważ zarówno welary, jak i samogłoski są tworzone przy użyciu korpusu języka, są one silnie dotknięte koartykulacją z samogłoskami i mogą być wytwarzane tak daleko do przodu jak podniebienie twarde lub tak daleko, jak języczek. Te odmiany są zwykle podzielone na przednią, środkową i tylną welarną równolegle do przestrzeni samogłoskowej. Mogą być trudne do fonetycznego odróżnienia od spółgłosek podniebiennych, chociaż są produkowane nieco poza obszarem spółgłosek podniebiennych prototypowych. Spółgłoski języczkowe powstają w wyniku kontaktu ciała języka z języczkiem lub zbliżenia się do niego. Są rzadkie i występują w około 19 procentach języków, a duże regiony obu Ameryk i Afryki nie mają języków ze spółgłoskami języczkowymi. W językach ze spółgłoskami języczkowymi najczęściej występują zwarte, po których następują kontynuanty (w tym nosowe).

gardła i krtani

Spółgłoski powstające w wyniku zwężenia gardła to gardło, a spółgłoski powstające w wyniku zwężenia krtani są krtaniowe. Krtani wykonuje się za pomocą fałdów głosowych, ponieważ krtań znajduje się zbyt głęboko w gardle, aby dosięgnąć językiem. Gardła są jednak na tyle blisko ust, że części języka mogą do nich dotrzeć.

Spółgłoski radykalne wykorzystują podczas produkcji nasady języka lub nagłośnię i są wytwarzane bardzo daleko w odcinku głosowym. Spółgłoski gardłowe są tworzone przez cofnięcie nasady języka na tyle daleko, że prawie dotyka ściany gardła . Ze względu na trudności produkcyjne w ten sposób można wytwarzać tylko szczelinowe i przybliżone. Spółgłoski nagłośniowe tworzone są z nagłośni i tylnej ściany gardła. Zwarcie nagłośniowe odnotowano w Dahalo . Dźwięczne spółgłoski nagłośniowe nie są uważane za możliwe, ponieważ wnęka między głośnią a nagłośnią jest zbyt mała, aby umożliwić dźwięczność.

Spółgłoski krtaniowe to spółgłoski wytwarzane za pomocą fałdów głosowych w krtani. Ponieważ fałdy głosowe są źródłem fonacji i znajdują się poniżej odcinka ustno-nosowego, wiele spółgłosek głośni jest niemożliwych, takich jak dźwięczny zwarcie głośni. Możliwe są trzy spółgłoski głośni, bezdźwięczna zwarcie głośni i dwie głoski szczelinowe, a wszystkie są poświadczone w językach naturalnych. Zwarcia krtaniowe , wytwarzane przez zamykanie fałdów głosowych , są szczególnie powszechne w językach świata. Podczas gdy wiele języków używa ich do wyznaczania granic fraz, niektóre języki, takie jak arabski i mazatecki huatla , mają je jako fonemy kontrastowe. Dodatkowo zwarcie krtaniowe można zrealizować jako laryngalizację kolejnej samogłoski w tym języku. Zwarte krtaniowe, zwłaszcza między samogłoskami, zwykle nie tworzą pełnego zamknięcia. Prawdziwe zwarcie krtaniowe zwykle występują tylko wtedy, gdy są geparowane .

Krtań

Zobacz podpis
Widok z góry na krtań.

Krtań, powszechnie znana jako „skrzynka głosowa”, to chrzęstna struktura w tchawicy odpowiedzialna za fonację . Fałdy głosowe (akordy) są trzymane razem, aby wibrowały, lub trzymane osobno, aby nie wibrowały. Pozycję fałdów głosowych uzyskuje się poprzez ruch chrząstek nalewkowatych . Wewnętrzne mięśnie krtani odpowiadają za poruszanie chrząstkami nalewkowatymi oraz modulację napięcia fałdów głosowych. Jeśli fałdy głosowe nie są wystarczająco zwarte lub napięte, będą wibrować sporadycznie lub wcale. Jeśli będą wibrować sporadycznie, będzie to skutkować skrzypiącym lub chrapliwym głosem, w zależności od stopnia; jeśli w ogóle nie wibrują, rezultatem będzie bezdźwięczność .

Oprócz prawidłowego ułożenia fałdów głosowych musi przez nie przepływać również powietrze, w przeciwnym razie nie będą wibrować. Różnicę ciśnienia na głośni wymaganą do dźwięczności szacuje się na 1 – 2 cm H 2 O (98,0665 – 196,133 paskali). Różnica ciśnień może spaść poniżej poziomów wymaganych do fonacji z powodu wzrostu ciśnienia nad głośnią (ciśnienie nadgłośniowe) lub spadku ciśnienia poniżej głośni (ciśnienie podgłośniowe). Ciśnienie podgłośniowe jest utrzymywane przez mięśnie oddechowe . Ciśnienie nadgłośniowe, bez zwężeń i stawów, jest równe ciśnieniu atmosferycznemu . Ponieważ jednak artykulacje – zwłaszcza spółgłoski – reprezentują zwężenia przepływu powietrza, ciśnienie w jamie za tymi zwężeniami może wzrosnąć, powodując wyższe ciśnienie nadgłośniowe.

Dostęp leksykalny

Zgodnie z modelem dostępu leksykalnego stosuje się dwa różne etapy poznania; dlatego koncepcja ta jest znana jako dwuetapowa teoria dostępu leksykalnego. Pierwszy etap, selekcja leksykalna, dostarcza informacji o elementach leksykalnych wymaganych do skonstruowania reprezentacji na poziomie funkcjonalnym. Pozycje te są pobierane zgodnie z ich specyficznymi właściwościami semantycznymi i syntaktycznymi, ale formy fonologiczne nie są jeszcze udostępniane na tym etapie. Drugi etap, pobieranie form słownych, dostarcza informacji potrzebnych do zbudowania reprezentacji poziomu pozycyjnego.

Modele artykulacyjne

Podczas wytwarzania mowy artykulatory poruszają się i stykają z określonymi miejscami w przestrzeni, powodując zmiany sygnału akustycznego. Niektóre modele produkcji mowy przyjmują to za podstawę modelowania artykulacji w układzie współrzędnych, który może być wewnętrzny (wewnętrzny) lub zewnętrzny (zewnętrzny). Wewnętrzne układy współrzędnych modelują ruch artykulatorów jako pozycje i kąty stawów w ciele. Wewnętrzne modele współrzędnych szczęki często używają dwóch do trzech stopni swobody reprezentujących translację i obrót. Mają problemy z modelowaniem języka, który w przeciwieństwie do stawów żuchwy i ramion jest mięśniowym hydrostatem – jak trąba słonia – pozbawionym stawów. Ze względu na różne struktury fizjologiczne tory ruchu szczęki podczas mowy i żucia są stosunkowo prostymi liniami, podczas gdy ruchy języka podążają za krzywymi.

Ruchy prostoliniowe były używane do argumentowania artykulacji zgodnie z planem w przestrzeni zewnętrznej, a nie wewnętrznej, chociaż zewnętrzne układy współrzędnych obejmują również akustyczne przestrzenie współrzędnych, a nie tylko fizyczne przestrzenie współrzędnych. Modele zakładające ruchy planowane w przestrzeni zewnętrznej napotykają na odwrotny problem wyjaśnienia lokalizacji mięśni i stawów, które wytwarzają obserwowaną ścieżkę lub sygnał akustyczny. Na przykład ramię ma siedem stopni swobody i 22 mięśnie, więc wiele różnych konfiguracji stawów i mięśni może prowadzić do tej samej pozycji końcowej. W przypadku modeli planowania w zewnętrznej przestrzeni akustycznej stosuje się ten sam problem mapowania jeden-do-wielu, bez unikalnego mapowania od celów fizycznych lub akustycznych do ruchów mięśni wymaganych do ich osiągnięcia. Obawy dotyczące odwrotnego problemu mogą być jednak przesadzone, ponieważ mowa jest wysoce wyuczoną umiejętnością wykorzystującą struktury neurologiczne, które wyewoluowały w tym celu.

Model punktu równowagi proponuje rozwiązanie odwrotnego problemu, argumentując, że cele ruchu są reprezentowane jako pozycja par mięśni działających na staw. Co ważne, mięśnie są modelowane jako sprężyny, a celem jest punkt równowagi modelowanego układu sprężyna-masa. Wykorzystując sprężyny, model punktu równowagi może z łatwością uwzględniać kompensację i reakcję w przypadku zakłóceń ruchu. Są uważane za model współrzędnych, ponieważ zakładają, że te pozycje mięśni są reprezentowane jako punkty w przestrzeni, punkty równowagi, w których zbiega się sprężynujące działanie mięśni.

Podejścia gestów do produkcji mowy sugerują, że artykulacje są przedstawiane jako wzorce ruchu, a nie konkretne współrzędne do trafienia. Minimalna jednostka to gest reprezentujący grupę „funkcjonalnie równoważnych wzorców ruchu artykulacyjnego, które są aktywnie kontrolowane w odniesieniu do danego celu związanego z mową (np. zamknięcie dwuwargowe).” Grupy te reprezentują struktury koordynacyjne lub „synergie”, które postrzegają ruchy nie jako pojedyncze ruchy mięśni, ale jako zależne od zadania grupy mięśni, które pracują razem jako pojedyncza jednostka. Zmniejsza to stopnie swobody w planowaniu artykulacji, co jest problemem zwłaszcza w wewnętrznych modelach współrzędnych, które pozwalają na dowolny ruch, który osiąga cel mowy, zamiast kodować poszczególne ruchy w abstrakcyjnej reprezentacji. Modele gestów dobrze opisują koartykulację, ponieważ artykulacje przy szybszym tempie mowy można wytłumaczyć jako złożenie niezależnych gestów przy wolniejszym tempie mowy.

Akustyka

Przebieg (u góry), spektrogram (w środku) i transkrypcja (na dole) kobiety mówiącej „Wikipedia” wyświetlane za pomocą oprogramowania Praat do analizy językowej.

Dźwięki mowy powstają poprzez modyfikację strumienia powietrza, w wyniku której powstaje fala dźwiękowa. Modyfikację dokonują artykulatory, przy czym różne miejsca i sposoby artykulacji dają różne wyniki akustyczne. Ponieważ postawa traktu głosowego, a nie tylko pozycja języka, może wpływać na wynikowy dźwięk, sposób artykulacji jest ważny dla opisu dźwięku mowy. Słowa tack i sack zaczynają się od angielskich dźwięków wyrostka zębodołowego, ale różnią się odległością języka od wyrostka zębodołowego. Ta różnica ma duży wpływ na strumień powietrza, a tym samym na wytwarzany dźwięk. Podobnie kierunek i źródło strumienia powietrza może wpływać na dźwięk. Najczęstszym mechanizmem przepływu powietrza jest płucny – wykorzystujący płuca – ale głośnia i język mogą być również wykorzystywane do wytwarzania strumieni powietrza.

Rodzaje głosu i fonacji

Główną różnicą między dźwiękami mowy jest to, czy są dźwięczne. Dźwięki są dźwięczne, gdy fałdy głosowe zaczynają wibrować w procesie fonacji. Wiele dźwięków można wytworzyć z fonacją lub bez, chociaż ograniczenia fizyczne mogą utrudniać lub uniemożliwiać fonację w przypadku niektórych artykulacji. Gdy artykulacja jest dźwięczna, głównym źródłem hałasu jest okresowa wibracja fałdów głosowych. Artykulacje, takie jak bezdźwięczne spółgłoski zwarte, nie mają źródła akustycznego i są zauważalne przez swoją ciszę, ale inne bezdźwięczne dźwięki, takie jak szczeliny szczelinowe, tworzą własne źródło akustyczne niezależnie od fonacji.

Fonacja jest kontrolowana przez mięśnie krtani, a języki wykorzystują więcej szczegółów akustycznych niż dźwięczenie binarne. Podczas fonacji fałdy głosowe wibrują z określoną częstotliwością. Wibracje te powodują okresową falę akustyczną zawierającą częstotliwość podstawową i jej harmoniczne. Podstawowa częstotliwość fali akustycznej może być kontrolowana poprzez regulację mięśni krtani, a słuchacze odbierają tę podstawową częstotliwość jako wysokość dźwięku. Języki używają manipulacji tonacją do przekazywania informacji leksykalnych w językach tonalnych, a wiele języków używa tonacji do oznaczania informacji prozodycznych lub pragmatycznych.

Aby fałdy głosowe wibrowały, muszą być we właściwej pozycji, a przez głośnię musi przepływać powietrze. Rodzaje fonacji są modelowane na kontinuum stanów głośni od całkowicie otwartego (bezdźwięcznego) do całkowicie zamkniętego (zwarcie głośni). Optymalna pozycja dla wibracji i typ fonacji najczęściej używany w mowie, głos modalny, znajduje się pośrodku tych dwóch skrajności. Jeśli głośnia jest nieco szersza, pojawia się głos chrapliwy, a zbliżenie fałd głosowych powoduje skrzypienie głosu.

Normalnym wzorcem fonacyjnym używanym w typowej mowie jest głos modalny, w którym fałdy głosowe są utrzymywane blisko siebie z umiarkowanym napięciem. Fałdy głosowe wibrują jako pojedyncza jednostka okresowo i wydajnie z pełnym zamknięciem głośni i bez aspiracji. Jeśli zostaną odsunięte od siebie, nie wibrują i wytwarzają telefony bezdźwięczne. Jeśli są mocno trzymane razem, tworzą zwarcie krtaniowe.

Jeśli fałdy głosowe są nieco bardziej oddalone od siebie niż w przypadku dźwięczności modalnej, wytwarzają typy fonacji, takie jak głos zadyszany (lub szmer) i głos szeptany. Napięcie w więzadłach głosowych ( strunach głosowych ) jest mniejsze niż w dźwięczności modalnej, co pozwala na swobodniejszy przepływ powietrza. Zarówno głos oddychający, jak i głos szepczący istnieją na kontinuum luźno scharakteryzowanym jako przejście od bardziej okresowej fali głosu chrapliwego do bardziej zaszumionej fali głosu szepczącego. Akustycznie obaj mają tendencję do tłumienia pierwszego formantu szeptanym głosem, pokazującym bardziej ekstremalne odchylenia.

Mocniejsze ściśnięcie fałd głosowych powoduje skrzypiący głos. Napięcie w fałdach głosowych jest mniejsze niż w głosie modalnym, ale są one mocno utrzymywane razem, przez co wibrują tylko więzadła fałdów głosowych. Impulsy są bardzo nieregularne, o niskiej amplitudzie tonu i częstotliwości.

Niektóre języki nie zachowują dźwięczności dla niektórych spółgłosek, ale wszystkie języki używają do pewnego stopnia dźwięczności. Na przykład, żaden język nie jest znany z kontrastu fonemicznego dla samogłosek ze wszystkimi znanymi samogłoskami dźwięcznymi kanonicznie. Inne pozycje głośni, takie jak chrapliwy i skrzypiący głos, są używane w wielu językach, takich jak Jalapa Mazatec , w celu kontrastowania fonemów , podczas gdy w innych językach, takich jak angielski, istnieją one alofonicznie.

Istnieje kilka sposobów na określenie, czy segment jest dźwięczny, czy nie, najprostszym jest wyczucie krtani podczas mowy i odnotowanie, kiedy odczuwane są wibracje. Bardziej precyzyjne pomiary można uzyskać poprzez analizę akustyczną spektrogramu lub wycinka spektralnego. W analizie spektrograficznej segmenty dźwięczne pokazują pasek dźwięczny, obszar o wysokiej energii akustycznej, w niskich częstotliwościach segmentów dźwięcznych. Podczas badania splotu spektralnego widmo akustyczne w danym momencie model wymawianej samogłoski odwraca filtrowanie ust, wytwarzając widmo głośni. Model obliczeniowy niefiltrowanego sygnału głośni jest następnie dopasowywany do odwróconego filtrowanego sygnału akustycznego w celu określenia charakterystyki głośni. Dostępna jest również analiza wizualna przy użyciu specjalistycznego sprzętu medycznego, takiego jak USG i endoskopia.

Samogłoski

Samogłoski są ogólnie klasyfikowane według obszaru jamy ustnej, w którym są wytwarzane, ale ponieważ są one wytwarzane bez zwężenia w traktach głosowych, ich dokładny opis opiera się na pomiarze akustycznych korelatów położenia języka. Umiejscowienie języka podczas wytwarzania samogłosek zmienia częstotliwości, przy których wnęka rezonuje i to właśnie te rezonanse – znane jako formanty – są mierzone i wykorzystywane do charakteryzowania samogłosek.

Wysokość samogłoski tradycyjnie odnosi się do najwyższego punktu języka podczas artykulacji. Parametr wysokości podzielony jest na cztery podstawowe poziomy: wysoki (zamknięty), zamknięty-średni, otwarty-średni i niski (otwarty). Samogłoski, których wysokość znajduje się pośrodku, określane są jako mid. Lekko otwarte samogłoski zamknięte i lekko zamknięte samogłoski otwarte są określane odpowiednio jako blisko zamknięte i prawie otwarte. Najniższe samogłoski są artykułowane nie tylko obniżonym językiem, ale także przez opuszczenie żuchwy.

Chociaż IPA sugeruje, że istnieje siedem poziomów wysokości samogłosek, jest mało prawdopodobne, że dany język może minimalnie kontrastować ze wszystkimi siedmioma poziomami. Chomsky i Halle sugerują, że istnieją tylko trzy poziomy, chociaż wydaje się, że do opisania duńskiego potrzebne są cztery poziomy wysokości samogłosek , a niektóre języki mogą nawet potrzebować pięciu.

Cofnięcie samogłosek dzieli się na trzy poziomy: przedni, centralny i tylny. Języki zwykle nie kontrastują w minimalnym stopniu więcej niż dwóch poziomów cofania samogłosek. Niektóre języki, o których mówi się, że mają trójstronne rozróżnienie, to m.in. nimboran i norweski .

W większości języków usta podczas tworzenia samogłosek można sklasyfikować jako zaokrąglone lub niezaokrąglone (rozłożone), chociaż opisano inne rodzaje pozycji ust, takie jak ucisk i wystawanie. Pozycja ust jest skorelowana z wysokością i tyłem: samogłoski przednie i niskie są zwykle niezaokrąglone, podczas gdy samogłoski tylne i wysokie są zwykle zaokrąglone. Sparowane samogłoski na wykresie IPA mają samogłoskę rozpostartą po lewej stronie i samogłoskę zaokrągloną po prawej stronie.

Wraz z opisanymi powyżej uniwersalnymi cechami samogłosek, niektóre języki posiadają dodatkowe cechy, takie jak nosowość , długość oraz różne rodzaje fonacji, takie jak bezdźwięczna czy skrzypiąca . Czasami do opisania określonej samogłoski wymagane są bardziej wyspecjalizowane gesty językowe, takie jak rotacja , zaawansowany korzeń języka , gardło , szorstkość i tarcie.

Sposób artykulacji

Znajomość miejsca artykulacji nie wystarczy, aby w pełni opisać spółgłoskę, równie ważny jest sposób, w jaki następuje zwarcie. Sposoby artykulacji opisują, jak dokładnie aktywny artykulator modyfikuje, zawęża lub zamyka trakt głosowy.

Zwarte (zwane również spółgłoskami zwartymi) to spółgłoski, w których strumień powietrza jest całkowicie zasłonięty. Podczas zwężenia w jamie ustnej narasta ciśnienie, które jest następnie uwalniane w postaci niewielkiego impulsu dźwiękowego, gdy artykulatory się rozsuwają. Velum jest uniesione tak, że powietrze nie może przepływać przez jamę nosową. Jeśli welin jest opuszczony i pozwala na przepływ powietrza przez nos, powoduje zatrzymanie nosa. Jednak fonetycy prawie zawsze określają przystanki nosowe jako po prostu „nosowe”. Afrykaty to sekwencja przystanków, po których następuje szczelina w tym samym miejscu.

Spółgłoski szczelinowe to spółgłoski, w których strumień powietrza jest turbulentny przez częściowo, ale nie całkowicie, blokowanie części traktu głosowego. Sybilanty to specjalny rodzaj szczeliny, w której turbulentny strumień powietrza jest kierowany w stronę zębów, tworząc wysoki, syczący dźwięk.

Nosy (czasami określane jako stopki nosowe) to spółgłoski, w których występuje zamknięcie w jamie ustnej, a velum jest obniżone, co umożliwia przepływ powietrza przez nos.

W przybliżeniu artykulatory zbliżają się do siebie, ale nie na tyle, aby umożliwić turbulentny strumień powietrza.

Spółgłoski boczne to spółgłoski, w których strumień powietrza jest zablokowany wzdłuż środka traktu głosowego, co umożliwia swobodny przepływ strumienia powietrza z jednej lub obu stron. Boczne zostały również zdefiniowane jako spółgłoski, w których język jest skurczony w taki sposób, że strumień powietrza jest większy po bokach niż nad środkiem języka. Pierwsza definicja nie pozwala na przepływ powietrza nad językiem.

Tryle to spółgłoski, w których język lub usta są wprawiane w ruch przez strumień powietrza. Zwężenie jest uformowane w taki sposób, że strumień powietrza powoduje powtarzający się wzór otwierania i zamykania miękkiego artykulatora(ów). Tryle wierzchołkowe zazwyczaj składają się z dwóch lub trzech okresów wibracji.

Klapy i klapy to pojedyncze, szybkie, zwykle dowierzchołkowe gesty, w których język jest rzucany na podniebienie, porównywalny z bardzo szybkim zatrzymaniem. Terminy te są czasami używane zamiennie, ale niektórzy fonetycy dokonują rozróżnienia. W kranie język styka się z podniebieniem jednym ruchem, podczas gdy w klapie język porusza się stycznie do podniebienia, uderzając w niego mimochodem.

Podczas głośni mechanizm przepływu powietrza głośnia jest zamknięta, zatrzymując ciało powietrza. Pozwala to na oddzielne przemieszczanie pozostałego powietrza w przewodzie głosowym. Ruch zamkniętej głośni w górę usunie to powietrze na zewnątrz, co spowoduje powstanie spółgłoski wyrzutowej . Alternatywnie, głośnia może się obniżyć, wciągając do ust więcej powietrza, co skutkuje implozyjną spółgłoską .

Kliknięcia to przystanki, podczas których ruch języka powoduje zasysanie powietrza do ust, określa się to mianem welarycznego strumienia powietrza . Podczas klikania powietrze rozrzedza się pomiędzy dwoma zamknięciami artykulacyjnymi, wytwarzając głośny dźwięk „kliknięcia” po zwolnieniu przedniego zamknięcia. Uwolnienie przedniego zamknięcia jest określane jako napływ kliknięcia. Uwolnienie tylnego zamknięcia, które może być tylną lub języczkową, jest wypływem kliknięcia. Kliknięcia są używane w kilku rodzinach języków afrykańskich, takich jak języki Khoisan i Bantu .

Układ płucny i podgłośniowy

Płuca napędzają prawie całą produkcję mowy, a ich znaczenie w fonetyce wynika z wywierania nacisku na dźwięki płucne. Najczęstsze rodzaje dźwięków w różnych językach to wyjście płucne, w którym powietrze jest wydychane z płuc. Możliwe jest odwrotne rozwiązanie, chociaż żaden język nie posiada dźwięków inwazyjnych jako fonemów. Wiele języków, takich jak szwedzki , używa ich do artykulacji paralingwistycznych , takich jak afirmacje w wielu genetycznie i geograficznie zróżnicowanych językach. Zarówno dźwięki egresywne, jak i ingresywne polegają na utrzymywaniu fałdów głosowych w określonej pozycji i używaniu płuc do przeciągania powietrza przez fałdy głosowe, tak aby wibrowały (dźwięczne) lub nie wibrowały (bezdźwięczne). Stawy płucne są ograniczone objętością powietrza, jaką można wydychać w danym cyklu oddechowym, zwaną pojemnością życiową .

Płuca służą do jednoczesnego utrzymywania dwóch rodzajów ciśnienia w celu wytworzenia i modyfikacji fonacji. Aby w ogóle wytworzyć fonację, płuca muszą utrzymywać ciśnienie o 3–5 cm H 2 O wyższe niż ciśnienie nad głośnią. Jednak do ciśnienia podgłośniowego wprowadzane są niewielkie i szybkie korekty, aby zmodyfikować mowę pod kątem cech suprasegmentalnych, takich jak stres. Do wykonania tych regulacji wykorzystuje się wiele mięśni klatki piersiowej. Ponieważ płuca i klatka piersiowa rozciągają się podczas wdechu, siły sprężystości samych płuc mogą wytworzyć różnicę ciśnień wystarczającą do fonacji przy objętościach płuc powyżej 50 procent pojemności życiowej. Powyżej 50 procent pojemności życiowej mięśnie oddechowe są wykorzystywane do „sprawdzania” sił sprężystości klatki piersiowej w celu utrzymania stabilnej różnicy ciśnień. Poniżej tej objętości są wykorzystywane do zwiększania ciśnienia podgłośniowego poprzez aktywne wydychanie powietrza.

Podczas mowy cykl oddechowy jest modyfikowany w celu dostosowania do potrzeb zarówno językowych, jak i biologicznych. Wydech, zwykle około 60 procent cyklu oddechowego w spoczynku, zwiększa się do około 90 procent cyklu oddechowego. Ponieważ potrzeby metaboliczne są stosunkowo stabilne, całkowita objętość powietrza przenoszonego w większości przypadków mowy pozostaje mniej więcej taka sama, jak ciche oddychanie oddechowe. Wzrost natężenia mowy o 18 dB (głośna rozmowa) ma stosunkowo niewielki wpływ na objętość poruszanego powietrza. Ponieważ ich układ oddechowy nie jest tak rozwinięty jak dorośli, dzieci wykorzystują większą część swojej pojemności życiowej niż dorośli, przy głębszych wdechach.

Teoria filtru źródłowego

Model mowy źródłowo-filtrowej jest teorią produkcji mowy, która wyjaśnia związek między postawą traktu głosowego a konsekwencjami akustycznymi. W tym modelu trakt głosowy może być modelowany jako źródło hałasu sprzężone z filtrem akustycznym . Źródłem hałasu w wielu przypadkach jest krtań podczas procesu dźwięczności, chociaż inne źródła hałasu można modelować w ten sam sposób. Kształt nadgłośniowej drogi głosowej działa jak filtr, a różne konfiguracje artykulatorów skutkują różnymi wzorcami akustycznymi. Te zmiany są przewidywalne. Układ głosowy można modelować jako sekwencję rurek, zamkniętych na jednym końcu, o różnych średnicach, a za pomocą równań rezonansu akustycznego można wyprowadzić efekt akustyczny postawy artykulacyjnej. Proces filtrowania odwrotnego wykorzystuje tę zasadę do analizy widma źródłowego wytwarzanego przez fałdy głosowe podczas dźwięczności. Biorąc odwrotność przewidywanego filtra, można cofnąć efekt akustyczny nadgłośniowej drogi głosowej, dając widmo akustyczne wytwarzane przez struny głosowe. Pozwala to na ilościowe badanie różnych typów fonacji.

Postrzeganie

Percepcja języka to proces, w którym sygnał językowy jest dekodowany i rozumiany przez słuchacza. Aby móc odbierać mowę, ciągły sygnał dźwiękowy musi zostać przekształcony w odrębne jednostki językowe, takie jak fonemy , morfemy i słowa . W celu prawidłowej identyfikacji i kategoryzacji dźwięków, słuchacze nadają priorytet pewnym aspektom sygnału, które umożliwiają rzetelne rozróżnienie kategorii językowych. Podczas gdy niektóre wskazówki mają pierwszeństwo przed innymi, wiele aspektów sygnału może przyczynić się do percepcji. Na przykład, chociaż języki ustne nadają priorytet informacjom akustycznym, efekt McGurka pokazuje, że informacje wizualne są wykorzystywane do rozróżniania niejednoznacznych informacji, gdy sygnały akustyczne są niewiarygodne.

Chociaż słuchacze mogą korzystać z różnych informacji do segmentacji sygnału mowy, związek między sygnałem akustycznym a percepcją kategorii nie jest doskonałym odwzorowaniem. Ze względu na koartykulację , hałaśliwe otoczenie i indywidualne różnice, istnieje wysoki stopień zmienności akustycznej w obrębie kategorii. Znany jako problem niezmienności percepcyjnej , słuchacze są w stanie niezawodnie postrzegać kategorie pomimo zmienności akustycznej instancji. Aby to zrobić, słuchacze szybko przystosowują się do nowych mówców i przesuwają granice między kategoriami, aby dopasować się do różnic akustycznych, jakie wprowadza ich rozmówca.

Przesłuchanie

Jak dźwięki przedostają się ze źródła do mózgu?

Odsłuch, proces słyszenia dźwięków, jest pierwszym etapem percepcji mowy. Artykulatory powodują systematyczne zmiany ciśnienia powietrza, które w postaci fal dźwiękowych dociera do ucha słuchacza. Fale dźwiękowe uderzają następnie w bębenek uszny słuchacza, powodując jego wibrację. Wibracja bębenka usznego jest przekazywana przez kosteczki słuchowe — trzy małe kości ucha środkowego — do ślimaka . Ślimak to spiralnie ukształtowana, wypełniona płynem rurka podzielona wzdłużnie przez narząd Cortiego , który zawiera błonę podstawną . Błona podstawna zwiększa swoją grubość w miarę przemieszczania się przez ślimak, powodując rezonans różnych częstotliwości w różnych miejscach. Ta tonotopowa konstrukcja pozwala uchu analizować dźwięk w sposób podobny do transformacji Fouriera .

Różnicowa wibracja podstawki powoduje ruch komórek rzęsatych w narządzie Corti. Powoduje to depolaryzację komórek rzęsatych i ostatecznie konwersję sygnału akustycznego na sygnał neuronalny. Chociaż komórki rzęsate same nie wytwarzają potencjałów czynnościowych , uwalniają neuroprzekaźnik w synapsach z włóknami nerwu słuchowego , który wytwarza potencjały czynnościowe. W ten sposób wzorce oscylacji na błonie podstawnej są przekształcane w czasoprzestrzenne wzorce wyładowań, które przekazują informacje o dźwięku do pnia mózgu .

Prozodia

Oprócz spółgłosek i samogłosek fonetyka opisuje również właściwości mowy, które nie są zlokalizowane w segmentach, ale w większych jednostkach mowy, takich jak sylaby i frazy . Prozodia obejmuje cechy słuchowe, takie jak wysokość tonu , tempo mowy , czas trwania i głośność . Języki wykorzystują te właściwości w różnym stopniu do implementacji akcentu , akcentów wysokościowych i intonacji — na przykład akcent w języku angielskim i hiszpańskim jest skorelowany ze zmianami wysokości i czasu trwania, podczas gdy akcent w języku walijskim jest bardziej konsekwentnie skorelowany z wysokością niż czas trwania i akcent w języku tajskim jest skorelowany tylko z czasem trwania.

Teorie percepcji mowy

Wczesne teorie percepcji mowy, takie jak teoria motoryczna, próbowały rozwiązać problem niezmienności percepcji, argumentując, że percepcja i produkcja mowy są ze sobą ściśle powiązane. W swojej najsilniejszej formie teoria motoryczna twierdzi, że percepcja mowy wymaga od słuchacza dostępu do artykulacyjnej reprezentacji dźwięków; w celu prawidłowej kategoryzacji dźwięku, słuchacz odtwarza artykulację, która wytworzy ten dźwięk i identyfikując te gesty, jest w stanie odtworzyć zamierzoną kategorię językową. Podczas gdy odkrycia, takie jak efekt McGurka i studia przypadków pacjentów z urazami neurologicznymi, dostarczyły wsparcia dla teorii motorycznej, dalsze eksperymenty nie potwierdziły silnej formy teorii motorycznej, chociaż istnieje pewne poparcie dla słabszych form teorii motorycznej, które twierdzą, że nie- deterministyczny związek między produkcją a percepcją.

Kolejne teorie percepcji mowy skupiają się na sygnałach akustycznych związanych z kategoriami dźwięków i można je podzielić na dwie szerokie kategorie: teorie abstrakcyjne i teorie epizodyczne. W teoriach abstrakcjonistycznych percepcja mowy polega na identyfikacji wyidealizowanego obiektu leksykalnego na podstawie sygnału zredukowanego do niezbędnych składników i normalizacji sygnału w celu przeciwdziałania zmienności mówcy. Teorie epizodyczne, takie jak model wzorcowy, dowodzą, że percepcja mowy obejmuje dostęp do szczegółowych wspomnień (tj. wspomnień epizodycznych ) wcześniej słyszanych tokenów. Problem niezmienności percepcji jest wyjaśniany przez teorie epizodyczne jako kwestia znajomości: normalizacja jest produktem ubocznym ekspozycji na bardziej zmienne rozkłady, a nie dyskretnym procesem, jak twierdzą teorie abstrakcjonistyczne.

Poddyscypliny

Fonetyka akustyczna

Fonetyka akustyczna zajmuje się właściwościami akustycznymi dźwięków mowy. Wrażenie dźwięku jest spowodowane wahaniami ciśnienia, które powodują ruch błony bębenkowej . Ucho przekształca ten ruch w sygnały neuronowe, które mózg rejestruje jako dźwięk. Przebiegi akustyczne to zapisy, które mierzą te wahania ciśnienia.

Fonetyka artykulacyjna

Fonetyka artykulacyjna zajmuje się sposobami tworzenia dźwięków mowy.

Fonetyka słuchowa

Fonetyka słuchowa bada, jak ludzie odbierają dźwięki mowy. Ze względu na anatomiczne cechy układu słuchowego zniekształcającego sygnał mowy, dźwięk mowy nie jest dla człowieka doskonałym zapisem akustycznym. Na przykład wrażenia słuchowe głośności mierzone w decybelach (dB) nie odpowiadają liniowo różnicy ciśnienia akustycznego.

Niedopasowanie między analizą akustyczną a tym, co słyszy słuchacz, jest szczególnie widoczne w dźwiękach mowy, które mają dużo energii o wysokiej częstotliwości, takich jak niektóre szczeliny. Aby pogodzić to niedopasowanie, opracowano funkcjonalne modele układu słuchowego.

Opisywanie dźwięków

Języki ludzkie używają wielu różnych dźwięków i aby je porównać, lingwiści muszą być w stanie opisać dźwięki w sposób niezależny od języka. Dźwięki mowy można opisywać na wiele sposobów. Najczęściej dźwięki mowy są określane przez ruchy ust potrzebne do ich wytworzenia. Spółgłoski i samogłoski to dwie ogólne kategorie, które fonetycy definiują poprzez ruchy w dźwięku mowy. Bardziej drobnoziarnistymi deskryptorami są parametry, takie jak miejsce artykulacji. Miejsce artykulacji , sposób artykulacji i dźwięczność służą do opisu spółgłosek i są głównymi podziałami spółgłosek międzynarodowego alfabetu fonetycznego . Samogłoski są opisywane przez ich wysokość, cofnięcie i zaokrąglenie. Język migowy jest opisywany przy użyciu podobnego, ale odrębnego zestawu parametrów opisujących znaki: położenie, ruch, kształt dłoni, orientacja dłoni i funkcje inne niż ręczne. Oprócz opisów artykulacyjnych, dźwięki używane w językach mówionych można opisywać za pomocą ich akustyki. Ponieważ akustyka jest konsekwencją artykulacji, obie metody opisu są wystarczające do rozróżnienia dźwięków z wyborem systemów zależnym od badanej cechy fonetycznej.

Spółgłoski to dźwięki mowy, które są artykułowane z całkowitym lub częściowym zamknięciem traktu głosowego . Są one na ogół wytwarzane przez modyfikację strumienia powietrza wydychanego z płuc. Narządy oddechowe wykorzystywane do tworzenia i modyfikowania przepływu powietrza dzielą się na trzy regiony: układ głosowy (nadgardłowy), krtań i układ podgłośniowy. Strumień powietrza może być albo egresywny (z traktu głosowego) albo ingresywny (do traktu głosowego). W dźwiękach płucnych strumień powietrza wytwarzany jest przez płuca w układzie podgłośniowym i przechodzi przez krtań i drogi głosowe. Dźwięki głosowe wykorzystują strumień powietrza wytwarzany przez ruchy krtani bez przepływu powietrza z płuc. Spółgłoski klikowe są artykułowane poprzez rozrzedzenie powietrza za pomocą języka, po którym następuje zwolnienie przedniego zamknięcia języka.

Samogłoski to sylabiczne dźwięki mowy wymawiane bez przeszkód w przewodzie głosowym. W przeciwieństwie do spółgłosek, które zwykle mają określone miejsca artykulacji, samogłoski definiuje się w odniesieniu do zestawu samogłosek referencyjnych, zwanych samogłoskami kardynalnymi . Do zdefiniowania samogłosek potrzebne są trzy właściwości: wysokość języka, cofnięcie języka i zaokrąglenie warg. Samogłoski artykułowane ze stabilną jakością nazywane są monoftongami ; połączenie dwóch oddzielnych samogłosek w tej samej sylabie jest dyftongiem . W IPA samogłoski są reprezentowane w kształcie trapezu reprezentującym ludzkie usta: oś pionowa reprezentuje usta od podłogi do dachu, a oś pozioma reprezentuje wymiar przód-tył.

Transkrypcja

Transkrypcja fonetyczna to system transkrypcji telefonów , które występują w języku, ustnym lub migowym . Najbardziej znany system transkrypcji fonetycznej, Międzynarodowy Alfabet Fonetyczny (IPA), zapewnia ustandaryzowany zestaw symboli dla telefonów ustnych. Standaryzowany charakter IPA umożliwia jego użytkownikom dokładne i spójne przepisywanie telefonów różnych języków, dialektów i idiolektów . IPA jest użytecznym narzędziem nie tylko do nauki fonetyki, ale także do nauczania języków, profesjonalnego aktorstwa i patologii mowy .

Chociaż żaden język migowy nie ma znormalizowanego systemu pisania, lingwiści opracowali własne systemy notacji opisujące kształt dłoni, położenie i ruch. Hamburg Notation System ( HamNoSys) jest podobny do IPA, ponieważ pozwala na różne poziomy szczegółowości. Niektóre systemy notacji, takie jak KOMVA i system Stokoe, zostały zaprojektowane do użytku w słownikach; używają również liter alfabetu w lokalnym języku do kształtów dłoni, podczas gdy HamNoSys bezpośrednio reprezentuje kształt dłoni. SignWriting ma być łatwym do nauczenia systemem pisania dla języków migowych, chociaż nie został jeszcze oficjalnie przyjęty przez żadną społeczność niesłyszących.

Języki migowe

W przeciwieństwie do języków mówionych, słowa w językach migowych są odbierane oczami, a nie uszami. Znaki są połączone z dłońmi, górną częścią ciała i głową. Głównymi artykulatorami są dłonie i ramiona. Względne części ramienia są określane terminami proksymalna i dystalna . Proksymalny odnosi się do części bliższej tułowia, podczas gdy dystalna część jest dalej od niego. Na przykład ruch nadgarstka jest dystalny w porównaniu z ruchem łokcia. Ze względu na mniejsze zapotrzebowanie na energię, ruchy dystalne są na ogół łatwiejsze do wykonania. Różne czynniki – takie jak elastyczność mięśni lub bycie uważanym za tabu – ograniczają to, co można uznać za znak. Native sygnatariusze nie patrzą na ręce rozmówcy. Zamiast tego ich wzrok utkwiony jest w twarzy. Ponieważ widzenie peryferyjne nie jest tak skupione, jak środek pola widzenia, znaki umieszczone w pobliżu twarzy pozwalają na dostrzeżenie subtelniejszych różnic w ruchach palców i ich lokalizacji.

W przeciwieństwie do języków mówionych, języki migowe mają dwa identyczne artykulatory: ręce. Sygnatariusze mogą używać dowolnej ręki bez zakłócania komunikacji. Ze względu na uniwersalne ograniczenia neurologiczne, dwuręczne objawy mają na ogół ten sam rodzaj artykulacji w obu rękach; jest to określane jako warunek symetrii. Drugim uniwersalnym ograniczeniem jest Warunek Dominacji, który utrzymuje, że gdy zaangażowane są dwa układy dłoni, jedna ręka pozostanie nieruchoma i będzie miała bardziej ograniczony zestaw kształtów dłoni w porównaniu z dominującą, ruchomą ręką. Ponadto często zdarza się, że podczas nieformalnych rozmów jedna ręka w dwuręcznym znaku jest upuszczana, co określa się mianem słabego upuszczenia. Podobnie jak słowa w językach mówionych, koartykulacja może powodować, że znaki będą wzajemnie wpływać na formę. Przykładami mogą być kształty dłoni sąsiadujących znaków, które stają się bardziej podobne do siebie ( asymilacja ) lub słaby spadek (przypadek skreślenia ).

Zobacz też

Bibliografia

Uwagi

Cytaty

Prace cytowane

Zewnętrzne linki