Audiowizualne rozpoznawanie mowy - Audio-visual speech recognition

Audiowizualne rozpoznawanie mowy (AVSR) to technika, która wykorzystuje możliwości przetwarzania obrazu podczas czytania z ruchu warg, aby wspomóc systemy rozpoznawania mowy w rozpoznawaniu nieokreślonych telefonów lub zapewnianiu przewagi wśród decyzji o niemal prawdopodobieństwie.

Każdy system czytania z ruchu warg i rozpoznawania mowy działa osobno, a następnie ich wyniki są mieszane na etapie fuzji cech . Jak sama nazwa wskazuje, składa się z dwóch części. Pierwsza to część audio, a druga to część wizualna. W części audio używamy funkcji, takich jak spektrogram log mel, mfcc itp. Z surowych próbek audio i budujemy model, aby uzyskać z niego wektor cech. W przypadku części wizualnej generalnie używamy pewnego wariantu splotowej sieci neuronowej do kompresji obrazu do wektora cech, po czym łączymy te dwa wektory (audio i wizualne) i próbujemy przewidzieć obiekt docelowy.

Linki zewnętrzne