VoiceXML — VoiceXML

VoiceXML ( VXML ) to standard dokumentów cyfrowych służący do określania interaktywnych multimediów i dialogów głosowych między ludźmi a komputerami. Służy do tworzenia aplikacji odpowiedzi dźwiękowej i głosowej, takich jak systemy bankowe i zautomatyzowane portale obsługi klienta. Aplikacje VoiceXML są opracowywane i wdrażane w sposób analogiczny do sposobu, w jaki przeglądarka internetowa interpretuje i wizualnie renderuje Hypertext Markup Language (HTML) otrzymywany z serwera internetowego . Dokumenty VoiceXML są interpretowane przez przeglądarkę głosową, aw typowych architekturach wdrożeniowych użytkownicy wchodzą w interakcję z przeglądarkami głosowymi za pośrednictwem publicznej komutowanej sieci telefonicznej (PSTN).

Format dokumentu VoiceXML jest oparty na Extensible Markup Language (XML). Jest to standard opracowany przez konsorcjum World Wide Web Consortium (W3C).

Stosowanie

Aplikacje VoiceXML są powszechnie używane w wielu branżach i segmentach handlu. Aplikacje te obejmują zapytania o zamówienia, śledzenie przesyłek, wskazówki dojazdu, powiadomienia awaryjne, budzenie, śledzenie lotu, dostęp głosowy do poczty e-mail, zarządzanie relacjami z klientami, uzupełnianie recept, czasopisma z wiadomościami audio, wybieranie głosowe, informacje o nieruchomościach i aplikacje pomocy w spisie numerów .

VoiceXML zawiera tagi, które instruują przeglądarkę głosu, aby zapewnić syntezę mowy , automatyczne rozpoznawanie mowy , zarządzanie dialogami i odtwarzanie dźwięku. Poniżej znajduje się przykład dokumentu VoiceXML:

<vxml version="2.0" xmlns="http://www.w3.org/2001/vxml">
  <form>
    <block>
      <prompt>
        Hello world!
      </prompt>
    </block>
  </form>
</vxml>

Po zinterpretowaniu przez interpreter VoiceXML wygeneruje to „Hello world” z syntezatorową mową.

Zazwyczaj HTTP jest używany jako protokół transportowy do pobierania stron VoiceXML. Niektóre aplikacje mogą używać statycznych stron VoiceXML, podczas gdy inne polegają na dynamicznym generowaniu stron VoiceXML przy użyciu serwera aplikacji, takiego jak Tomcat , Weblogic , IIS lub WebSphere .

W przeszłości dostawcy platform VoiceXML wdrażali ten standard na różne sposoby i dodawali zastrzeżone funkcje. Jednak standard VoiceXML 2.0, przyjęty jako zalecenie W3C 16 marca 2004 r., wyjaśnił większość obszarów różnic. VoiceXML Forum, grupa branżowa promująca stosowanie standardu, zapewnia proces testowania zgodności , który potwierdza zgodność implementacji dostawców.

Historia

AT&T Corporation , IBM , Lucent i Motorola utworzyły w marcu 1999 r. Forum VoiceXML w celu opracowania standardowego języka znaczników do określania dialogów głosowych. We wrześniu 1999 Forum wydało VoiceXML 0.9 do komentowania członków, aw marcu 2000 opublikowano VoiceXML 1.0. Wkrótce potem Forum przekazało kontrolę nad standardem W3C. W3C wyprodukowało kilka pośrednich wersji VoiceXML 2.0, które osiągnęły ostatni etap „Rekomendacji” w marcu 2004 roku.

VoiceXML 2.1 dodał stosunkowo niewielki zestaw dodatkowych funkcji do VoiceXML 2.0, w oparciu o informacje zwrotne z implementacji standardu 2.0. Jest wstecznie kompatybilny z VoiceXML 2.0 i osiągnął status rekomendacji W3C w czerwcu 2007 roku.

Przyszłe wersje standardu

VoiceXML 3.0 będzie kolejną główną wersją VoiceXML z nowymi głównymi funkcjami. Zawiera nowy język opisu schematów stanów XML o nazwie SCXML .

Powiązane standardy

Struktura interfejsu mowy W3C definiuje również te inne standardy blisko związane z VoiceXML.

SRGS i SISR

Speech Recognition Grammar Specyfikacja (SRGS) służy do rozpoznawania mowy powiedzieć co zdanie wzorce powinny oczekiwać, aby usłyszeć: te wzorce są nazywane gramatyk. Gdy aparat rozpoznawania mowy określi najbardziej prawdopodobne zdanie, jakie usłyszał, musi wyodrębnić z niego znaczenie semantyczne i zwrócić je do interpretera VoiceXML. Ta interpretacja semantyczna jest określona przez standard Semantic Interpretation for Speech Recognition (SISR). SISR jest używany wewnątrz SRGS do określenia wyników semantycznych związanych z gramatykami, tj. zestawu przypisań ECMAScript, które tworzą strukturę semantyczną zwracaną przez aparat rozpoznawania mowy.

SSML

Speech Synthesis Markup Language (SSML) służy do dekoracji monity tekstowe z informacjami na temat najlepiej, aby uczynić je w syntetycznej mowy, na przykład, które syntezatora głosu do użytku lub gdy mówić głośniej lub miękkie.

PLS

Wymowy Leksykon Specyfikacja (PLS) jest używana do określenia, jak słowa są wymawiane. Wygenerowane informacje dotyczące wymowy mają być używane zarówno przez aparaty rozpoznawania mowy, jak i syntezatory mowy w aplikacjach do przeglądania głosu.

CCXML

Sterowanie połączeniami Extensible Markup Language (CCXML) jest komplementarny standardem W3C. Interpreter CCXML jest używany na niektórych platformach VoiceXML do obsługi początkowej konfiguracji połączenia między dzwoniącym a przeglądarką głosu oraz do świadczenia usług telefonicznych, takich jak przekazywanie połączeń i rozłączanie z przeglądarką głosową. CCXML może być również używany w kontekstach innych niż VoiceXML.

MSML, MSCML, MediaCTRL

W zastosowaniach serwera multimediów często konieczne jest współdziałanie kilku odgałęzień połączenia, na przykład podczas konferencji wielostronnej. W przypadku tej aplikacji w VoiceXML wykryto pewne niedociągnięcia, dlatego firmy zaprojektowały określone języki skryptowe do obsługi tego środowiska. Media Server Markup Language (MSML) było rozwiązanie Convedia, a Media Server Kontrola Markup Language (MSCML) było rozwiązanie Snowshore użytkownika. Snowshore jest teraz własnością Dialogic, a Convedia jest teraz własnością Radisys. Te języki zawierają również „haki”, dzięki czemu zewnętrzne skrypty (takie jak VoiceXML) mogą działać na odcinkach połączeń, w których wymagana jest funkcjonalność IVR .

Istniała grupa robocza IETF o nazwie mediactrl ("kontrola mediów"), która pracowała nad następcą tych systemów skryptowych, które, jak mamy nadzieję, rozwiną się w otwarty i powszechnie przyjęty standard. Grupa robocza mediactrl zakończyła się w 2013 roku.

Zobacz też

  • ECMAScript  – język skryptowy używany w VoiceXML
  • OpenVXI  – biblioteka interpreterów VoiceXML o otwartym kodzie źródłowym
  • SCXML  – XML wykresu stanu

Bibliografia

Linki zewnętrzne

Posłuchaj tego artykułu ( 9 minut )
Mówiona ikona Wikipedii
Ten plik audio został utworzony na podstawie rewizji tego artykułu z dnia 29 października 2011 r. i nie odzwierciedla kolejnych edycji. ( 2011-10-29 )