Buenos días, ¿la Web al habla?

W3C desarrolla de una plataforma avanzada de VoiceXML

22 OCT 2004

Voice Extended Markup Language (VoiceXML) es un lenguaje de scripting para definir diálogos y especificar el intercambio de información entre un usuario y una aplicación con capacidad de reconocimiento de habla. La posibilidad de “hablar” con la Red y que nos “responda”, es decir, navegar a través de la gran tela de araña gracias a la voz es viable gracias al lenguaje VoiceXML. Las posibilidades que se abren son infinitas a nivel de servicios y, especialmente, en el caso de determinados colectivos sociales.

La capacidad del lenguaje HTML (Hypertext Markup Language) para describir layouts y páginas fue un factor importante en el ascenso de la World Wide Web. Sin embargo, HTML tiene una carencia fundamental y es que la capacidad de visualización gráfica se circunscribe a la pantalla de un ordenador, lo que hace cinco o 10 años, era lo lógico o natural.
Sin embargo, en la actualidad, los usuarios desean poder acceder a Internet cuando se encuentren lejos de sus ordenadores de sobremesa, ya sea utilizando teléfonos móviles, PDA, buscapersonas o cualquier dispositivo electrónico manual. Y aunque la mayoría de estos dispositivos tienen pantallas gráficas, en el mejor de los casos éstas resultan muy pequeñas para visualizar imágenes de calidad, tienen un ancho de banda limitado, no son adecuadas para realizar browsing o navegación en la Web y, en general, no tienen teclados para entrada de datos o control. En las empresas, muchas áreas del soporte técnico a los clientes han pasado a utilizar sistemas basados en Web y existe una necesidad real de que esos sistemas sean accesibles desde cualquier teléfono sin necesidad de un ordenador o de una pantalla con calidad de visualización.
En otras palabras, ahora deseamos poder “hablar” con nuestras páginas Web y que nos “responda”, es decir, lo que se conoce como “navegación por voz” y que permite a los usuarios obtener información de la Web mediante síntesis de habla, audio pre-registrado y reconocimiento de voz. Así, pueden añadirse capacidades de voz a los navegadores de los ordenadores de sobremesa tradicionales y, al hacerse más pequeños los dispositivos móviles, la interacción por la voz puede ofrecer una alternativa más práctica que los pequeños teclados y pantallas.

Esfuerzo en común
El World Wide Web Consortium (W3C) está trabajando en ampliar el acceso a Internet para permitir a los usuarios interactuar mediante teclados, comandos hablados, habla pre-registrada, habla sintética y música. De hecho, en 1998 este consorcio W3C patrocinó una conferencia de trabajo sobre navegación por voz y al año siguiente formó un grupo de trabajo entre cuyos miembros se incluían AT&T, British Telecommunications PLC, Lucent Technologies, Philips Electroniccs LV, IBM, Motorola y Nokia. En la actualidad, el grupo está trabajando en el desarrollo de lenguajes y estándares interrelacionados basados en XML, para desarrollar aplicaciones de voz, así como la plataforma denominada W3C Speech Interface Framework. Dicha arquitectura incluye Voice XML 2.0, para definir diálogos y especificar el intercambio de datos entre el usuario y una aplicación de habla, y Voice XML 2.1, un pequeño conjunto de funciones y características ampliamente implementadas por los proveedores.
Asimismo, incluye una serie de especificaciones de gramática para el reconocimiento del habla para especificar la estructura de los datos introducidos por el usuario, la aplicación Speech Synthesis Markup Language (SSML) para detallar temas como el timbre de voz o pronunciaciones específicas, así como “Semantic Interpretation for Speech Recognition”, una solución que define las conexiones entre reglas gramaticales y la semántica, para que las variaciones de un mismo concepto, como “Coke” y “Coca Cola”, sean tratadas de forma equivalentes.

Funcionalidades específicas
Si bien Voice XML es la parte más visible de este framework, los otros elementos son infraestructura y resultan esenciales para crear diálogos que incluyen habla sintetizada, audio digitizado, reconocimiento de habla y DTMF (es decir, touch-tone), input de datos, registro de input hablado y telefonía.
VoiceXML tiene características y funciones para controlar el output e input de audio, lógica de presentación, flujo de datos, tratamiento de eventos y conexiones telefónicas básicas. Las aplicaciones creadas con VoiceXML pueden incluir material audio pre-registrado, al igual que HTML puede incorporar imágenes existentes en una página gráfica.
HTML está especialmente indicado para la visualización de calidad de pantallas que incluyen múltiples objetos al mismo tiempo. Sin embargo, el habla es mucho más lineal. No en vano, sólo puede oírse una cosa cada vez, por lo tanto VoiceXML tiene que controlar la interacción entre el usuario y la aplicación. En la mayoría de los casos, la aplicación y el usuario se turnan para hablar. La aplicación contacta con el usuario, y entonces el usuario responde.
Asimismo, los lenguajes como VoiceXML y sus predecesores tienen que soportar dos tipos de “markup”, uno primero que describe el texto de acuerdo con su estructura o contenido y otro que controla aspectos sobre cómo debe producirse el habla, el tono o el énfasis de la voz.

Los orígenes de la síntesis del habla
Durante años se ha prestado especial atención al reconocimiento de voz, es decir, conseguir que el ordenador oiga y comprenda lo que le decimos. Sin embargo, los últimos avances en materia de VoiceXML radican en que el ordenador responde mediante síntesis de texto y habla, es decir, lo que se conoce como tecnología TTS (Text-to-Speech).
En este sentido, se han desarrollado varios sistemas propietarios, que progresivamente se han ido convirtiendo en hitos en la evolución de VoiceXML. Así, en 1961 investigadores de Bell Labs programaron un IBM 7094 para cantar la canción “Daisy”, tal y como quedó registrado en la gran pantalla, en la película 2001: Una Odisea del Espacio. Asimismo, TTS avanzó considerablemente en 1976 cuando Ray Kurzwell introdujo su máquina lectora, que podía escanear texto impreso y comunicarlo a través de una voz.
En las tres décadas siguientes, los ordenadores se han hecho mucho más potentes y se han desarrollado muchas herramientas para producir un resultado mejorado. VoiceXML tiene sus raíces en el proyecto de AT&T PhoneWeb, que es un lenguaje markup telefónico y una plataforma para crear aplicaciones de telefonía para consumidores y centros de atención de llamadas.
Motorola aplicó un enfoque similar para suministrar información interactiva y actualizada. Para ello, se concentró en el acceso manos libres, poniendo énfasis en el reconocimiento de voz más que en la entrada de datos. Motorola basó su lenguaje en XML y en 1998 anunció VoxML.
Otro lenguaje de reconocimiento de habla, el Sable, fue introducido también en 1998. Estaba basado en el lenguaje STML (Spoken Text Markup Language) de 1997, basado a su vez en el SSML (Speech Synthesis Markup Language) de 1996, y en el Java Speech Markup Language, también de 1997.

Conceptos clave a recordar
--------------------------------------
Sesión: Un conjunto de interacciones contiguas, orientadas en torno a una transacción común, comenzando con la interacción