¿Podremos hablar con nuestros PCs antes del 2.001?
En 1968 Nixon era elegido presidente, el Apollo 8 giraba alrededor de la luna y las manifestaciones en contra de la guerra de Vietnam estaban en su punto álgido. En la pantalla, Stanley Kubrick sorprendía a las masas con 2001, una Odisea del Espacio, un gran vals a través del tiempo y el espacio que ha dejado en la memoria colectiva la imagen del ordenador parlante HAL, un conjunto casi humano de código y conexiones.
Quizás por culpa de Kubrick, la posibilidad de hablar a las máquinas siempre se ha considerado como un asunto de ciencia-ficción. Hoy en día, aunque aún queda mucho camino por recorrer, esta posibilidad se está convirtiendo en realidad.
El trabajo de investigación en las áreas de reconocimiento de la voz y síntesis del discurso se extiende a lo largo de 20 años. Hoy, compañías como Apple, IBM o Microsoft, además de otros fabricantes, ofrecen productos en este área, afirmando que el reconocimiento de la voz es una de las próximas grandes fronteras para los usuarios.
La síntesís del discurso se refiere a la conversión de líneas de texto en palabras habladas, mientras que el reconocimiento automático de la voz consiste en justamente lo contrario: transformar palabras en texto. La síntesis del discurso es la más fiable de las dos opciones, debido a que la máquina no tiene que interpretar nada, sino simplemente convertir el texto ASCII en voz y devolverlo al oyente. Los mejores sistemas de este tipo emplean un sistema experto o una base de conocimientos que ayuda al ordenador a pronunciar palabras, abreviaciones, acrónimos y símbolos que no se ajustan a las reglas fonéticas.
La síntesis del discurso, a pesar de ser una tecnología sólida, está infrautilizada. Las aplicaciones comerciales de esta tecnología, conocida como TTS, constituyen una gran ayuda para los más populares procesadores de texto y hojas de cálculo e incluso algunos fabricantes de sistemas de correo electrónico están comenzando a ofrecer a los usuarios la opción de escuchar los mensajes en lugar de leerlos en pantalla. La compañía californiana First Byte fabrica Monologue para Windows, una aplicación TTS que se utiliza con sistemas multimedia y que posibilita a los usuarios de Windows 3.1 obtener servicio de voz en ordenadores soportados por dispositivos de audio como las tarjetas SoundBlaster.
Lo mismo pueden hacer los usuarios de Macintosh a través del software OutSpoken de la compañía Berkeley Speech Technology.
Pero estos dos programas no escuchan ni tampoco pueden responder. Ahí entramos en el campo del reconocimiento automático de voz (AVR), área en el que existen tres problemas de reconocimiento que representan todo un reto para los fabricantes: discurso continuo, independencia del hablante y vocabulario amplio.
Estos aspectos poseen el mismo grado de importancia y, por el momento, la dificultad estriba en desarrollar un sistema lo suficientemente complejo para englobar a los tres.
Actualmente, perfeccionar cualquiera de estos aspectos supone dejar de lado a los otros.
Como resultado, las aplicaciones de reconocimiento de voz pueden reconocer dígitos y palabras pronunciadas claramente. Pero los distintos acentos y las contracciones pueden volverlos locos. Estas limitaciones convierten a los mercados verticales en apropiados para los sistemas de reconocimiento de voz. En estos campos, como el de la medicina y las finanzas el vocabulario debe estar limitado para definir una serie de términos.
En este sentido, y por poner un ejemplo, la compañía KorTeam International está desarrollando un sistema de seguimiento de pacientes basado en la voz para el Kaiser Hospital de Santa Rosa, California.
Por medio de este sistema, el personal médico del centro puede introducir información acerca del estado de un paciente y sus comentarios quedan registrados de forma textual.
KorTeam utiliza el conjunto de herramientas Spot/VBX de Speech Systems, un producto que facilita a los programadores la adición de capacidades de reconocimiento de voz a las aplicaciones Visual Basic de Microsoft.
Spot/VBX utiliza algorritmos que vierten el discurso en códigos fonéticos que son posterioemente decodificados por un lenguaje modelo que lo estructura en una sintaxis reconocible.
No existe ningún sistema de reconocimiento de voz totalmente preciso, lo que significa que los desarrolladores deben idear algún tipo de esquema de doble comprobación que ofrezca una forma de recuperar los errores.
The Voice Information Associates, firma consultora ubicada en Lexington, estima que el mercado de usuario final para los sistemas de reconocimiento de voz alcanzará los 750 millones de dólares, unos 9.800 millones de pesetas, hacia 1997, mientras que el campo de la síntesis del discurso podría llegar a alcanzar una cifra de 550 millones de dólares, alrededor de los 77.000 millones de pesetas, en el mismo período.