Tecnología de reconocimiento de voz

Reconocimiento de voz, la capacidad de los dispositivos para responder a comandos hablados. El reconocimiento de voz permite el control manos libres de varios dispositivos y equipos (una bendición particular para muchas personas discapacitadas), proporciona información para la traducción automática y crea dictados listos para imprimir. Entre las primeras aplicaciones para el reconocimiento de voz se encontraban los sistemas telefónicos automatizados y el software de dictado médico. Se usa con frecuencia para dictar, para consultar bases de datos y para dar comandos a sistemas basados en computadora, especialmente en profesiones que se basan en vocabularios especializados. También permite asistentes personales en vehículos y teléfonos inteligentes, como el Siri de Apple.

Antes de que cualquier máquina pueda interpretar el habla, un micrófono debe traducir las vibraciones de la voz de una persona en una señal eléctrica en forma de onda. Esta señal a su vez es convertida por el hardware del sistema, por ejemplo, la tarjeta de sonido de una computadora, en una señal digital. Es la señal digital que analiza un programa de reconocimiento de voz para reconocer fonemas separados, los componentes básicos del habla. Los fonemas se recombinan en palabras. Sin embargo, muchas palabras suenan igual y, para seleccionar la palabra apropiada, el programa debe confiar en el contexto. Muchos programas establecen contexto a través del análisis de trigrama, un método basado en una base de datos de grupos frecuentes de tres palabras en el que se asignan probabilidades de que dos palabras sean seguidas por una tercera palabra dada. Por ejemplo, si un hablante dice "quién soy", la siguiente palabra será reconocida como el pronombre "I" en lugar del "ojo" que suena de manera similar pero menos probable. Sin embargo, la intervención humana a veces es necesaria para corregir errores.

Los programas para reconocer algunas palabras aisladas, como los sistemas telefónicos de navegación por voz, funcionan para casi todos los usuarios. Por otro lado, los programas continuos de habla, como los programas de dictado, deben ser entrenados para reconocer los patrones de habla de un individuo; la capacitación implica que el usuario lea en voz alta muestras de texto. Hoy, con el creciente poder de las computadoras personales y dispositivos móviles, la precisión del reconocimiento de voz ha mejorado notablemente. Las tasas de error se han reducido a alrededor del 5 por ciento en vocabularios que contienen decenas de miles de palabras. Se alcanza una precisión aún mayor en vocabularios limitados para aplicaciones especializadas como el dictado de diagnósticos radiológicos.