UTLAI PUNTO DOC
Nº 27 --- Octubre 2005
Tecnologías de reconocimiento de voz: la identidad a distancia
(publicado en noticias.com)
Nicolás Falcioni
Las nuevas tecnologías del habla permiten una interacción casi natural con sistemas que reconocen la identidad e intención de las voces humanas. En esta
entrevista Guillermo Brinkmann, responsable de estrategias en comunicación unificada y reconocimiento de voz de Avaya, cuenta los fascinantes pormenores
de su funcionamiento.
La voz de una persona es única e inconfundible, incluso por teléfono. La expresión cotidiana “no te reconocí la voz”, surge de lo usual que resulta identificar
el interlocutor a partir de su sonoridad única. Los grandes cantantes crean su obra alrededor del “inconfundible estilo” de sus tonos, y el público reconoce
a sus ídolos a partir de la sonoridad de sus palabras. La voz puede, en definitiva, ser una imagen indeleble grabada a fuego en la memoria de los demás.
Este principio de identidad está en la base de lo que Guillermo Brinkmann denomina las tecnologías del habla, que permiten naturalizar la interacción con
las máquinas, al reconocer el estilo y la intención de una voz humana.
¿Es cierto que la voz tiene la particularidad de ser como una huella digital?
Exactamente, es tan única o más que una huella digital, porque es un patrón, cuando se representa el sonido en el espectro aparece una figura con características
únicas. Hay aplicaciones para acceso de usuarios que por lo general se asocian a recursos para seguridad, pero hay un montón de otras, relacionadas con
servicios personalizados ¿Cómo se identifica al cliente que llama a un empresa? Por el número de teléfono, pero desde el mismo número pueden llamar distintas
personas, o sea que no se trata de una persona sino de aquellas que tiene acceso a ese número. Lo mismo pasa con la clave de acceso de una página web,
no se sabe quién entró sino aquellos que tienen conocimiento de la clave. Supongamos que la gente de Direct TV quiera sacar un perfil mío, la clave para
alquilar películas es una sola, pero alquilo yo, mi mujer, mi suegro, algún amigo de la familia, entonces el perfil va a ser medio raro, infantiles, de
acción, dramas. Ahí no se produce la identificación de la personal real sino de un código que se asocia a un nombre ingresado en la base. A través del
reconocimiento de la voz sedefine un perfil de forma mucho más precisa.
¿Y estos desarrollos cuánto tiempo tienen?
En investigación unos 50 años, en aplicación real y efectiva no más de tres o cuatro, pero nosotros creemos que va a tener un crecimiento exponencial en
los próximos años.
¿De qué factores depende?
Del dispositivo, hay lectores de iris, scaners de retina, lectores de huellas digitales, pero cuántos hay en una empresa, o en el estado, o en los hogares
familiares, ninguno. Ahora, cuánto teléfonos hay, miles, millones. Lo poderoso es su capacidad remota y móvil. El dispositivo para la identificación biométrica
por voz es el teléfono, que es universal. Además, la voz es infalsificable. Podrán decir que se puede grabar, y es cierto, pero si se hacen preguntas ramdom
nadie puede tener grabadas con anterioridad las miles que se pueden hacer, por ejemplo, un acceso que pide “diga el titular del diario Clarín de hoy”.
Nadie puede preverlo.
¿Qué utilidades se está dando a esta tecnología?
Por ejemplo para asistencia en identificación positiva, en las tarjetas de crédito, todas esas preguntas que te hacen para identificar tu identidad, dónde
recibe su resumen de cuentas, cuándo cumple años su mujer, dónde vive, preguntas que son bastante intrusivas, muy personales; bueno, con esta tecnología
es mucho menos intrusivo y más rápido, más efectivo, tiene una cantidad de beneficios importante. Mucha gente consulta sus movimientos bancarios con frecuencia
pero no quiere que otras personas se enteren, o ni siquiera quieren tener contacto con otra persona por una cuestión meramente práctica ¿Por qué no dar
ese servicio con una máquina que prácticamente habla?
¿Cómo funciona la verificación biométrica?
Se inicia con la elaboración del proyecto y con la concientización de la empresa que va a instalar la tecnología. Después, para el usuario lo primero es
enrolar su voz para que el sistema tenga grabado el patrón biométrico vocal, así como si quiero tener tus huellas digitales, en algún momento la persona
tiene que tocar el pianito. Una vez registrado, el patrón se guarda en una base de datos, y acá viene una aclaración importante, ese patrón no es audio
sino datos, números, que resultan de una representación espectral del audio primitivo, características físicas, prosodia, entonación, ritmo. A nivel de
espacio esto no ocupa casi nada. Cuando el usuario ingresa al servicio, por ejemplo, con las tarjetas de crédito. El sistema pide el número de tarjeta
y el D.N.I, y luego se dispone a comprobar que esos datos corresponden a la persona, y le pregunta, “buenos días señor López, por favor, diga qué día es
hoy”.
Prácticamente se simula un diálogo humano
Estas tecnologías cambian el paradigma de la relación hombre máquina, es una interacción totalmente distinta a la que estás acostumbrado en un IVR convencional
, que es muy rígido, niveles y opciones, no hay otra. Además, es posible complementar la verificación con el reconocimiento de voz, y hacer diálogos mucho
más humanos, mucho más naturales. Visto desde acá el IVR es tremendamente limitativo, no tiene más de 9 opciones, sin tener en cuenta que está comprobado
que una persona no registra más de 3 o 4 opciones. Lo dicen los estudios de usability. Cualquiera al que lo hagan llamar por primera vez a una empresa
donde hay muchas opciones las va a escuchar todas porque, por más que aquella que necesita esté en el segundo lugar, le va a quedar la duda de si no queda
una más precisa más adelante, y una vez que escuchó todo no va a recordar con precisión cuál era la correcta, y va a volver a empezar.
¿Sirve para cualquier circunstancia?
Te comunicás con una máquina en lo que se llama diálogo natural, lo que en inglés es NLSR, Nautal Language Speech Recognition; es natural, lo que no implica
que sea libre, está todo sujeto a ciertas gramáticas, y éstas a su vez están atadas a un contexto. Al hablar con una aplicación de reserva de líneas aéreas
el usuario va a poder decir quiero viajar mañana a Santiago en bussines class, quiero hacer una reserva, cosas así, pero cualquier frase tipo “qué tal
soy Perez quiero que me reconozcan las millas”, no, eso no. Eso es otra tecnología en la que tenés capacidad de procesar lenguajes totalmente abiertos,
pero sólo para rutear, la máquina te pregunta ¿qué necesita? y sobre las probabilidades de respuestas el sistema interpreta, se llama Estatistical Language
Processing, también es reconocimiento de voz pero distinto a la NLSR, se aplica a otra estrategia, para un principal ruteo. A partir del número único,
el concepto del One Number, en lugar de dar un 0800 para cada cosa, con esta tecnología se puede dar uno solo que rutea al sistema a distintas áreas.
¿En qué lugares ya se incorporó esta tecnología?
En Estados Unidos y Europa se usa muchísimo el reconocimiento de voz, nosotros desde acá manejamos Cono Sur, tenemos aplicaciones en Brasil y en Bolivia
instalamos una aplicación de reconocimiento para un Contact Center de códigos de áreas internacional para una Telco, en la que se ve las limitaciones que
tiene el IVR tradicional que pone 1, 2, 3, 4 ....porque con la interfaz por tono hay cosas imposibles de automatizar y este es un claro ejemplo de eso.
En los C.C. de operadores manuales cada vez que una persona quiere llamar a una ciudad extranjera tiene que hacer un contacto previo para averiguar el
código ¿Cómo lo automatizas? Primero hay muchos países y dentro de cada país la cantidad de ciudades es enorme, es imposible. Nosotros automatizamos este
C.C. donde la máquina le dice: Buenos días ¿necesita un código nacional o internacional? Diga a qué país quiere llamar, diga a qué ciudad, etc. Esto automatiza
el 80% de las transacciones. A mí por ejemplo, me gusta ver películas y el Video Club me queda a 8 cuadras, a veces no sé si ir en auto o caminando. Cuando
llego resulta que la película que quería no está y termino viendo lo que hay ¿por qué no poner este sistema? Llamás y te dice, buenos días ¿qué película
quiere ver? El señor de los anillos uno, me quedan dos en stock ¿quiere que le reserve una?
¿Con voz sobre IP también funciona bien?
Si, funciona muy bien, tanto la verificación como el reconocimiento. Yo te haría una acotación, te diría Telefonía IP, con calidad de servicio, ancho de
banda serio y medido, no vas a tener problemas. En esto es cuestión de tener imaginación, como con todas las tecnologías novedosas, cuando se entiende
que funciona aparecen las miles de cosas que se pueden automatizar y mejorar.
El texto se encuentra en:
http://www.noticias.com/articulo/23-08-2005/nicolas-falcioni/tecnologias-reconocimiento-voz-identidad-distancia-4khf.html
Si has llegado a este artículo a partir de un mensaje de
correo electrónico, pulsa alt+f4 para cerrar esta ventana y volver a él.
Si lo estás leyendo a través de la red, desde aquí puedes:
Volver al nº 27 de la
revista