|
Unidad de Investigación ACCESO Departament de Psicologia Evolutiva i de l'Educació de la Universitat de València. |
|
|
Formación, investigación y desarrollo sobre tecnología, educación y discapacidad. |
|
Ponencia presentada a ISAAC 2001: Odisea de la Comunicación - Segundas Jornadas sobre Comunicación Aumentativa y Alternativa ISAAC España. Valencia, Septiembre 2001.
Vicenta Ávila Clemente y Antonio M. Ferrer
Manchón
U. I. Acceso. Dpto. Psicología
Evolutiva y de la Educación.
Universitat de València (E.G.)
Avd. Blasco Ibañez, 21. 46020 Valencia.
e-mail: Vicenta.Avila@uv.es,
Antonio.Ferrer@uv.es
http://acceso.uv.es
Resumen. Este trabajo compara la eficacia de dos sistemas de reconocimiento de voz de habla discreta (Dragon Dictate Classic Edition y Simply Speaking Gold) mediante un estudio de casos con dos personas afectas de distintas patologías del aparato locomotor, que cursan con alteraciones del habla, y una persona sin ningún tipo de alteraciones. Los resultados muestran que ambos sistemas son capaces de mejorar la eficacia del reconocimiento con su uso progresivo, independientemente de la presencia o no de alteraciones en el habla, alcanzando niveles de reconocimiento correcto superiores al 90%. En términos de eficacia, el sistema Simply Speaking Gold demuestra ser mejor al lograr niveles de reconocimiento más altos en menor tiempo.
Los sistemas de reconocimiento de voz constituyen, hoy día, una alternativa consistente para el acceso alternativo a los ordenadores personales. Las principales características de éstos, son fundamentalmente: la opción de manos libres, que todos ellos incorporan; y la configuración de tiempo de pausa entre palabras. Teniendo en cuenta esta segunda variable, existen en estos momentos dos tipos de sistemas: los denominados de habla discreta, que establecen la necesidad de realizar una pausa entre palabras, y los de habla continua, en los que no se realiza ninguna pausa. Nuestra experiencia nos muestra que las caracteísticas del habla de personas con disartia (prosodia, ritmo, etc.) hace más adecuada la utilización de sistemas de habla discreta. La necesidad de realizar pausas entre palabra hace disminuir el número de errores que se producen cuando se utilizan sistemas de habla continua.
A pesar de las dificultades que estos sistemas presentan, como el mantenimiento de alternativas que deben ser activadas utilizando el teclado o ratón, parece claro que su utilización, es especialmente útil para este grupo. No hay que olvidar que muchos de estos problemas cursan con una alteración de base neurológica que repercute en el control motriz, fundamental para la utilización del teclado ordinario.
Esta es la razón, unida a la necesidad de utilizar los procesadores de texto en el ámbito académico y profesional, justifica la necesidad de establecer la eficacia de los sistemas de reconocimiento de voz a fin de determinar cuál es la herramienta óptima para cada caso.
Se han empleado dos sistemas de reconocimiento de voz: Dragon Dictate Classic Edition, Versión 1.3 para Windows (en adelante DD) y Voyce Type Simply Speaking Gold de IBM (a partir de ahora VT). Ambos podemos caracterizarlos siguiendo la propuesta de Candelas y Lobato (1997) como: “dependiente del hablante”, pues necesitan un entrenamiento previo; “de habla no continua”, pues el hablante debe realizar pausas entre palabras; y “de vocabulario incorporado”, los dos cuentan con un diccionario inicial de palabras (30000 DD, y entre 42000/62000 VT). Estos sistemas dictan sobre aplicaciones de Windows, en nuestro caso se ha dictado sobre Note Pad.
La diferencia más significativa entre ellos, es la posibilidad de reproducción del dictado que ofrece el sistema de IBM (VT), que aporta al usuario retroalimentación sobre su propia ejecución.
Se han dictado tres textos, empleados ya en otro trabajo (Ferrer, Ávila y Ordoñez; 1998), pero en esta ocasión con una característica común: todos ellos contenían el mismo número de palabras, concretamente 100. El texto 1 corresponde a un fragmento de una noticia periodística, mientras que los textos 2 y 3 se obtuvieron de manuales universitarios. En la Tabla 1 se resume, el título de los textos utilizados y la fuente de la que se extrajeron.
|
Texto 1 |
Texto 2 |
Texto 3 |
|
|
Título |
El impacto de las nuevas tecnologías |
La educación de los cristianos en el imperio romano |
Perspectivas sobre las parafílias |
|
Fuente |
Prensa |
Manual universitario (Historia) |
Manual universitario (Psicología) |
Tabla 1: Características de los textos empleados
En esta experiencia han participado tres personas. El caso A, corresponde a una mujer de 44 años afectada de parálisis cerebral en forma de tetraparesia espástica, que podríamos catalogar siguiendo a Le Métayer[2] de Nivel II, con afectación moderada del habla, es decir, con una articulación comprendida por todo el mundo aunque con dificultades. El caso B, se refiere a una mujer de 33 años afectada de Ataxia de Friedreich, que presenta una clara disfonia. El caso C, corresponde a una mujer de 31 años normohablante.
El primer paso consistió en realizar sesiones de entrenamiento de ambos sistemas a fin de completar todas las opciones de los mismos, proporcionando instrucción tanto respecto a los comandos para interactuar con ellos, como a las pausas que se debían producir entre las palabras dictadas o las órdenes dadas al mismo.
El entrenamiento con DD consistió en completar la totalidad de opciones del mismo (comandos habituales, palabras más frecuentes…) escogiendo para ello el “modo intenso”. Con VT se realizó un entrenamiento completo, según propone el propio sistema.
Posteriormente, se llevaron a cabo un total de 9 sesiones con cada uno de los sistemas. Cada texto fue dictado tres veces, a razón de un dictado por sesión, con cada herramienta. Cuando terminaba el proceso de dictado, se procedía al mecanografiado del texto.
La recogida de datos se realizó, siguiendo la propuesta de Atmore (1999), por parte de un evaluador que, mediante la implementación de hojas de registro, recogía las incidencias producidas en cada sesión.
Dadas las características propias de cada herramienta, y a fin de comparar la efectividad de ambos sistemas de reconocimiento de voz en cada caso, optamos por centrarnos en la variable referente al reconocimiento pleno (acierto), que el sistema detectaba en el primer intento de dictado; el tiempo invertido en la tarea de dictado, en cada texto y sesión; y el tiempo empleado en el copiado del texto. Debemos hacer notar que para este fin no se utilizó ningún tipo de ayuda técnica, las participantes escribieron el texto mediante un teclado ordinario.
Caso A. Si analizamos el porcentaje de aciertos que se produce en la segunda y tercera sesión de cada texto (Tabla 2), comprobamos que este fluctúa entre el 90 y el 100% en ambos sistemas. Siendo menor, en torno al 95%, en el tercer texto, en las dos situaciones.
Detectamos que el porcentaje de acierto en la última sesión del primer texto con VT, también decrece respecto al resto. En este punto debemos hacer notar que esta participante utiliza de forma ordinaria el sistema de Dragón Dictate en la tarea de dictado, por lo que está muy familiarizada con el mismo. Sin embargo, si el análisis lo realizamos comparando el porcentaje de aciertos en las primeras sesiones, encontramos que este siempre es mayor utilizando el VT, entre el 80-95%, frente al obtenido con DD, entre 60-80%.
En cuanto al tiempo empleado en el dictado comprobamos que con DD, se produce una gran oscilación entre las primeras y las últimas sesiones, entre 12’71’’ y 18’06’’ en la primera, que decrece hasta ocupar entre 3’85’’ y 5’35’’ en las últimas. Mientras que con VT la fluctuación es menor, varía en torno a los 6 minutos en las sesiones iniciales y alrededor de los 5’ en las finales.
El tiempo de mecanografiado es muy superior en cualquier caso, se use el sistema que se use (aproximadamente 20’).
Caso B. Al igual que en el caso anterior, el porcentaje de aciertos mejora a lo largo de las sesiones, con las dos herramientas; obteniendose porcentajes similares de reconocimiento en las sesiones finales. Se repiten los resultados, en cuanto al reconocimiento en las sesiones iniciales donde la utilización de VT obtiene un mayor porcentaje de reconocimiento en menor tiempo. El tiempo dedicado en las sesiones realizadas con el sistema DD, desciende de forma vertiginosa. La familiarización con el sistema y las caracterísiticas del programa parecen ser las responsables de este fenómeno. Debemos destacar el incremento de tiempo que se produce en la segunda sesión del texto 1 con el sistema VT. Este hecho se explica por la variabilidad que se produce en el habla entre unas sesiones y otras. En este caso el estado de ánimo influyó claramente en la producción, como se comprueba por el incremento de tiempo y la disminución de aciertos, respecto a la sesión 1.
El tiempo empleado en el mecanografiado es significativamente mayor al utilizado con VT en todos los textos; por el contrario no ocurre lo mismo con el DD, donde el tiempo empleado en las sesiones iniciales es sensiblemente mayor al ocupado en el mecanografiado de los textos.
|
CASO A |
CASO B |
CASO C |
|||||||||||
|
Texto 1 |
Texto 2 |
Texto 3 |
Texto 1 |
Texto 2 |
Texto 3 |
Texto 1 |
Texto 2 |
Texto 3 |
|||||
|
Dargon Dictate |
% Aciertos |
Ses. 1 |
69 |
75 |
64 |
70 |
79 |
64 |
80 |
67 |
82 |
||
|
Ses. 2 |
90 |
90 |
90 |
89 |
97 |
87 |
95 |
97 |
95 |
||||
|
Ses. 3 |
99 |
99 |
94 |
92 |
96 |
93 |
97 |
97 |
97 |
||||
|
Tiempo de dictado |
Ses. 1 |
16’01’’ |
12’71’’ |
18’06’’ |
21’7’’ |
15’38’’ |
21’01’’ |
8’3’’ |
16’43’’ |
9’35’’ |
|||
|
Ses. 2 |
5’55’’ |
6’5’’ |
6’35’’ |
6’ |
3’81’’ |
7’5’’ |
4’15’’ |
2’86’’ |
3’66’’ |
||||
|
Ses. 3 |
4’5’’ |
3’85’’ |
5’35’’ |
5’41’’ |
3’95’’ |
5’ |
3’36’’ |
2’78’’ |
3’13’’ |
||||
|
VT. Simply Speaking Gold |
% aciertos |
Ses. 1 |
94 |
84 |
85 |
92 |
89 |
95 |
96 |
96 |
96 |
||
|
Ses. 2 |
98 |
96 |
94 |
70 |
97 |
97 |
100 |
98 |
99 |
||||
|
Ses. 3 |
94 |
98 |
93 |
96 |
91 |
94 |
100 |
99 |
100 |
||||
|
Tiempo de dictado |
Ses. 1 |
6’26’’ |
5’75’’ |
5’86’’ |
3’58’’ |
2’66’’ |
2’96’’ |
1’93’’ |
2’53’’ |
2’18’’ |
|||
|
Ses. 2 |
5’83’’ |
5’56’’ |
5’6’’ |
7’ |
2’6’’ |
2’76’’ |
1’95’’ |
1’83’’ |
1’91’’ |
||||
|
Ses. 3 |
5’5’’ |
4’78’’ |
5’26’’ |
4’75’’ |
2’71’’ |
2’5’’ |
2’08’’ |
1’4’’ |
1’86’’ |
||||
|
T. Mecanografiado |
20’61’’ |
18’65’’ |
20’46’’ |
9’83’’ |
12’58’’ |
13’3’’ |
2’46’’ |
2’18’’ |
2’28’’ |
||||
Tabla 2: Resultados obtenidos por los participantes
Caso C. En este usuario se repiten los datos comentados en los dos anteriores. Destacar que el porcentaje de aciertos en las sesiones iniciales es mayor que en las personas con alternaciones de habla, aunque se iguala con el sistema DD en las sesiones finales, alcanzando el 100% de reconocimiento en algunas sesiones realizadas con VT. En cuanto al tiempo empleado en el dictado, vuelven a repetirse los datos anteriores; siendo sensiblemente menor con el sistema VT. Las diferencias obtenidas con el tiempo de mecanografiado muestran la posibilidad de obtener mejores resultados utilizando VT, nunca el DD.
Es en la primera sesión de trabajo con un nuevo texto donde se alcanzan los niveles más bajos de reconocimiento; aunque este porcentaje de reconocimiento siempre es mayor con el sistema VT (65/85% con DD; y un 85/95% con VT). En las últimas sesiones se alcanzan valores de reconocimiento similares con las dos herramientas, superiores al 90%. Ambos sistemas, por tanto, mejoran con el entrenamiento; obteniendo tanto las personas con problemas de habla como el sujeto normohablante porcentajes comparables de reconocimiento.
A diferencia de lo que sucedía en un trabajo previo (o.c), donde el porcentaje inicial de reconocimiento con DD se mantenía, a pesar de las diferencias en el número de palabras de los textos, en este ocasión obtenemos con este mismo sistema, los mismo textos; pero con un tamaño similar, que el porcentaje de reconocimiento de este sistema varía y tiende a decrecer en la sesión inicial de cada texto, excepto en la persona normohablante donde se incrementa el reconocimiento.
Las principales diferencias que observamos, entre los dos sistemas utilizados, se encuentran en el tiempo empleado en el dictado en todas las sesiones y en todos los textos. Mientras que con DD la diferencia entre la primera y segunda sesión en cada texto es muy significativa, hasta de 14’, (texto 3 del caso B); con el sistema VT estas diferencias no llegan a 1’ en ninguno de los sujetos, a excepción de la segunda sesión del texto 2 del caso B que se justifica por el estado del usuario en ese momento. La media de tiempo en la primera sesión, con VT se sitúa en 4’, aunque varía de unos sujetos a otros. Además el porcentaje de aciertos obtenido en la primera sesión siempre es mayor, superior al 85% en todos los casos, con esta herramienta (VT). La familiarización del usuario con él, parece producirse de forma más rápida. Obteniendo resultados muy óptimos respecto al tiempo empleado en el mecanografiado por parte de todas las participantes. Pero, debemos advertir que para obtener el porcentaje de reconocimiento que las casas comerciales establecen en su publicidad, el número de horas de interacción en un sistema de reconocimiento de voz para personas con alteraciones del habla, se sitúa en torno a las 30/50 horas. Este puede ser un factor, tal y como señala Griffith (1999), que desanime a los posibles usuarios a beneficiarse de sus posibilidades, dadas las altas expectativas que se pueden depositar en su uso.
En líneas generales podemos concluir que los sistemas de reconocimiento de voz empleados, son útiles en personas con leves o moderadas alteraciones en el habla, en consonancia con otros trabajos (Kotler, A-L; Thomas-Stonell, N; 1997; Hux, Rankin-Erikson, Manasse, Lauritzen; 2000). Decimos que son útiles porque mejoran la respuesta en relación con su uso, si bien, el sistema VT presenta mayor efectividad, puesto que a igualdad de reconocimiento es necesario menor tiempo de dictado. Parece claro que la familiarización con el sistema se produce de forma más rápida. En nuestro caso, el tiempo empleado por la persona para llevar a cabo la tarea con voz y de forma mecanografiada nos ayuda a reafirmar nuestra conclusión de utilidad.
ATMORE, C (1999) “Choosing and using Voice Recognition”. 14th International Conference on Technology and Persons with Disabilities. Los Angeles. 15-20 Marzo.
CANDELAS, A. y LOBATO, M (1997) Guía de Acceso al Ordenador. Madrid. IMSERSO. Ministerio de Trabajo y Asuntos Sociales.
FERRER, A.; ÁVILA, V.; ORDOÑEZ, T (1999) “Efecto del entrenamiento en la eficacia de un sistema de reconocimiento de voz de habla discreta en personas con y sin alteraciones del habla”. Ponencia presentada en las Ias Jornadas de ISAAC España. Vitoria. Septiembre.
GRIFFITH, R. (1999) “Speech Recognition for Injury, Disability & Prevention”. 14th International Conference on Technology and Persons with Disabilities. Los Angeles. 15-20 Marzo.
HUX, K.; RANKIN-ERIKSON, J.; MANASSE, N.; LAURITZEN, E (2000) “Accurancy of Three Speech Recognition Systems: Case Study of Dysarthric Spech”. AAC Augmentative and Alternative Communication.Vol. 16. September.
KOTLER, A-L; THOMAS-STONELL, N (1997) “Effects of Speech Training on the Accuracy of Speech Recognition for an Individual with a Speech Impairment”. AAC Augmentative and Alternative Communication, pp. 71-80, Vol. 13, June.
PUYUELO; M.; PÓO, P.; BASIL, C. Y LE MÉTAYER, M. (1996) Logopedia en la Parálisis Cerebral. Diagnóstico y Tratamiento. Barcelona. Masson.