976 372 250 | coordinacion@roldestudiosaragoneses.org

Proyecto ReconoiXe

Desde 2020, Rolde de Estudios Aragoneses está participando en la Iniciativa ReconoiXe, impulsada por la Dirección General de Política Lingüística del Gobierno de Aragón, en la que también están presentes Lo Congres Permanent de la Lenga Occitana y la Fundación Elhuyar.

ReconoiXe se enmarca en el programa Linguatec, proyecto EFA de cooperación interterritorial España-Francia-Andorra. Más información sobre Linguatec.

Los trabajos desarrollados durante 2021 y 2022 por nuestra entidad han contado con el apoyo del Servicio de Acción Exterior del Gobierno de Aragón (Departamento de Presidencia y Relaciones Institucionales), dentro de la convocatoria de subvenciones destinada a financiar proyectos de cooperación transfronteriza entre la Comunidad Autónoma de Aragón y la región francesa de Nueva Aquitania durante los años 2021 (Orden PRI/5/2021, de 4 de enero) y 2022 (Orden PRI/1750/2021, de 16 de diciembre).

 

Este proyecto va dirigido a la obtención de un reconocedor de voz del aragonés: una herramienta de análisis del sonido y transcripción de este en texto escrito. Se trata de una tecnología ampliamente distribuida hoy día en aplicaciones públicas en general, en particular por asistentes personales (Apple Siri, Google Home, Amazon Alexa…) y para el subtitulado automático de vídeos.

El reconocimiento de voz utiliza inteligencia artificial (redes neuronales) para transcribir automáticamente voz a texto escrito. Antes de poder hacer esto, debe entrenarse con oraciones de audio ya transcritas. Por lo tanto, necesita una gran cantidad de audio transcrito, (texto con las correspondientes grabaciones de audio). También es necesario «alimentar la máquina» con grandes corpus de texto, y es entonces cuando puede aprender qué formas son frecuentes, qué palabra aparece a menudo junto a otra, etcétera. Para ello, se han desarrollado varios programas:

  • Uno para escribir números, símbolos, abreviaturas, unidades de medida, etcétera, antes de enviar un mensaje de texto a la máquina.
  • Una «abreviatura» que hace lo contrario, para hacer más legibles los textos ofrecidos a los usuarios.
  • Un fonetizador para obtener la pronunciación del alfabeto fonético internacional de una palabra.
  • Un programa para tener todas las palabras que corresponden a una pronunciación.

En la primera fase (2020) tuvo lugar la definición de requisitos, especificaciones funcionales y constitución de un corpus. Con la colaboración de muchas personas y asociaciones, pudimos procesar material sonoro y escrito relacionado con todas las variedades del aragonés. Nos dedicamos al trabajo de recolección, procesamiento (alineación de texto / sonido) y almacenamiento de audio y de corpus textual. Más información sobre esta primera fase.

Durante 2021, se realizó el tratamiento de todo ese material y el desarrollo y perfeccionamiento tecnológico de la herramienta.

Durante la tercera fase, en 2022, se está llevado a  cabo el desarrollo final (construcción de transcriptores e integración de componentes) y validación.