Redes neuronales convolucionales para la conversión de audio a texto: revisión sistemática

Fecha
2025Autor(es)
Callirgos Burga, Cristhian Alejandro
Metadatos
Mostrar el registro completo del ítemResumen
La conversión de audio a texto mediante redes neuronales convolucionales (CNN)
representa un avance significativo en la accesibilidad comunicativa, permitiendo la
traducción de sonido a información escrita en tiempo real. Este estudio tiene como
objetivo examinar críticamente las aplicaciones de las CNN en la conversión de audio
a texto, comparando métodos de procesamiento, estándares de evaluación y
limitaciones. La metodología empleada incluye una revisión sistemática de la literatura
basada en las directrices PRISMA, utilizando bases de datos científicas como Scopus
y ScienceDirect. Se analizaron 35 artículos relevantes, destacando que las
arquitecturas GoogLeNet, ResNet y AlexNet son las más utilizadas, con precisiones
de hasta el 89.61%. Las técnicas de preprocesamiento más eficaces incluyen los
coeficientes cepstrales en frecuencia mel (MFCC) y los espectrogramas. La revisión
concluye que, aunque las CNN son efectivas, enfrentan retos como la variabilidad del
ambiente sonoro y la necesidad de bases de datos adaptadas a cada idioma. Esta
investigación es crucial para mejorar la interacción y comunicación de personas con
discapacidades auditivas y del habla mediante la tecnología y la inteligencia artificial.
Materias
Colecciones
El ítem tiene asociados los siguientes ficheros de licencia: