Generación de una base de datos para la evaluación de la tecnología de procesamiento de habla : CMU Sphinx / Pedro Miguel Soto Carrasco ; Profesor guía: César San Martín Salas.
Detalles de publicación: Temuco (Chile) : Universidad de La Frontera , 2009Descripción: 60 hojas : tablas, figuras ; 28 cmTema(s): Recursos en línea: Nota de disertación: Trabajo de Titulo (Ingeniero Civil Electrónico).-- Universidad de La Frontera, Facultad de Ingeniería y Ciencias, 2009. Resumen: La voz es uno de los principales canales de comunicación entre los seres humanos, el avance tecnológico y el de las herramientas de procesamiento digital nos han permitido hoy en día la intercomunicación hombre máquina mediante sistemas capaces de realizar el reconocimiento del habla. El objetivo principal de este Trabajo de Título es la generación de una base de datos con locutores locales, que servirá en la evaluación de diferentes aplicaciones como reconocimiento de habla independiente del locutor y reconocimiento del hablante entre otras. Para ello, se realizó una base de datos con 52 locutores, todos de sexo masculino los cuales grabaron un corpus compuesto por frases y palabras aisladas. Este corpus cuenta con 220 elocuciones distintas y con 275 palabras. La base de datos consta con 11.296 archivos de audio los que en conjunto tienen una duración aproximada de 2 horas 5 minutos. Esta base de datos fue validada utilizando una tecnología de procesamiento de habla, CMU-SPHINX, la cual es una de las mejores y más versátiles herramientas de procesamiento de habla hoy en día (Gouvea, 2008). La base de datos fue evaluada en una aplicación de reconocimiento de habla independiente del locutor, para ello, se utilizó la mitad de la base de datos en la etapa de entrenamiento, la que fue realizada usando el paquete SphinxTrain, con el cual se crearon los modelos acústicos, mientras que los modelos de lenguaje fueron creados con la herramienta CMU-Cambridge Statistical Model Language Toolkit. Para la etapa de reconocimiento de habla independiente del locutor se utilizó el paquete Sphinx-3 Decoder, el cual utiliza los modelos acústicos y de lenguaje para realizar la decodificación. Los resultados más importantes de este trabajo es la generación de una base de datos que puede ser evaluada en diversas aplicaciones de reconocimiento de habla. Se conoció el funcionamiento y se implementó el sistema de reconocimiento de habla CMU-SPHINX, se aplicaron algoritmos básicos que trae esta herramienta, y se evaluó el reconocimiento de habla continua independiente del locutor, utilizando la base de datos generada en el marco de este Trabajo de Título, logrando tasas de reconocimiento de palabras superior al 96% con los datos utilizados en el entrenamiento y superior al 93% con los datos restantes.Tipo de ítem | Biblioteca actual | Colección | Signatura topográfica | Copia número | Estado | Fecha de vencimiento | Código de barras | |
---|---|---|---|---|---|---|---|---|
Tesis y proyectos de título | Biblioteca Central Estantería | Tesis y trabajos de título | ICE S718g 2009 (Navegar estantería(Abre debajo)) | c.1 | No para préstamo | 35605001922479 |
Incluye índice de contenidos, índice de tablas, índice de figuras, anexos.
Tesis a texto completo en formato PDF: Biblioteca Digital UFRO
Trabajo de Titulo (Ingeniero Civil Electrónico).-- Universidad de La Frontera, Facultad de Ingeniería y Ciencias, 2009.
Bibliografía: hojas 56-57.
La voz es uno de los principales canales de comunicación entre los seres humanos, el avance tecnológico y el de las herramientas de procesamiento digital nos han permitido hoy en día la intercomunicación hombre máquina mediante sistemas capaces de realizar el reconocimiento del habla. El objetivo principal de este Trabajo de Título es la generación de una base de datos con locutores locales, que servirá en la evaluación de diferentes aplicaciones como reconocimiento de habla independiente del locutor y reconocimiento del hablante entre otras. Para ello, se realizó una base de datos con 52 locutores, todos de sexo masculino los cuales grabaron un corpus compuesto por frases y palabras aisladas. Este corpus cuenta con 220 elocuciones distintas y con 275 palabras. La base de datos consta con 11.296 archivos de audio los que en conjunto tienen una duración aproximada de 2 horas 5 minutos. Esta base de datos fue validada utilizando una tecnología de procesamiento de habla, CMU-SPHINX, la cual es una de las mejores y más versátiles herramientas de procesamiento de habla hoy en día (Gouvea, 2008). La base de datos fue evaluada en una aplicación de reconocimiento de habla independiente del locutor, para ello, se utilizó la mitad de la base de datos en la etapa de entrenamiento, la que fue realizada usando el paquete SphinxTrain, con el cual se crearon los modelos acústicos, mientras que los modelos de lenguaje fueron creados con la herramienta CMU-Cambridge Statistical Model Language Toolkit. Para la etapa de reconocimiento de habla independiente del locutor se utilizó el paquete Sphinx-3 Decoder, el cual utiliza los modelos acústicos y de lenguaje para realizar la decodificación. Los resultados más importantes de este trabajo es la generación de una base de datos que puede ser evaluada en diversas aplicaciones de reconocimiento de habla. Se conoció el funcionamiento y se implementó el sistema de reconocimiento de habla CMU-SPHINX, se aplicaron algoritmos básicos que trae esta herramienta, y se evaluó el reconocimiento de habla continua independiente del locutor, utilizando la base de datos generada en el marco de este Trabajo de Título, logrando tasas de reconocimiento de palabras superior al 96% con los datos utilizados en el entrenamiento y superior al 93% con los datos restantes.