Imagen de OpenLibrary

Generación de una base de datos para la evaluación de la tecnología de procesamiento de habla : CMU Sphinx / Pedro Miguel Soto Carrasco ; Profesor guía: César San Martín Salas.

Por:

Soto Carrasco, Pedro Miguel [autor]

Colaborador(es):

Detalles de publicación: Temuco (Chile) : Universidad de La Frontera , 2009Descripción: 60 hojas : tablas, figuras ; 28 cmTema(s):

Recursos en línea:

versión en línea Versión PDF disponible para descarga

Nota de disertación: Trabajo de Titulo (Ingeniero Civil Electrónico).-- Universidad de La Frontera, Facultad de Ingeniería y Ciencias, 2009. Resumen: La voz es uno de los principales canales de comunicación entre los seres humanos, el avance tecnológico y el de las herramientas de procesamiento digital nos han permitido hoy en día la intercomunicación hombre máquina mediante sistemas capaces de realizar el reconocimiento del habla. El objetivo principal de este Trabajo de Título es la generación de una base de datos con locutores locales, que servirá en la evaluación de diferentes aplicaciones como reconocimiento de habla independiente del locutor y reconocimiento del hablante entre otras. Para ello, se realizó una base de datos con 52 locutores, todos de sexo masculino los cuales grabaron un corpus compuesto por frases y palabras aisladas. Este corpus cuenta con 220 elocuciones distintas y con 275 palabras. La base de datos consta con 11.296 archivos de audio los que en conjunto tienen una duración aproximada de 2 horas 5 minutos. Esta base de datos fue validada utilizando una tecnología de procesamiento de habla, CMU-SPHINX, la cual es una de las mejores y más versátiles herramientas de procesamiento de habla hoy en día (Gouvea, 2008). La base de datos fue evaluada en una aplicación de reconocimiento de habla independiente del locutor, para ello, se utilizó la mitad de la base de datos en la etapa de entrenamiento, la que fue realizada usando el paquete SphinxTrain, con el cual se crearon los modelos acústicos, mientras que los modelos de lenguaje fueron creados con la herramienta CMU-Cambridge Statistical Model Language Toolkit. Para la etapa de reconocimiento de habla independiente del locutor se utilizó el paquete Sphinx-3 Decoder, el cual utiliza los modelos acústicos y de lenguaje para realizar la decodificación. Los resultados más importantes de este trabajo es la generación de una base de datos que puede ser evaluada en diversas aplicaciones de reconocimiento de habla. Se conoció el funcionamiento y se implementó el sistema de reconocimiento de habla CMU-SPHINX, se aplicaron algoritmos básicos que trae esta herramienta, y se evaluó el reconocimiento de habla continua independiente del locutor, utilizando la base de datos generada en el marco de este Trabajo de Título, logrando tasas de reconocimiento de palabras superior al 96% con los datos utilizados en el entrenamiento y superior al 93% con los datos restantes.

Existencias ( 1 )
Notas de título ( 5 )

Existencias
Tipo de ítem	Biblioteca actual	Colección	Signatura topográfica	Copia número	Estado	Fecha de vencimiento	Código de barras
Tesis y proyectos de título	Biblioteca Central Estantería	Tesis y trabajos de título	ICE S718g 2009 (Navegar estantería(Abre debajo))	c.1	No para préstamo		35605001922479

Incluye índice de contenidos, índice de tablas, índice de figuras, anexos.

Tesis a texto completo en formato PDF: Biblioteca Digital UFRO

Trabajo de Titulo (Ingeniero Civil Electrónico).-- Universidad de La Frontera, Facultad de Ingeniería y Ciencias, 2009.

Bibliografía: hojas 56-57.

La voz es uno de los principales canales de comunicación entre los seres humanos, el avance tecnológico y el de las herramientas de procesamiento digital nos han permitido hoy en día la intercomunicación hombre máquina mediante sistemas capaces de realizar el reconocimiento del habla. El objetivo principal de este Trabajo de Título es la generación de una base de datos con locutores locales, que servirá en la evaluación de diferentes aplicaciones como reconocimiento de habla independiente del locutor y reconocimiento del hablante entre otras. Para ello, se realizó una base de datos con 52 locutores, todos de sexo masculino los cuales grabaron un corpus compuesto por frases y palabras aisladas. Este corpus cuenta con 220 elocuciones distintas y con 275 palabras. La base de datos consta con 11.296 archivos de audio los que en conjunto tienen una duración aproximada de 2 horas 5 minutos. Esta base de datos fue validada utilizando una tecnología de procesamiento de habla, CMU-SPHINX, la cual es una de las mejores y más versátiles herramientas de procesamiento de habla hoy en día (Gouvea, 2008). La base de datos fue evaluada en una aplicación de reconocimiento de habla independiente del locutor, para ello, se utilizó la mitad de la base de datos en la etapa de entrenamiento, la que fue realizada usando el paquete SphinxTrain, con el cual se crearon los modelos acústicos, mientras que los modelos de lenguaje fueron creados con la herramienta CMU-Cambridge Statistical Model Language Toolkit. Para la etapa de reconocimiento de habla independiente del locutor se utilizó el paquete Sphinx-3 Decoder, el cual utiliza los modelos acústicos y de lenguaje para realizar la decodificación. Los resultados más importantes de este trabajo es la generación de una base de datos que puede ser evaluada en diversas aplicaciones de reconocimiento de habla. Se conoció el funcionamiento y se implementó el sistema de reconocimiento de habla CMU-SPHINX, se aplicaron algoritmos básicos que trae esta herramienta, y se evaluó el reconocimiento de habla continua independiente del locutor, utilizando la base de datos generada en el marco de este Trabajo de Título, logrando tasas de reconocimiento de palabras superior al 96% con los datos utilizados en el entrenamiento y superior al 93% con los datos restantes.