Sistemas bioinspirados de análisis de voz
- ROSIQUE LOPEZ, Lina
- José Luis Ramón García Director/a
Universidad de defensa: Universidad de Murcia
Fecha de defensa: 15 de octubre de 2010
- Carlos Sprekelsen Gassó Presidente/a
- Manuel Canteras Jordana Secretario/a
- Vicente Garcerán Hernández Vocal
- Francisco Argudo Marco Vocal
- José Manuel Ferrández Vicente Vocal
Tipo: Tesis
Resumen
La audición es la capacidad de captar e interpretar el sonido percibiendo las oscilaciones que le llegan desde el exterior a través del oído externo y medio. Nuestro oído realiza a continuación, el análisis de las ondas mediante un sistema de filtros mecánicos y neuronales. En el receptor auditivo la información acústica procedente del exterior se transforma en mensaje neural auditivo que recorre la vía auditiva hasta alcanzar la corteza cerebral. Este complejo sistema es el que permite la capacidad de reconocer sonidos, como puede ser la voz. El reconocimiento automático de locutores se define como el proceso de reconocer, sin intervención de ninguna figura humana, a quién está hablando basándose en características personales incluidas en las señales de voz. La mayoría de las investigaciones que se llevan a cabo hoy en día, tienen como punto de partida la señal de voz como una señal analógica, la cual es digitalizada, procediéndose después a su análisis mediante complicados algoritmos que intentan extraer las características individuales de la voz. Paralelamente, en los últimos años, se han desarrollado una serie de programas informáticos o modelos computacionales, cuya función ha sido la de imitar la fisiología del sistema auditivo, realizando el análisis de las ondas sonoras como lo haría un oído humano. La principal aportación de estos modelos es el procesamiento de las señales acústicas, actuando de manera intermedia entre la experimentación y la teoría. Uno de los modelos estudiados y en el cual se basa nuestra investigación es el banco de filtros Triple Resonancia no Lineal (TRNL), expuesto en el capítulo anterior. Dichos filtros han sido creados por la Unidad de Computación Auditiva y Psicoacústica del Laboratorio de la Universidad de Salamanca, y han sido aplicados a complejos programas computacionales para su uso, siendo el resultado el Modelo Bioinspirado de Oído Interno. El banco de filtros TRNL permite reproducir la respuesta de la membrana basilar de regiones para las cuales se carece de registros experimentales, así como simular la excitación de toda membrana basilar frente a estímulos complejos, imitando en gran manera la función del oído interno humano. Las aplicaciones de estos modelos al campo del reconocimiento de locutores y a la medicina forense, no ha sido realizada hasta el momento, siendo la principal aplicación de estos modelos al campo de la acústica y su uso en prótesis auditivas o implantes cocleares. Es por ello que la realización del siguiente trabajo, presenta importancia, ya que es la primera vez, que se realiza un estudio aplicado al reconocimiento de locutores, utilizando un Modelo Bioinspirado de oído interno, el cual realiza un análisis de la voz, de una forma fisiológica y aproximándose en lo posible a como lo haría el oído humano. En nuestro estudio esperamos aportar una mejora apreciable respecto a los programas de reconocimiento de voz utilizados con anterioridad, convirtiendo al Modelo Bioispirado de Oído Interno en una herramienta útil a la hora de reconocer las voces de una serie de hablantes, siendo capaz de discernir de entre ellas, cuales corresponden a locutores iguales (comparaciones intralocutores) y cuáles de ellas corresponden a diferentes locutores (comparaciones interlocutores). Los resultados obtenidos en el trabajo, se basan en el análisis de las voces de 100 locutores, pertenecientes a la base de datos "Ahumada", y posteriormente mediante métodos estadísticos hemos comprobado su eficacia. Nuestras conclusiones finales están centradas sobre tres variables principales: V20, V25 y V30, las cuales serán representada gráficamente, con estadísticos descriptivos, observando la diferencia entre las comparaciones intralocutores e interlocutores, con una distinción clara de la agrupación de los resultados. Posteriormente y tras la obtención y comparación de la totalidad de los datos, llegamos así a la recta final del trabajo, con la validación del método a estudio con las curvas de rendimiento diagnóstico (COR), y la obtención de la sensibilidad y especificidad del método, el cual se mostró muy satisfactorio, siendo los valores cercanos al 99%.