Aprendizaje máquina para imputación y clasificación simultánea de patrones con datos incompletos

GARCÍA LAENCINA, PEDRO JOSÉ

Aprendizaje máquina para imputación y clasificación simultánea de patrones con datos incompletos

GARCÍA LAENCINA, PEDRO JOSÉ

Dirigida por:

José Luis Sancho Gómez Director
Juan Ramón Vidal Romaní Codirector/a

Universidad de defensa: Universidad Politécnica de Cartagena

Fecha de defensa: 21 de junio de 2010

Tribunal:

Alberto Prieto Espinosa Presidente/a
Jerónimo Arenas García Secretario/a
José Manuel Jerez Aragonés Vocal
Damien François Vocal
José Manuel Ferrández Vicente Vocal

Departamento:

Tecnologías de la Información y las Comunicaciones

Tipo: Tesis

Teseo: 305990 DIALNET

Resumen

La clasificación de patrones es una línea de investigación multi-disciplinar aplicada en infinidad de ámbitos científicos, como son las tecnologías de la información y comunicaciones, la medicina, la economía aplicada, la genética, la robótica, y la biología. Un inconveniente muy común es la ausencia de información en el conjunto de patrones que definen el problema de clasificación, es decir, la presencia de "datos incompletos" o "valores perdidos" en los vectores de características de entrada. Si este fenómeno ocurre en ciertas características importantes puede suponer una gran pérdida de información relevante. Además, la ausencia de información puede dificultar en gran medida el diseño del clasificador, ya que la mayoría de los modelos más empleados y las herramientas software que los implementan parten de la suposición de datos completos. En esta Tesis doctoral se han revisado los distintos métodos basados en Aprendizaje Máquina para clasificación de patrones incompletos, destacando la imputación como la solución más extendida en la práctica. La imputación consiste en realizar estimaciones plausibles de los datos incompletos a partir de la información observada. Tras asignar las estimaciones obtenidas a los valores perdidos, se resuelve la tarea de clasificación. Un aspecto muy importante es que la imputación de datos incompletos reconfigura la información disponible de un modo que puede ayudar a mejorar las prestaciones de la etapa de clasificación. Este argumento constituye el fundamento y la principal aportación de esta Tesis doctoral: imputación de datos incompletos orientada a mejorar la clasificación. Las técnicas de imputación de valores perdidos desarrolladas en la literatura han demostrado su utilidad en multitud de aplicaciones; sin embargo, fallan en un propósito de vital importancia: la imputación se lleva a cabo sin considerar que nuestro problema no es simplemente imputar los valores que faltan, sino que es imputar esos valores para conseguir buenas prestaciones en la tarea de clasificación, es decir, mejores decisiones. Para alcanzar tal objetivo, esta Tesis se ha basado en el concepto de sesgo inductivo y "hint". Un "hint" proporciona una nueva información auxiliar en el modelado de una tarea y conlleva la incorporación de un sesgo inductivo a dicho proceso, facilitando la optimización de parámetros del modelo. Siguiendo esta filosofía, se ha propuesto una máquina de aprendizaje multi-tarea que combina la imputación y la clasificación en un solo modelo, proporcionando una estimación de datos incompletos orientada y dirigida por el aprendizaje de la tarea de decisión. Para ello, los atributos incompletos constituyen las tareas secundarias o extra de imputación que son aprendidas simultáneamente con la tarea principal de clasificación mediante una única máquina. Complementariamente, se ha desarrollado una técnica de imputación orientada y dirigida basada en el algoritmo KNN y el uso de la información mutua como "hint" para guiar el proceso de estimación de datos incompletos. El objetivo es calcular los vecinos más cercanos al patrón bajo estudio de tal forma que se encuentren en regiones locales del espacio de entrada que faciliten la clasificación de dicho patrón. La extensión del análisis realizado a problemas de carácter biomédico y a otras aplicaciones reales, así como la exportación de las ideas planteadas a otros modelos de aprendizaje máquina, constituyen las principales líneas futuras de investigación.