Resolución de problemas de clasificación con datos incompletos mediante redes autoasociativas profundas

SÁNCHEZ MORALES, ADRIÁN

Resolución de problemas de clasificación con datos incompletos mediante redes autoasociativas profundas

SÁNCHEZ MORALES, ADRIÁN

unter der Leitung von:

José Luis Sancho Gómez Doktorvater
Aníbal Ramón Figueiras Vidal Co-Doktorvater/Doktormutter

Universität der Verteidigung: Universidad Politécnica de Cartagena

Fecha de defensa: 31 von Januar von 2020

Gericht:

Emilio Soria Olivas Präsident/in
Juan Morales Sánchez Sekretär
José Manuel Jerez Aragonés Vocal

Fachbereiche:

Tecnologías de la Información y las Comunicaciones

Art: Dissertation

Teseo: 622073 DIALNET Repositorio Digital de la UPCT editor

Zusammenfassung

Resumen de la tesis: Hoy en día, prácticamente todas las aplicaciones en la industria explotan su información histórica para tomar decisiones y de esta forma realizar predicciones, optimizar procesos o simplemente monitorizar activos. Las técnicas de procesado de datos han sido ampliamente estudiadas durante los últimos años debido, entre otras cosas, al crecimiento de aplicaciones basadas en inteligencia artificial. Además, la presencia de valores desconocidos en un conjunto de datos es uno de los problemas ma ́s comunes en estas aplicaciones reales. Ésta es una de las razones por las que en la literatura se han propuesto muchas técnicas basadas en aprendizaje ma ́quina que abordan esta tarea. En la primera parte de este trabajo, se explota la gran capacidad de representación de los Stacked Denoising Autoencoders (SDAE) para obtener un nuevo método de imputación basado en dos ideas diferentes: borrado y compensación. El primer método ha demostrado mejorar los resultados en imputación borrando artificialmente algunas características y usándolas como etiquetas en el entrenamiento de la red. Sin embargo, aunque el borrado es realmente eficiente, puede causar un desbalanceo entre la distribución de los datos de entrenamiento y test. Para solucionar esto, se propone un método de compensación basado en una ligera modificación de la función de error a optimizar. Se realizan experimentos sobre varios conjuntos de datos y se demuestra que el borrado y la compensación no sólo suponen mejoras en imputación en comparación con otras técnicas clásicas, sino también en clasificación. Después, se propone proporcionar más información a un clasificador SDAE para mejorar su rendimiento. Más específicamente, se usa la salida de un clasificador auxiliar para extender la entrada de estas máquinas, y llevar un entrenamiento capa a capa considerando la reconstrucción de la entrada y las etiquetas al mismo tiempo usando una combinación convexa. Esta red es llamada Complete MSDAE (CMSDAE). Se realizan también experimentos para apoyar la efectividad del modelo, demostrando que las máquinas resultantes ofrecen mejores resultados que los métodos estándares en todos los casos, así como reducen la sensibilidad del diseño de parámetros. Finalmente, una vez demostrado que los mencionados clasificadores CMSDAEs ofrecen unos resultados de clasificación que son mejores que los de los propios MSDAEs, se ha investigado si los CMSDAEs pueden mejorar los mecanismos de imputación de los mismos. En la parte final de este trabajo, se consideran dos métodos diferentes de imputación con CMSDAEs. La primera resulta ser un método directo en el que la salida del CMSDAE es simplemente la etiqueta del conjunto. El segundo mecanismo surge a partir de la presencia de las etiquetas en el vector de salida y usa la técnica ampliamente conocida de aprendizaje multitarea (MTL), incluyendo las observaciones como tarea secundaria. Así, los resultados experimentales demuestran que estas estructuras CMSDAE incrementan la calidad de los valores imputados, en particular, en las versiones MTL. http://repositorio.bib.upct.es/dsp