Clasificación binaria en problemas desequilibrados mediante equivalencia del cociente de verosimilitudes
- Benítez Buenache, Alexander
- Aníbal Ramón Figueiras Vidal Director/a
Universitat de defensa: Universidad Carlos III de Madrid
Fecha de defensa: 15 de de juliol de 2021
- Javier Martínez Moguerza President/a
- Marcelino Lázaro Secretari/ària
- José Luis Sancho Gómez Vocal
Tipus: Tesi
Resum
Dentro del campo del Aprendizaje Máquina, los Problemas Singulares son aquellos cuyas características pueden comprometer el correcto funcionamiento de máquinas discriminativas convencionales -Perceptrones Multicapa (MLPs), Redes de Funciones Radiales de Base (RBFNs), Máquinas de Vectores Soporte (SVMs) y los correspondientes conjuntos de aprendices-, obteniendo resultados poco satisfactorios. Entre ellos destacan los problemas de clasificación desequilibrada, aquellos en los que existen grandes diferencias en las poblaciones de las clases o/y una política de costes que penaliza en mayor medida la elección de determinadas clases, sesgando la salida de la máquina en favor de las clases predominantes. Por ello, se precisa la aplicación de métodos específicos que compensen el desequilibrio existente, permitiendo la detección de las clases minoritarias, generalmente las de mayor interés. Particularizando para el caso binario, se lleva a cabo un estudio del estado del arte de los métodos de re-equilibrado existentes. La mayoría de las técnicas propuestas son puramente empíricas, sin un análisis completo de las implicaciones estadísticas que tiene su aplicación. A pesar de que su uso puede ofrecer buenos resultados bajo determinadas condiciones, cualquier cambio en dichas condiciones puede producir una degradación en las prestaciones. Por ello, se presenta una metodología fundamentada en la teoría estadística bayesiana con el objetivo de construir soluciones robustas frente a posibles cambios en las condiciones del problema. Esta metodología se basa en el principio de invarianza del cociente de verosimilitudes y la estimación de la Característica de Operación de Neyman-Pearson (NPOC), estableciendo dos condiciones suficientes y necesarias para ello: el uso de divergencias de Bregman como coste subrogado de la máquina de aprendizaje y métodos de re-equilibrado estadísticamente neutrales. Además, se proponen procedimientos fundamentados de clasificación en dos pasos y se describe detalladamente un proceso de diseño óptimo para la resolución de problemas desequilibrados basado en la combinación de métodos de re-equilibrado y la optimización de parámetros. Diversos experimentos avalan la metodología, estudiando sus efectos y posibles limitaciones en problemas reales bajo distintas circunstancias: mayor o menor número de muestras disponibles, presencia de ruido y problemas con un espacio observable de alta dimensionalidad. Por último, se estudia en mayor profundidad el algoritmo SMOTE, uno de los métodos de re-equilibrado más extendidos por la sencillez de su funcionamiento -generación de muestras sintéticas por medio de los vecinos más próximos- y los buenos resultados derivados de su uso. Sin embargo, SMOTE presenta dificultades ante problemas de alta dimensionalidad debido a las estructuras filiformes (en forma de tela de araña) que produce. Por ello, se propone una alternativa, VoluSMOTE, para corregir o atenuar tales efectos a partir de una generación volumétrica de muestras. Son varias y reseñables las contribuciones de esta Tesis en la resolución de problemas de clasificación binaria desequilibrada mediante una metodología fundamentada. Además, sirve como punto de partida de una línea de investigación extensible a otras direcciones como los problemas multiclase, los problemas ordinales, la clasificación con costes funcionales, los problemas multietiqueta o la explicabilidad de decisiones por medio de métodos fundamentados.