Aprendizaje máquina basado en situaciones de tangencia disjunta
- José Luis Sancho Gómez Directeur
Université de défendre: Universidad Politécnica de Cartagena
Fecha de defensa: 22 octobre 2019
- Sancho Salcedo Sanz President
- Francisco González Serrano Secrétaire
- José Manuel Ferrández Vicente Rapporteur
Type: Thèses
Résumé
Resumen de la tesis: El objetivo de un clasificador es decidir, con el menor error posible, a qué clase pertenece una muestra o patrón. En esta tesis, se presenta una nueva interpretación de los discriminantes lineales, en la que son descritos en términos de situaciones de tangencia disjunta (Disjoint Tangent Configurations, DTC) establecidas entre las superficies elipsoidales de nivel de probabilidad resultantes de la caracterización de las distribuciones de las clases de los datos por sus dos primeros momentos, las medias y las matrices de covarianza. Éste es un marco común que permite el diseño y análisis de distintos discriminantes conocidos a través de una correspondencia analítica con otros métodos: el método paramétrico, que consiste en la minimización de una función de error en un espacio proyectado unidimensional para determinar los parámetros de la expresión matemática del discriminante, e.g., el discriminante lineal de Fisher, el basado en matrices Scatter o el de Bayes, cuya expresión explícita es aún desconocida; y el método de optimización convexa, que consiste en acotar y minimizar la probabilidad de clasificación errónea, e.g., la solución del Hiperplano de Decisión Probabilística Minimax (Minimax Probabilistic Decision Hyperplane, MPDH) proporcionada por la Máquina de Probabilidad Minimax (Minimax Probability Machine, MPM), que minimiza el peor caso o máximo riesgo sobre todas las distribuciones posibles caracterizadas por los mismos primeros dos momentos, lo que es adecuado cuando las distribuciones de las clases de los datos son desconocidas o no reflejan las probabilidades a priori reales. También permite el diseño de nuevos discriminantes, como el Quasi-Bayes, que es una aproximación geométrica del Bayes óptimo con una precisión similar y menor coste computacional, una ventaja general de DTC ya que es un método no iterativo. En la segunda parte de la tesis, las versiones no lineales de los discriminantes lineales DTC se construyen usando Redes de Funciones de Base Radial (Radial Basis Function Networks, RBFN) con núcleos Gaussianos pre-entrenados mediante técnicas de cuantificación vectorial. De esta manera, se transforma el espacio de datos de entrada en un espacio superior con mayor separabilidad lineal en el que se resuelve el problema de clasificación con un discriminante DTC lineal. El discriminante DTC no lineal resultante mantiene las propiedades del discriminante DTC lineal original y permite resolver problemas más complejos con clases que no son linealmente separables. Los experimentos muestran que los DTCs obtienen buenos resultados de precisión con un coste computacional competitivo en términos de tiempo de entrenamiento, debido a que es una solución no iterativa y a la ausencia de parámetros de entrenamiento que necesiten ser ajustados, y de requisitos de memoria en las versiones no lineales, en comparación con las redes de núcleos entrenadas globalmente.