Thèse de Samah Hijazi: « Élection d’Attributs Basée Marge pour la Classification dans un Contexte Semi-Supervisé »

Thèse soutenue le 20 Décembre 2019

Titre :
Sélection d’Attributs Basée Marge pour la Classification dans un Contexte Semi-Supervisé

Résumé:

Dans le domaine de l’apprentissage automatique, la sélection d’attributs est une étape d’une importance capitale. Elle permet de réduire les coûts de calcul, d’améliorer les performances de la classification et de créer des modèles simples et interprétables. Récemment, l’apprentissage par contraintes de comparaison, un type d’apprentissage semi-supervisé, a suscité un vif intérêt pour la sélection d’attributs. En effet, celui-ci est moins contraignant car il n’impose pas la connaissance des labels des classes. Dans ce contexte semi-supervisé avec contraintes, nous avons proposé un algorithme de sélection d’attributs à large marge appelé Relief-Sc. Il s’agit d’une modification de l’algorithme supervisé Relief. Il utilise uniquement les contraintes de comparaison cannot-links pour résoudre un problème d’optimisation convexe donnant une solution unique.

Les contraintes sont généralement générées aléatoirement, de manière passive et dans certains cas, défavorables aux performances de l’algorithme. Pour cela, nous proposons une méthodologie de sélection active des contraintes suivie d’une étape de propagation des contraintes. Nous avons appliqué la théorie de la perturbation sur la matrice de similarité du graphe Laplacien. Les contraintes cannot-links sont choisies parmi les couples de données ayant le plus d’influence sur la matrice de similarité. La procédure de propagation des contraintes est appliquée pour assurer une augmentation des informations de supervision tout en réduisant l’effort humain. De plus, dans un souci de gestion de la redondance des attributs, nous avons proposé d’étendre l’algorithme Relief-Sc en y intégrant une procédure de classification non supervisée des attributs. Cette approche permet de traiter les deux aspects fondamentaux de la sélection des attributs : maximiser la pertinence tout en minimisant la redondance (maximisation de la diversité) entre les attributs.

Finalement, nous avons validé expérimentalement les algorithmes proposés en les comparants à d’autres algorithmes de sélection d’attributs sur plusieurs bases de données UCI. Nous avons montré qu’avec peu d’information de supervision, les performances des algorithmes proposés sont comparables aux algorithmes de sélection supervisée et supérieures aux algorithmes non supervisés.

Journée du LISIC

La journée commencera par une présentation des salles hébergeant du matériel de recherche Les membres du laboratoire (permanents ou non-permanents) sont sollicités pour proposer un

Aller au contenu principal