Plan du site Aide Abonnement Nous Contacter


Actualité
Editorial
Interviews
Démocratie
Visites virtuelles
Art. Imaginaire
Du côté des labos
Le feuilleton
Manifestations
Biblionet
CD Rom
Echanges
Liens Utiles

 

Accueil > Interviews
Automates Intelligents s'enrichit du logiciel Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront alors définitions, synonymes et expressions constituées de ce mot. Une fenêtre déroulante permet aussi d'accéder à la définition du mot dans une autre langue.
 
Archives
Franck Brancheri
Jean-Pierre Goux
Jean-Claude Lapraz
Jean-Pascal Capp
Henri Boulouet

26 Septembre 2002
propos recueillis par Jean-Paul Baquiast

Michèle Sebag

Responsable de l'Equipe Inférence et Apprentissage - Laboratoire
de Recherche en Informatique de l'Université de Paris-Sud

Michèle Sebag Chargée de recherche au Centre National de la Recherche Scientifique (CNRS),  Michèle Sebag est responsable de l'Equipe Inférence et Apprentissage, au Laboratoire de Recherche en Informatique de l'Université de Paris-Sud.
Membre correspondant de l'Equipe Evolution Artificielle et Apprentissage, Centre de Mathématiques Appliquées de l'Ecole Polytechnique, elle est également correspondante de "OR Problèmes Inverses et Optimisation", Laboratoire de Mécanique des Solides de l'Ecole Polytechnique.
Membre du bureau de l'Association française d'Intelligence Artificielle (AFIA), Michèle Sebag assure
de nombreuses autres tâches d'animation et de publication (voir page personnelle).

Pour en savoir plus
Michèle Sebag. Page personnelle : http://www.lri.fr/~sebag/michele_sebag.fr.html
Le rapport d'activité de l'équipe Inférence et Apprentissage : http://www.lri.fr/~sebag/Rapport_2002.html
Association Française d'Intelligence Artificielle : http://www.afia.polytechnique.fr

Des recherches essentielles à la démocratisation de la bonne gouvernance au 21e siècle

On sait combien les décideurs, qu'ils soient politiques, économiques ou syndicaux, manquent de moyens pour obtenir dans l'océan de plus en plus débordant des informations disponibles, sur le web ou dans les bases de données, les éléments qui leur seraient nécessaires pour prendre de meilleures décisions.
Le problème est encore plus grave concernant les électeurs et citoyens, ballottés entre experts, hommes des médias ou agents de désinformation. Dans ce même numéro de notre revue, nous voyons que Bruno Latour, philosophe et sociologue des sciences, appelle pourtant chacun de ceux qui sont intéressés par une question scientifique, technique ou politique, humains et "non-humains", selon son expression, c'est-à-dire intérêts divers, à se confronter autour de tables de discussion. Pour cela, la bonne volonté ne suffit pas. Il faut des outils, faisant appel à l'intelligence artificielle en réseau.
Nous avons souhaité faire le point des perspectives de ce domaine de recherches et d'applications en interrogeant Michèle Sebag, l'un(e) des meilleur(e)s scientifiques françaises travaillant sur ces questions. Celle-ci nous a reçus à Orsay. Automates-Intelligents

Automates-Intelligents (AI) : Michèle Sebag, pouvez-vous, pour nos lecteurs, rappeler votre cursus universitaire?
Michèle Sebag (MS) : J'ai commencé par faire des mathématiques à l'Ecole Normale Supérieure de Jeunes Filles de Sèvres (l'Ecole Normale Supérieure n'était pas mixte en ces temps anciens). Ensuite, je suis allée dans l'industrie (Thomson-CSF) par curiosité et pour rencontrer des problèmes pratiques. J'ai appris l'informatique en commençant par Fortran, et puis je me suis intéressée à l'intelligence artificielle (IA) et je suis devenue ingénieur-conseil.

AI : Passer des maths à l'informatique n'était pas très courant à l'époque…
MS : Ce qui m'intéressait essentiellement, et m'intéresse toujours, c'est de résoudre des problèmes. Toutes les voies sont bonnes pour trouver une solution ; les maths, bien sûr, mais pas seulement : l'histoire, la biologie sont d'autres voies / modèles / inspirations, utilisables pour résoudre des problèmes.
Une étape importante consiste à analyser les premières solutions trouvées ; comme aux échecs, une fois qu'on a trouvé un bon coup à jouer, il faut voir s'il n'en existe pas de meilleurs.
Cette démarche est en particulier celle de l'intelligence artificielle. J'ai appris l'IA avec Jean-Louis Laurière. Celui-ci était professeur à Paris 6 et enseignait dans le premier DEA en IA, que j'ai suivi. L'IA m'a séduite car c'était une discipline qui faisait autant appel aux sciences qu'aux lettres. Ne plus souffrir du divorce entre les deux disciplines était tout à fait réconfortant.

AI : Quels étaient les thèmes enseignés dans ce DEA ?
MS : Ils intéressaient globalement la résolution de problèmes. Jean-Louis Laurière jetait les bases de ce qui allait devenir la programmation par contraintes. Il y avait le déclaratif et le procédural, le caractère primordial de la représentation d'un problème, l'intérêt porté au parcours dans l'espace de recherche, etc.

A l'époque je n'étais pas dans le monde universitaire. Comme ingénieur-conseil pour Thomson, j'ai commencé à faire de la prospective concernant les applications de l'IA qui pouvaient les intéresser. Ils avaient par exemple à résoudre des problèmes de placement automatique de composants sur des cartes de circuits imprimés, des problèmes de filtrage…Partout, de nouvelles méthodes de résolution de problèmes s'imposaient.

AI : Ceci se situe à quelle époque ?
MS : Vers 1985. A cette date, j'ai rencontré Joseph Zarka, directeur de recherche au CNRS en mécanique à l'Ecole Polytechnique, qui s'intéressait au problème suivant : il avait une bibliothèque d'algorithmes et voulait construire une sur-couche qui, en fonction d'un problème donné, aurait pu choisir automatiquement l'algorithme le plus adapté et son paramétrage. Ceci correspondait parfaitement aux spécifications d'un système-expert. Mais le hic était que les environnements de calcul bougent trop vite pour qu'on ait le temps d'avoir une expertise bien solide, sans parler du temps de la transmettre. On débouchait sur la problématique suivante : puisqu'on n'avait pas les connaissances, il fallait les extraire et pour les extraire, il y avait quelque chose qui coûtait bien moins cher que les règles, c'étaient les exemples. Ceci nous faisait déboucher sur l'apprentissage artificiel, à partir d'exemples.

Vous savez que l'IA s'est d'abord intéressée aux problèmes d'inférence, ce qui coïncidait avec l'ambition de réaliser un Général Problem Solver. Puis, à partir du rapport Dreyfus(1), les gens ont commencé à réaliser que ce qui différencie un novice et un expert, ce n'est pas la capacité de raisonner - les deux cerveaux marchent bien - c'est que l'un a des connaissances et pas l'autre. D'où les systèmes-experts, qui ont représenté la réaction de l'IA à ces critiques.

AI : Les systèmes-experts eux-mêmes ont beaucoup déçu…
MS : Oui, notamment en France. Une des raisons en est qu'on s'est attaqué d'emblée à la reproduction de l'expertise des plus experts - sans réaliser que tout humain accomplissant une tâche est un expert, comparé à la machine.

Ceci dit, en effet, les premières réalisations à grande échelle de systèmes-experts ont fait apparaître une chose plus profonde, tenant à la loi des rendements décroissants : la recherche des connaissances nécessaires pour des problèmes de plus en plus complexes coûtait de plus en plus cher. En bref, les connaissances, on ne les avait pas. Ce que l'on avait, c'était les exemples.
Un nouveau champ d'études, qui s'est révélé très puissant, est apparu : l'apprentissage automatique a pour but d'extraire à partir des exemples les connaissances qui permettront le raisonnement, la déduction, la prise de décisions.

AI : Dans ce cas, l'utilisateur accède au système par l'exemple…il faut trouver l'exemple correspondant au problème que l'on se pose…
MS : Non, pas tout à fait. Ce que vous décrivez là correspond à la façon dont un médecin réalise un diagnostic. Il dispose dans sa tête d'une base de cas, il met en œuvre une fonction de comparaison ou similarité qui lui permet de dire : le cas proche de ce que je cherche est celui-là. Enfin il met en œuvre une fonction d'adaptation, à partir de ce cas, qui lui permet de résoudre le problème précis que lui pose le patient. C'est une des méthodes courantes de résolution de problèmes, appelée raisonnement à partir de Cas.

L'apprentissage est un peu différent. A partir d'une base de cas, comme précédemment, on cherche à trouver des règles qui généralisent les cas. Ce processus de généralisation, aussi appelé induction, permet de détecter et de caractériser des régularités dans les données. Par exemple, dans le cas d'un process industriel, on peut apprendre que si l'acidité est trop élevée (ph < 7.1) et qu'il fait trop chaud (température > 21.5), le processus produit un rebut de type A.
Une base de règles permet de traiter de nouveaux cas. Un autre intérêt de la démarche est qu'elle procure à l'expert une vue intelligible, vue en miroir du processus qu'il observe. Un point clé de l'apprentissage automatique est de donner à l'expert une interprétation des données.

AI : La base de cas, je suppose, se constitue à partir des besoins de la demande. Il n'y a pas de cas définis a priori ?
MS : Oui, en effet. Dans les débuts de l'apprentissage, la question de savoir comment constituer la base de cas et comment le décrire s'inspirait de ce qui se faisait déjà en analyse de données. Mais depuis quelques années, 1998 en fait, d'autres approches appelées "apprentissage actif" sont proposées. L'idée est de chercher à chaque pas les exemples les plus informatifs compte-tenu des connaissances qui ont déjà été acquises. L'apprentissage actif alterne ainsi la recherche des bons exemples, et celles des bonnes règles.

AI : Problème de l'apprentissage, sur lequel vous vous êtes concentrée lors de votre thèse...
MS : Oui. Cette thèse m'a permis de rentrer au CNRS.

AI : Et ensuite ?
MS : Une fois que l'on a résolu le problème d'apprentissage d'un expert, par exemple en trouvant les règles permettant de prédire les défauts, l'expert revient souvent avec un nouveau problème, qui consiste à minimiser le taux de défauts. On passe ainsi d'une problématique d'apprentissage à une problématique d'optimisation. Il y a mille façons de faire de l'optimisation. Je me suis moi-même dirigée vers les méthodes d'optimisation stochastiques, plus particulièrement vers les méthodes de type "algorithmes génétiques" dont Marc Schonauer(2) et Pierre Collet(3) vous ont longuement parlé. Nos profils professionnels sont d'ailleurs proches.

AI : Dans votre domaine, où avez-vous utilisé les algorithmes génétiques
MS : Par exemple pour la conception de formes optimales, l'identification de modèles, etc.
Prenons par exemple le cas d'un nouveau matériau de construction qui apparaît. On a besoin de connaître la loi de comportement de ce matériau pour pouvoir construire des bâtiments suffisamment solides. Le problème direct consiste à déterminer comment le bâtiment réagira (en cas de choc sismique) quand on connait la loi de comportement du matériau.
Mais le problème inverse, celui que nous devons résoudre, consiste à trouver la loi du matériau sachant comment celui-ci réagit à des stimuli. Plus généralement, on a le phénomène physique. On lui fournit des conditions initiales, on observe ce qui se passe et on recherche le modèle.

Les problèmes d'optimisation rencontrés à l'occasion de l'apprentissage sont en général mal posés (i.e. ils ne vérifient pas les bonnes conditions, différentiabilité, convexité... qui permettent d'utiliser des méthodes mathématiques classiques). Dans de tels contextes, les algorithmes génétiques offrent des solutions gourmandes en temps calcul, mais de bonne qualité. Je me suis plus particulièrement intéressée à la programmation génétique, qui étend les algorithmes génétiques dans des espaces plus complexes. L'intérêt de ces espaces plus complexes, c'est que l'on peut plus facilement prendre en compte des connaissances du domaine. Or les connaissances du domaine permettent à l'algorithme de chercher dans un espace de solutions très vaste, et pourtant de ne pas se perdre : l'expert indique, comme il peut, la "région" où se trouvent les bonnes solutions.
La programmation génétique permet ainsi de s'attaquer à des problèmes hors d'atteinte des approches traditionnelles, en restreignant pour rester maniable l'exploration à un espace de taille raisonnable.

La fouille de données (Data Mining)

AI : Où en êtes-vous maintenant ? Quelles sont les grandes activités de l'Equipe Inférence et Apprentissage que vous dirigez ?
MS : Notre premier thème est la fouille de données (Data mining) et l'extraction de connaissances à partir de bases de données. Ce domaine est considéré par le MIT Technology Review comme l'un des dix grands enjeux du siècle qui commence : l'enjeu est de savoir extraire à partir des grandes bases de données médicales, hospitalières, météorologiques, scientifiques, bancaires, marchandes, etc, les connaissances dont nous avons besoin.
Concrètement, la démarche consiste à rassembler, sélectionner, nettoyer, les données d'une base sous forme d'un entrepôt de données. A partir de ces données, on va essayer de constituer des modèles et les présenter aux experts afin de les évaluer et les approfondir, en dialoguant avec ces experts.

La denrée la plus recherchée aujourd'hui sont les connaissances - l'or gris. Or, un des paradoxes de notre époque est d'offrir des expertises de plus en plus spécialisées, mais peu de vue d'ensemble. Considérez l'ensemble des compétences nécessaires pour concevoir un hôpital ; combien d'années d'étude faudrait-il pour s'y connaître en médecine, en biologie, en organisation, en informatique, en transport...
L'idée centrale de la fouille de données, c'est que les connaissances sont présentes à l'état de trace dans les données. Distiller les données permet idéalement de retrouver les lois physiques (données météorologiques), individuelles (données médicales, assurances), ou sociales (données de consommation) des phénomèes étudiés.
En résumé l'objectif de la fouille de données est de fournir aux experts les connaissances utiles et valides cachées dans les données. Le web, par exemple, est un énorme fourre-tout de connaissances. Mais chacune de ces connaissances est inassimilable ou introuvable à moins de connaître déjà 99% de ce que l'on cherche. La fouille de données, qui veut remédier à cette difficulté majeure, repose sur une recherche pluri-disciplinaire, mettant en jeu les bases de données, les statistiques permettant d'identifier certaines régularités des données, l'intelligence artificielle pour prendre en compte les connaissances du domaine disponibles, l'apprentissage pour extraire de nouvelles connaissances, les interfaces hommes-machines pour communiquer autour de ces connaissances et dialoguer...
Il faut abandonner en effet la pensée que le but est d'apporter "la solution finale" à la question de l'utilisateur - ceci ne serait possible que si l'on limitait sévèrement les questions posables. Si l'on veut considérer des questions ouvertes, le dialogue entre l'homme et la machine est absolument nécessaire ; l'objectif de la machine devient ainsi d'apporter des éléments de réponse qui permettent la poursuite du dialogue vers la résolution.

AI : Certes. Mais la démarche, aujourd'hui, n'intéresse que la formation des experts, disons des experts professionnels : comment s'assurer que ces experts, consultés par les pouvoirs économiques ou politiques, disposent des bonnes connaissances, cachées dans les bases de données. Résoudre ce problème sera certes un grand progrès. Il faudrait pourtant que les citoyens, ou les organisations qui les représentent, disposent des mêmes outils pour ne pas rester impuissants dans les combats entre experts.
MS : Effectivement, vous posez là un problème de société. Je vois deux niveaux : quelles sont les questions qui peuvent être posées et qui peut les poser. La ligne d'horizon de notre discipline est évidemment que toutes les questions soient posables (des questions ouvertes) et que tous puissent les poser. Idéalement.
Dans la pratique, c'est beaucoup plus difficile. Une étape préalable, qui est loin d'être résolue, consisterait déjà à savoir dire : il n'y a pas de réponse - il n'y a pas d'information dans ces données.

AI : Cela est très important. Pour parler simple, cela permet d'ouvrir le débat démocratique : ne pas obtenir des réponses déjà conditionnées par la question. Il faut pouvoir poser des questions "irrelevant" (irrecevables) ou "anarchiques", comme disait Paul Feyerabend. Comment faire cela ?
MS : Il y a plusieurs méthodes. Prenons la recherche de textes (la fouille de textes est un domaine très voisin et très différent de la fouille de données) indexés par des mots-clefs. Ceux-ci vous enferment dans une voie de recherche définie à l'avance, qui n'est pas nécessairement celle que vous voudriez explorer. Pour y échapper, on peut identifier les textes par les usages qui en ont été faits : tel utilisateur s'est intéressé à tel et tel documents… on pourra ainsi trouver les documents les plus pertinents à l'objet de telle recherche.

AI : C'est ce que font les libraires en ligne : " Cher M. X. vous serez heureux d'apprendre que les acheteurs du livre qui vous intéresse ont aussi acheté tels ou tels autres ouvrages".
MS : Oui. C'est ce que l'on appelle le filtrage collaboratif ("collaborative filtering").
L'autre solution, connue depuis longtemps, est la recherche en texte intégral. Mais elle pose aussi beaucoup de problèmes. L'un de ceux-ci est celui des co-références, que l'on connaît bien en linguistique automatique : "Le chien a mordu le facteur. Il est emmené chez le vétérinaire". Qui est "il" ?

AI : Quels sont pour votre laboratoire les différents contextes de la fouille de données ?
MS : Nous identifions trois grands domaines qui présentent des difficultés différentes. Le premier est celui des problèmes industriels et scientifiques. Pour les industriels il faut optimiser les coûts. Pour les scientifiques, il faut simplifier la recherche dans les données intermédiaires. Je pense par exemple à un projet phare, qui s'appelle Ski Cat, qui a été réalisé par Fayyad en 1996 à Caltech(4). Il s'agissait de permettre à un laboratoire d'astronomie de trouver le bon endroit où découvrir des étoiles nouvelles dans un espace monstrueusement encombré. Un moteur d'apprentissage formé à partir d'imagettes fournies par des experts a permis d'augmenter par nuit d'observation d'un facteur 40 le nombre d'étoiles découvertes.

Le second domaine est lié aux données institutionnelles, hôpitaux, banques, assurances. Là commencent les questions éthiques, et les données sont confidentielles. Considérons par exemple le fait suivant : aux Etats-Unis, 13% de gens consomment 50% des ressources hospitalières. Pourquoi ? Que se passe-t-il ? Pour comprendre, il faut savoir qui sont ces gens. Mais avant de chercher à les connaitre, il faudrait être sûr de ce qu'on fera quand on les connaitra.
En effet, la connaissance n'est pas réversible : on ne peut plus prétendre qu'on ne sait pas.

AI : Dans ces domaines institutionnels, que connaît bien notre revue, il est impératif, au point de vue de la démocratie dans les choix scientifiques et techniques, que non seulement les détenteurs du pouvoir soient aussi bien informés que possible, en espérant qu'ils feront un bon usage de ces informations, mais aussi, comme je vous le disais précédemment, que les opposants ou alternatifs le soient aussi. Quand on voit par exemple les débats actuels sur la mondialisation, l'environnementalisme, le tiers-monde, on ne peut que regretter l'insuffisance des données et informations dont disposent les militants de terrain, même dans les grandes ONG comme Greenpeace. Nous pensons que des scientifiques tels que vous ont comme devoir de leur dire qu'il existe des outils dont ils pourraient se servir - en leur proposant le cas échéant des formations adéquates…
MS : Je suis pleinement d'accord. Nous avons commencé à discuter à ce sujet avec nos collègues et amis d'autres disciplines, notamment en écologie et océanologie. De quoi ont-ils besoin ? Comment sont leurs données ? Avons-nous un langage commun ? Qu'est-ce que valider une hypothèse ? C'est toujours très long d'établir une collaboration, on commence par proposer un stage de DEA à un étudiant, avec un objectif à court terme (3 à 6 mois), et si ça marche bien, et si on trouve une bourse, on peut embrayer sur une thèse...
Ceci est une offre d'ouverture :-) Les institutions, associations, etc, qui auraient des données et des hypothèses à tester sur ces données - pouvant déboucher sur un travail de recherche - peuvent prendre contact avec l'un des DEA français en Fouille de Données (Orsay, Lyon, Nantes - j'en oublie certainement).
Je pense que travailler sur des problèmes réels est une chance pour faire progresser la discipline - et les étudiants seraient certainement très intéressés par le fait de travailler sur des enjeux de société.

J'en viens au troisième domaine d'applications pour la fouille de données, qui est celui de la gestion de relation avec le consommateur (Consumer Relationship Management CRM). Là l'environnement évolue rapidement, les clients changent très vite de goûts et de désirs. Les objectifs concernent la détection de groupes de consommateurs, leur caractérisation, leur fidélisation...

AI : Vous voulez dire que nous ne sommes pas loin de la mise en condition des consommateurs par les vendeurs, ou pire, de celle des citoyens par les pouvoirs...
MS : Considérez vous que vous êtes mis en condition parce que vous faites partie d'un groupe représentant 10% des clients, ou faites-vous partie de ce groupe parce que vous êtes conditionné ? Non, je ne considère pas que la fouille de données soit un instrument de Big Brother... J'aimerais bien développer ce point mais pas maintenant.

AI : Terminons par deux mots sur votre Equipe Inférence et Apprentissage.
MS : Vos lecteurs trouveront, dans notre rapport d'activité en ligne pour l'année 2001-2002, beaucoup d'éléments d'information. Disons seulement ici qu'il s'agit de la première équipe créée en France dans ce domaine de l'apprentissage symbolique, fondé sur l'inférence et l'IA. Elle a été créée par Yves Kodratoff. Nous avons des étudiants, des thésards (onze), mais pas de post-doc cette année.

AI : Merci de tous ces renseignements. Nous avons consulté votre rapport d'activité(5) et nous le trouvons bien ésotérique pour tout un chacun. Son intérêt "politique" risque d'échapper à pas mal de gens qui n'y verront certainement là que des raffinements de scientifiques dont ils auront peu de choses à tirer. Peut-être faudrait-il développer tout cela par des exemples ?
MS : Merci de cet avis. Vous avez raison, les chercheurs tendent à communiquer avec d'autres chercheurs, et il faut prendre le temps de penser aux autres concitoyens :-)

AI : En ce qui concerne les financements, vous estimez-vous suffisamment pourvus ?
MS : Je dirais surtout que ce qui est catastrophique est la politique des hauts et des bas. On ne peut avoir de politique de recherche sérieuse sans disposer d'une continuité de financement. Il est désolant de voir des étudiants très brillants que nous ne pouvons pas recruter parce que nous n'avons pu prévoir à temps les postes nécessaires.


Notes
(1) Dreyfus Hubert. What computers can't do. A critic of Artificial Reason. N Y Harper and Row 1972.  Ce document a marqué la contre-offensive des détracteurs de l'IA forte, face aux ambitions affichées, auxquels les résultats de l'époque, compte-tenu notamment de la faiblesse en moyens de calculs, ne correspondaient pas. Remonter d'où l'on vient
(2) Voir notre interview du 12 mai 2002 Remonter d'où l'on vient
(3) Voir notre interview du 17 avril 2001 Remonter d'où l'on vient
(4) Usama M. Fayyad. Article http://www.cs.cornell.edu/colloquium/2001fa/fayyad.htm Remonter d'où l'on vient
(5)
http://www.lri.fr/~sebag/Rapport_2002.html Remonter d'où l'on vient



© Automates Intelligents 2002

 





 

 

 

Qui sommes nous ? Partenaires Abonnement Nous Contacter

© Association Automates Intelligents