Automates
Intelligents s'enrichit du logiciel
Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront
alors définitions, synonymes et expressions constituées
de ce mot. Une fenêtre déroulante permet aussi
d'accéder à la définition du mot dans une
autre langue.
26 Septembre 2002
propos
recueillis par Jean-Paul Baquiast
Michèle
Sebag
Responsable de l'Equipe Inférence
et Apprentissage - Laboratoire
de Recherche en Informatique de l'Université de Paris-Sud
Chargée
de recherche au Centre National de la Recherche Scientifique
(CNRS), Michèle Sebag est responsable de l'Equipe
Inférence et Apprentissage, au Laboratoire de Recherche
en Informatique de l'Université de Paris-Sud.
Membre correspondant de l'Equipe Evolution Artificielle et Apprentissage,
Centre de Mathématiques Appliquées de l'Ecole
Polytechnique, elle est également correspondante de "OR
Problèmes Inverses et Optimisation", Laboratoire
de Mécanique des Solides de l'Ecole Polytechnique. Membre
du bureau de l'Association française d'Intelligence Artificielle
(AFIA), Michèle
Sebag assure
de nombreuses autres tâches d'animation et de publication
(voir page personnelle).
Des recherches essentielles à
la démocratisation de la bonne gouvernance au 21e siècle
On
sait combien les décideurs, qu'ils soient politiques, économiques
ou syndicaux, manquent de moyens pour obtenir dans l'océan
de plus en plus débordant des informations disponibles, sur
le web ou dans les bases de données, les éléments
qui leur seraient nécessaires pour prendre de meilleures
décisions.
Le problème est encore plus grave concernant les électeurs
et citoyens, ballottés entre experts, hommes des médias
ou agents de désinformation. Dans ce même numéro
de notre revue, nous voyons que Bruno Latour,
philosophe et sociologue des sciences, appelle pourtant chacun de
ceux qui sont intéressés par une question scientifique,
technique ou politique, humains et "non-humains", selon son expression,
c'est-à-dire intérêts divers, à se confronter
autour de tables de discussion. Pour cela, la bonne volonté
ne suffit pas. Il faut des outils, faisant appel à l'intelligence
artificielle en réseau.
Nous avons souhaité faire le point des perspectives de ce
domaine de recherches et d'applications en interrogeant Michèle
Sebag, l'un(e) des meilleur(e)s scientifiques françaises
travaillant sur ces questions. Celle-ci nous a reçus à Orsay.
Automates-Intelligents
Automates-Intelligents
(AI) : Michèle Sebag, pouvez-vous, pour nos lecteurs, rappeler
votre cursus universitaire? Michèle Sebag (MS) : J'ai commencé par faire
des mathématiques à l'Ecole Normale Supérieure
de Jeunes Filles de Sèvres (l'Ecole Normale Supérieure n'était
pas mixte en ces temps anciens).
Ensuite, je suis allée dans l'industrie (Thomson-CSF)
par curiosité et pour
rencontrer
des problèmes pratiques. J'ai appris l'informatique en commençant
par Fortran, et puis je me suis intéressée à l'intelligence artificielle (IA) et je suis
devenue ingénieur-conseil.
AI : Passer des maths à
l'informatique n'était pas très courant à l'époque MS : Ce qui m'intéressait essentiellement, et m'intéresse
toujours, c'est de résoudre des problèmes. Toutes
les voies sont bonnes pour trouver une solution ; les maths, bien
sûr, mais pas seulement : l'histoire, la biologie sont d'autres
voies / modèles / inspirations, utilisables pour résoudre
des problèmes.
Une étape importante consiste à analyser les premières
solutions trouvées ; comme aux
échecs, une fois qu'on a trouvé un bon coup à jouer, il faut voir
s'il n'en existe pas de meilleurs.
Cette démarche est en particulier celle de l'intelligence artificielle.
J'ai appris l'IA avec Jean-Louis Laurière. Celui-ci était
professeur à Paris 6 et enseignait dans le premier DEA en
IA, que j'ai suivi. L'IA m'a séduite car c'était une
discipline qui faisait autant appel aux sciences qu'aux lettres.
Ne plus souffrir du divorce entre les deux disciplines était
tout à fait réconfortant.
AI : Quels étaient
les thèmes enseignés dans ce DEA ? MS : Ils intéressaient globalement la résolution
de problèmes. Jean-Louis Laurière jetait les bases
de ce qui allait devenir la programmation par contraintes. Il y avait
le déclaratif et le procédural, le caractère
primordial de la représentation d'un problème, l'intérêt
porté au parcours dans l'espace de recherche, etc.
A l'époque je n'étais pas dans le monde
universitaire. Comme ingénieur-conseil pour Thomson, j'ai
commencé à faire de la prospective concernant les
applications de l'IA qui pouvaient les intéresser. Ils avaient
par exemple à résoudre des problèmes de placement
automatique de composants sur des cartes de circuits imprimés,
des problèmes de filtrage Partout, de nouvelles méthodes
de résolution de problèmes s'imposaient.
AI : Ceci se situe à
quelle époque ? MS : Vers 1985. A cette date, j'ai rencontré Joseph
Zarka, directeur de recherche
au CNRS en mécanique à l'Ecole Polytechnique, qui s'intéressait au problème
suivant : il avait une bibliothèque d'algorithmes et voulait
construire une sur-couche qui, en fonction d'un problème
donné, aurait pu choisir automatiquement l'algorithme le plus adapté
et son paramétrage. Ceci correspondait parfaitement aux spécifications
d'un système-expert. Mais le hic était que les environnements
de calcul bougent trop vite pour qu'on ait le temps d'avoir une
expertise bien solide, sans parler du temps de la transmettre. On
débouchait sur la problématique suivante : puisqu'on
n'avait pas les connaissances, il fallait les extraire et pour les
extraire, il y avait quelque chose qui coûtait bien moins
cher que les règles, c'étaient les exemples. Ceci
nous faisait déboucher sur l'apprentissage artificiel, à
partir d'exemples.
Vous savez que l'IA s'est d'abord intéressée
aux problèmes d'inférence, ce qui coïncidait
avec l'ambition de réaliser un Général Problem
Solver. Puis, à partir du rapport Dreyfus(1), les gens ont commencé
à réaliser que ce qui différencie un novice
et un expert, ce n'est pas la capacité de raisonner - les
deux cerveaux marchent bien - c'est que l'un a des connaissances
et pas l'autre. D'où les systèmes-experts, qui ont
représenté la réaction de l'IA à ces
critiques.
AI : Les systèmes-experts
eux-mêmes ont beaucoup déçu MS : Oui, notamment en France. Une des raisons en est qu'on
s'est attaqué d'emblée à la reproduction de
l'expertise des plus experts - sans réaliser que tout humain
accomplissant une tâche est un expert, comparé à
la machine.
Ceci dit, en effet, les premières réalisations
à grande échelle de systèmes-experts ont fait
apparaître une chose plus profonde, tenant à la loi
des rendements décroissants : la recherche des connaissances
nécessaires pour des problèmes de plus en plus complexes
coûtait de plus en plus cher. En bref, les connaissances,
on ne les avait pas. Ce que l'on avait, c'était les exemples.
Un nouveau champ d'études, qui s'est révélé
très puissant, est apparu : l'apprentissage automatique
a pour but d'extraire à partir des exemples les connaissances
qui permettront le raisonnement, la déduction, la prise de
décisions.
AI : Dans ce cas, l'utilisateur
accède au système par l'exemple il faut trouver
l'exemple correspondant au problème que l'on se pose
MS : Non, pas tout à fait. Ce que vous décrivez
là correspond à la façon dont un médecin
réalise un diagnostic. Il dispose dans sa tête d'une
base de cas, il met en uvre une fonction de comparaison ou
similarité qui lui permet de dire : le cas proche de ce que
je cherche est celui-là. Enfin il met en uvre une fonction
d'adaptation, à partir de ce cas, qui lui permet de résoudre
le problème précis que lui pose le patient. C'est
une des méthodes courantes de résolution de problèmes,
appelée raisonnement à partir de Cas.
L'apprentissage est un peu différent. A partir
d'une base de cas, comme précédemment, on cherche
à trouver des règles qui généralisent les cas. Ce
processus de généralisation, aussi appelé induction, permet
de détecter et de caractériser des régularités dans les
données. Par exemple, dans le cas d'un process industriel, on peut apprendre
que si l'acidité est trop élevée (ph < 7.1) et qu'il fait
trop chaud (température > 21.5), le processus produit un rebut de type A.
Une base de règles permet de traiter de nouveaux cas. Un autre
intérêt de la démarche est
qu'elle procure à l'expert une vue intelligible, vue en miroir
du processus qu'il observe. Un point clé de l'apprentissage automatique
est de donner à l'expert une interprétation des données.
AI : La base de cas, je
suppose, se constitue à partir des besoins de la demande.
Il n'y a pas de cas définis a priori ? MS : Oui, en effet. Dans les débuts de l'apprentissage,
la question de savoir comment constituer la base de cas et comment
le décrire s'inspirait de ce qui se faisait déjà
en analyse de données.
Mais depuis quelques années, 1998 en fait, d'autres approches
appelées "apprentissage actif" sont proposées. L'idée est de
chercher à chaque pas les exemples les plus informatifs compte-tenu
des connaissances qui ont déjà été acquises.
L'apprentissage actif alterne ainsi la recherche des bons exemples, et celles des bonnes règles.
AI : Problème de
l'apprentissage, sur lequel vous vous êtes concentrée
lors de votre thèse... MS : Oui. Cette thèse m'a permis de rentrer au CNRS.
AI : Et ensuite ? MS : Une fois que l'on a résolu le problème
d'apprentissage d'un expert, par exemple en trouvant les règles
permettant de prédire les défauts, l'expert revient
souvent avec un nouveau problème, qui consiste à minimiser le taux de défauts.
On passe ainsi d'une problématique d'apprentissage à une problématique d'optimisation. Il y a mille façons
de faire de l'optimisation. Je me suis moi-même dirigée
vers les méthodes d'optimisation stochastiques, plus particulièrement vers les méthodes de type "algorithmes génétiques"
dont Marc Schonauer(2)
et Pierre Collet(3) vous ont longuement parlé.
Nos profils professionnels sont d'ailleurs proches.
AI : Dans votre domaine,
où avez-vous utilisé les algorithmes génétiques
MS : Par exemple pour la conception de formes
optimales, l'identification de modèles, etc.
Prenons par exemple le cas d'un nouveau matériau de construction
qui apparaît. On a besoin de connaître la loi de comportement
de ce matériau pour pouvoir construire des bâtiments
suffisamment solides. Le problème direct consiste
à déterminer comment le bâtiment réagira
(en cas de choc sismique) quand on connait la loi de comportement
du matériau.
Mais le problème inverse, celui que nous devons résoudre, consiste
à trouver la loi du matériau sachant comment celui-ci réagit à
des stimuli. Plus généralement,
on a le phénomène physique. On lui fournit des conditions
initiales, on observe ce qui se passe et on recherche le modèle.
Les problèmes d'optimisation rencontrés
à l'occasion de l'apprentissage sont en général
mal posés (i.e. ils ne vérifient pas les bonnes conditions,
différentiabilité, convexité... qui permettent
d'utiliser des méthodes mathématiques classiques).
Dans de tels contextes, les algorithmes génétiques
offrent des solutions gourmandes en temps calcul, mais de bonne
qualité. Je me suis plus particulièrement intéressée
à la programmation génétique, qui étend
les algorithmes génétiques dans des espaces plus complexes.
L'intérêt de ces espaces plus complexes, c'est que
l'on peut plus facilement prendre en compte des connaissances du
domaine. Or les connaissances du domaine permettent à l'algorithme
de chercher dans un espace de solutions très vaste, et pourtant
de ne pas se perdre : l'expert indique, comme il peut, la "région"
où se trouvent les bonnes solutions.
La programmation génétique
permet ainsi de s'attaquer à des problèmes hors d'atteinte
des approches traditionnelles, en restreignant pour rester maniable
l'exploration à un espace de taille raisonnable.
La fouille de données (Data Mining)
AI : Où en êtes-vous
maintenant ? Quelles sont les grandes activités de l'Equipe
Inférence et Apprentissage que vous dirigez ? MS : Notre premier thème est la fouille
de données (Data mining) et l'extraction de connaissances à partir
de bases de données. Ce domaine est considéré
par le MIT Technology Review comme l'un des dix grands enjeux
du siècle qui commence : l'enjeu est de savoir extraire
à partir des grandes bases de données médicales, hospitalières,
météorologiques, scientifiques, bancaires, marchandes, etc, les connaissances
dont nous avons besoin.
Concrètement, la démarche consiste à rassembler, sélectionner,
nettoyer, les données d'une base sous forme d'un entrepôt de données.
A partir de ces données,
on va essayer de constituer des modèles et les présenter
aux experts afin de les évaluer et les approfondir, en dialoguant
avec ces experts.
La denrée la plus recherchée aujourd'hui
sont les connaissances - l'or gris. Or, un des paradoxes de notre
époque est d'offrir des expertises de plus en plus spécialisées,
mais peu de vue d'ensemble. Considérez l'ensemble des compétences
nécessaires pour concevoir un hôpital ; combien d'années
d'étude faudrait-il pour s'y connaître en médecine,
en biologie, en organisation, en informatique, en transport...
L'idée centrale de la fouille de données, c'est que les connaissances sont
présentes à l'état de trace dans les données. Distiller les
données permet idéalement de retrouver les lois physiques (données
météorologiques), individuelles (données médicales, assurances),
ou sociales (données de consommation) des phénomèes étudiés.
En résumé
l'objectif de la fouille de données est de fournir aux experts
les connaissances utiles et valides cachées dans les données.
Le web, par exemple, est un énorme fourre-tout de connaissances.
Mais chacune de ces connaissances est inassimilable ou introuvable
à moins de connaître déjà 99% de ce que
l'on cherche. La fouille de données, qui veut remédier
à cette difficulté majeure, repose sur une recherche pluri-disciplinaire, mettant en jeu les bases de données, les statistiques permettant d'identifier
certaines régularités des données, l'intelligence artificielle
pour prendre en compte les connaissances du domaine disponibles, l'apprentissage pour
extraire de nouvelles connaissances, les interfaces hommes-machines pour communiquer
autour de ces connaissances et dialoguer...
Il faut abandonner en effet la pensée que le but est d'apporter "la solution
finale" à la question de l'utilisateur - ceci ne serait possible que si l'on
limitait sévèrement les questions posables. Si l'on veut considérer des
questions ouvertes, le dialogue entre l'homme et la machine est absolument nécessaire ;
l'objectif de la machine devient ainsi d'apporter des éléments de réponse
qui permettent la poursuite du dialogue vers la résolution.
AI : Certes. Mais la démarche,
aujourd'hui, n'intéresse que la formation des experts, disons
des experts professionnels : comment s'assurer que ces experts,
consultés par les pouvoirs économiques ou politiques,
disposent des bonnes connaissances, cachées dans les bases
de données. Résoudre ce problème sera certes
un grand progrès. Il faudrait pourtant que les citoyens,
ou les organisations qui les représentent, disposent des
mêmes outils pour ne pas rester impuissants dans les combats
entre experts. MS : Effectivement, vous posez là un problème
de société. Je vois deux niveaux : quelles sont les questions
qui peuvent être posées et qui peut les poser. La ligne d'horizon
de notre discipline est évidemment que toutes les questions soient
posables (des questions ouvertes) et que tous puissent les poser. Idéalement.
Dans la pratique, c'est beaucoup plus difficile. Une étape préalable, qui
est loin d'être résolue, consisterait déjà à
savoir dire : il n'y a pas de réponse - il n'y a pas d'information dans ces
données.
AI : Cela est très
important. Pour parler simple, cela permet d'ouvrir le débat
démocratique : ne pas obtenir des réponses déjà
conditionnées par la question. Il faut pouvoir poser des
questions "irrelevant" (irrecevables) ou "anarchiques", comme disait
Paul Feyerabend. Comment faire cela ? MS : Il y a plusieurs méthodes. Prenons la recherche
de textes (la fouille de textes est un domaine très voisin
et très différent
de la fouille
de données) indexés par des mots-clefs. Ceux-ci vous
enferment dans une voie de recherche définie à l'avance,
qui n'est pas nécessairement celle que vous voudriez explorer.
Pour y échapper, on peut identifier les textes par les usages
qui en ont été faits : tel utilisateur s'est intéressé
à tel et tel documents on pourra ainsi trouver les
documents les plus pertinents à l'objet de telle recherche.
AI : C'est ce que font
les libraires en ligne : " Cher M. X. vous serez heureux d'apprendre
que les acheteurs du livre qui vous intéresse ont aussi acheté
tels ou tels autres ouvrages". MS : Oui. C'est ce que l'on appelle le filtrage
collaboratif ("collaborative filtering").
L'autre solution, connue depuis longtemps, est la recherche en texte
intégral. Mais elle pose aussi beaucoup de problèmes.
L'un de ceux-ci est celui des co-références, que l'on
connaît bien en linguistique automatique : "Le chien a mordu
le facteur. Il est emmené chez le vétérinaire".
Qui est "il" ?
AI : Quels sont pour votre
laboratoire les différents contextes de la fouille de données
? MS : Nous identifions trois grands domaines qui présentent
des difficultés différentes. Le premier est celui
des problèmes industriels et scientifiques. Pour les industriels
il faut optimiser les coûts. Pour les scientifiques, il faut
simplifier la recherche dans les données intermédiaires.
Je pense par exemple à un projet phare, qui s'appelle Ski
Cat, qui a été réalisé par Fayyad
en 1996 à Caltech(4).
Il s'agissait de permettre à un laboratoire d'astronomie
de trouver le bon endroit où découvrir des étoiles
nouvelles dans un espace monstrueusement encombré. Un moteur
d'apprentissage formé à partir d'imagettes fournies
par des experts a permis d'augmenter par nuit d'observation d'un
facteur 40 le nombre d'étoiles découvertes.
Le second domaine est lié aux données
institutionnelles, hôpitaux, banques, assurances. Là
commencent les questions éthiques, et les données
sont confidentielles. Considérons par exemple le fait suivant
: aux Etats-Unis, 13% de gens consomment 50% des ressources hospitalières.
Pourquoi ? Que se passe-t-il ? Pour comprendre, il faut savoir qui
sont ces gens. Mais avant de chercher à les connaitre, il
faudrait être sûr de ce qu'on fera quand on les connaitra.
En effet, la connaissance n'est pas réversible : on ne peut plus
prétendre qu'on ne sait pas.
AI : Dans ces domaines
institutionnels, que connaît bien notre revue, il est impératif,
au point de vue de la démocratie dans les choix scientifiques
et techniques, que non seulement les détenteurs du pouvoir
soient aussi bien informés que possible, en espérant
qu'ils feront un bon usage de ces informations, mais aussi, comme
je vous le disais précédemment, que les opposants
ou alternatifs le soient aussi. Quand on voit par exemple les débats
actuels sur la mondialisation, l'environnementalisme, le tiers-monde,
on ne peut que regretter l'insuffisance des données et informations
dont disposent les militants de terrain, même dans les grandes
ONG comme Greenpeace. Nous pensons que des scientifiques tels que
vous ont comme devoir de leur dire qu'il existe des outils dont
ils pourraient se servir - en leur proposant le cas échéant
des formations adéquates MS : Je suis pleinement d'accord. Nous avons commencé
à discuter à ce sujet avec nos collègues et
amis d'autres disciplines, notamment en écologie et océanologie.
De quoi ont-ils besoin ? Comment sont leurs données ? Avons-nous
un langage commun ? Qu'est-ce que valider une hypothèse ?
C'est toujours très long d'établir une collaboration,
on commence par proposer un stage de DEA à un étudiant,
avec un objectif à court terme (3 à 6 mois), et si
ça marche bien, et si on trouve une bourse, on peut embrayer
sur une thèse...
Ceci est une offre d'ouverture :-) Les institutions, associations,
etc, qui auraient des données et des hypothèses à tester
sur ces données - pouvant déboucher sur un travail de recherche -
peuvent prendre contact avec l'un des DEA français
en Fouille de Données (Orsay, Lyon, Nantes - j'en oublie certainement).
Je pense que travailler sur des problèmes réels est une chance
pour faire progresser la discipline - et les étudiants seraient certainement
très intéressés par le fait de travailler sur des enjeux
de société.
J'en viens au troisième domaine d'applications
pour la fouille de données, qui est celui de la gestion de relation avec
le consommateur (Consumer Relationship Management CRM). Là l'environnement
évolue rapidement, les clients changent très vite
de goûts et de désirs. Les objectifs concernent la détection
de groupes de consommateurs, leur caractérisation, leur fidélisation...
AI : Vous voulez dire que
nous ne sommes pas loin de la mise en condition des consommateurs
par les vendeurs, ou pire, de celle des citoyens par les pouvoirs...
MS : Considérez vous que vous êtes mis en
condition parce que vous faites partie d'un groupe représentant 10% des
clients, ou faites-vous partie de ce groupe parce que vous êtes
conditionné ? Non, je ne considère pas que la fouille de données
soit un instrument de Big Brother... J'aimerais bien développer
ce point mais pas maintenant.
AI : Terminons par deux
mots sur votre Equipe Inférence et Apprentissage. MS : Vos lecteurs trouveront, dans notre rapport d'activité
en ligne pour l'année 2001-2002, beaucoup d'éléments
d'information. Disons seulement ici qu'il s'agit de la première
équipe créée en France dans ce domaine de l'apprentissage
symbolique, fondé sur l'inférence et l'IA. Elle a
été créée par Yves Kodratoff. Nous avons
des étudiants, des thésards (onze), mais pas de post-doc
cette année.
AI : Merci de tous ces
renseignements. Nous avons consulté votre rapport d'activité(5)
et nous le trouvons bien ésotérique pour
tout un chacun. Son intérêt "politique" risque d'échapper
à pas mal de gens qui n'y verront certainement là
que des raffinements de scientifiques dont ils auront peu de choses
à tirer. Peut-être faudrait-il développer tout
cela par des exemples ? MS : Merci de cet avis. Vous avez raison, les chercheurs
tendent à communiquer avec d'autres chercheurs, et il faut prendre le
temps de penser aux autres concitoyens :-)
AI : En ce qui concerne
les financements, vous estimez-vous suffisamment pourvus ? MS : Je dirais surtout que ce qui est catastrophique est
la politique des hauts et des bas. On ne peut avoir de politique
de recherche sérieuse sans disposer d'une continuité
de financement. Il est désolant de voir des étudiants
très brillants que nous ne pouvons pas recruter parce que
nous n'avons pu prévoir à temps les postes nécessaires.