Automates
Intelligents s'enrichit du logiciel
Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront
alors définitions, synonymes et expressions constituées
de ce mot. Une fenêtre déroulante permet aussi
d'accéder à la définition du mot dans une
autre langue.
Il
est devenu banal d’envisager que les robots, naviguant sur
le web, puissent apprendre à utiliser tous les documents
écrits dont celui-ci regorge. Cela peut faire peur, car avec
les systèmes automatiques de gestion des connaissances, le
moindre robot pourra devenir infiniment mieux informé que
le mieux informé des humains. Comme l’information contribue
à l’intelligence, celle des robots pourra croître
de façon exponentielle.
Mais
une connection même permanente avec les textes du web ne suffira
pas pour que les robots puissent naviguer efficacement dans notre
monde peuplé d’images, images d’objets ou images
d’êtres vivants. Ils devront apprendre à identifier
ces images, non seulement de façon automatique, sur le mode
déjà connu de la reconnaissance des formes, mais en
découvrant leur « sens », c’est-à-dire
les signification que nous humains attribuons aux objets, les usages
que nous en faisons, les projets que nous nourrissons à leur
égard. Seule la compréhension de ce qu’on appelle
aussi le contenu sémantique des symboles visuels permettra
aux robots de conférer des sens à leurs propres actions
et de devenir des êtres intentionnels autonomes
C’est
ainsi que si le robot ne distingue pas entre l’image d’une
banane en vraie grandeur et celle d’un lampadaire en forme
de banane, il ne pourra pas dialoguer avec un vendeur du rayon fruits
d’un super-marché. Ce vendeur ne s’intéresse
qu’à la première et saura la distinguer immédiatement
de l’objet orné (si l'on peut dire) d’une banane
en plastique vendu par son collègue au rayon Luminaires du
même magasin.
Mais
comment fournir au robot le répertoire d’images lui
permettant d’enrichir son regard et de le charger d’intentionnalités.
La réponse là encore se trouve dans le web. On sait
que les moteurs de recherche fournissent désormais, parallèlement
à la référence aux textes, la référence
aux images, de plus en plus nombreuses, qui accompagnent ces textes.
Mais l’interprétation de ces images n’est pas
immédiate. C’est l’étude des solutions
proposées dans ce but par un certain nombre de laboratoires
qui a fait l’objet du récent Semantic Robot Vision
Challenge SRVC, organisé en juillet 2007 lors de la conférence
annuelle de l’Association Américaine pour l’Intelligence
Artificielle à Vancouver.
Il
est facile de programmer un robot pour lui permettre d’utiliser
une image, par exemple celle d’une banane, afin de reconnaître
une vraie banane dans un environnement réel. A partir de
cette image, il déduira les formes extérieures et
la couleur du fruit qu’il comparera avec les messages reçus
de ses capteurs et provenant de l’objet. Il ne pourra donc
pas confondre la banane avec un autre objet également présent,
par exemple une lampe de chevet en forme de banane.
Mais
si le robot n’a jamais vu d’image de banane auparavant,
comment pourra-t-il identifier une banane réelle ? Comment
la distinguera-t-il, par exemple, non seulement d’une lampe
mais d’une tomate dite banane, elle-même de couleur
jaune (photo ci-contre). Comment, tâche
aussi difficile, pourra-t-il rejeter des images associées
au terme de banane par le web et désignant en fait un objet
tout différent, par exemple un type de costume de bain vendu
sous ce
qualificatif (image: Banana Moon, 2 pièces)
Les humains font facilement ces distinctions car ils associent à
chaque image d’innombrables souvenirs fournissant des informations
permettant de faire la distinction entre des objets relativement
comparables, notamment en fonction de l’usage qu’ils
en font.
Différents
laboratoires construisent actuellement des logiciels permettant
aux robots d’extraire des images du web et de les utiliser
pour donner un sens aux concepts représentés. Les
4 équipes ayant participé au SRVC de Vancouver ont
présenté des solutions voisines. Une liste de 20 objets
(désignés par leur nom) avait été donnée
aux robots. Ces objets étaient physiquement présents
dans un environnement de démonstration de 6 mètre2.
Les robots avaient une heure pour rechercher sur le web les images
correspondant aux mots de la liste et les analyser. Ensuite, ils
devaient retrouver les objets réels correspondant aux mots
et aux images associés.
Un
Challenge couronné de succès
La
première phase du travail consistait à transformer
les centaines d’images obtenues pour chaque mot, par exemple
le mot banane (faites le vous-mêmes sur Google et vous verrez)
en une description permettant de reconnaître la banane réelle
de la salle de démonstration et la distinguer des autres
19 objets présents. Pour cela le logiciel fourni aux robots
leur permettait d’identifier dans les images de banane recueillies
sur le web des formes ou patterns caractéristiques du fruit
en question, afin de les distinguer de formes voisines mais non
caractéristiques. Il fallait à cette fin supposer
que la majorité des images collectées concernait des
bananes et non des tomates, des lampes ou des costumes de bain.
C'est bien sur ce principe que fonctionnent les moteurs. Personne
ne s'étonnera que les textes et images les plus requis par
les internautes et correspondant au mot-clef banane, correspondent
à des bananes-fruits. Une représentation ou image
type pouvait alors être élaborée, servant au
logiciel à éliminer les images s’éloignant
de ce modèle. Inutile de souligner que, même pour une
tâche qui ainsi décrite parait élémentaires,
il faut disposer d’outils de reconnaissance des formes très
performants.
Une
fois équipés de cette image type, le robot prenait
des vues (avec par exemple une caméra stéréo)
des objets de l’espace de démonstration. Il les comparait
avec l’image type et, en cas de ressemblance, déclarait
avoir identifié l’objet cherché. Un robot particulièrement
évolué, baptisé Curious George, put ainsi reconnaître
7 des 20 objets. Les autres obtinrent de moins bons résultats,
en partie parce que leurs capteurs ne leur permettaient pas de différencier
suffisamment les objets observés.
Les
programmes encore primitifs ainsi mis en démonstration s’amélioreront
dans l’avenir en fonction de l’apprentissage qu’en
feront des robots interagissant avec des environnements de plus
en plus riches et appelés à résoudre des problèmes
d’identification de plus en plus complexes. Comme parallèlement
le web s’enrichira, là aussi de façon automatique
accélérée, avec des contenus de plus en plus
significatifs, textes et images, l’avenir de l’intelligence
intentionnelle robotique parait assurée.
On
se demandera quel usage les robots feront des nouvelles capacités
que le traitement des images associées à des concepts
et fournies par le web leur offrira. Les chercheurs voudraient que
des robots domestiques ou industriels ainsi équipés
puissent développer leurs capacités d’identification
des objets dans des environnements réels. Mais au-delà
de ces usages, nous retrouvons la problématique posée
en introduction. Quand les robots seront capables de faire appel
en des temps très courts aux millions de concepts et d’images
fournies par les moteurs de recherche moderne, leurs capacités
de jugement autonomes s’inscriront sur une courbe qui dépassera
rapidement celles des humains. Le web sera devenu un de leur territoire
sémantique et ils ne s’en laisseront peut-être
pas écarter facilement.