Automates
Intelligents utilise le logiciel
Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront
alors définitions, synonymes et expressions constituées
de ce mot. Une fenêtre déroulante permet aussi
d'accéder à la définition du mot dans une
autre langue.
Depuis
1998, les spécialistes de l'Internet développent,
au sein du World Wide Web Consortium, qui est en quelque sorte l'Académie
des Sciences et le bureau d'étude du Web, un nouveau concept
intitulé le Web Sémantique. L'inventeur du Web, anobli
par la Reine d'Angleterre, Sir Tim Berners-Lee (photo ci-dessus),
qui est actuellement directeur du W3C, a rappelé plusieurs
fois ces temps-ci, dans la presse et lors de la dernière
conférence WWW2006 à Edimbourg (http://www2006.org/),
l'intérêt du Web Sémantique en vue de conserver
le caractère ouvert et démocratique du réseau
mondial.
Peu d'utilisateurs de l'Internet perçoivent encore clairement
ce qu'est le Web Sémantique. Pour tout savoir sur le sujet,
le mieux est de se reporter aux pages que lui consacre le W3C (http://www.w3.org/2001/sw/).
Résumons cependant de quoi il s'agit. Le Web ordinaire, celui
sur lequel le présent article est publié et rendu
accessible au profit de tous les internautes, fait coexister et
rend accessibles des milliards de documents. Notre article est un
document. Les moteurs de recherche savent retrouver un document,
à partir soit de méta-données le décrivant
(nom de l'auteur, date, sujet abordé) soit par des recherches
en texte intégral, pour lesquelles tous les mots de l'article,
c'est-à-dire ses données, pourront être considérés
comme des mots-clefs. Mais méta-données ou données
d'indexation sont encore difficiles à rassembler. Les recherches
en texte intégral pour leur part, restent coûteuses
et ne peuvent actuellement être généralisées.
Aussi,
les moteurs de recherche, pour le moment encore, ne savent pas comment
traiter les données internes à un grand nombre d'articles,
sans accéder directement aux documents qui les contiennent.
Si je recherche le terme Semantic Web sur un moteur, j'aurai une
liste très grande (trop grande) de documents abordant le
thème du Semantic Web. Mais je ne pourrai pas savoir précisément
comment le sujet est traité dans la littérature qui
lui est consacrée. Je ne pourrai pas, par exemple, savoir
si le Semantic Web est considéré par les auteurs comme
un progrès important, une complication inutile ou bien encore
une menace pour les libertés publiques.
La
raison de cette impossibilité tient au fait que les auteurs
des articles ne se sont pas mis d'accord sur un sens commun à
donner aux termes, c'est-à-dire aux données, qu'ils
utilisent. On retrouve là l'ambiguïté propre
à tous les langages humains et à tous les documents
faisant appel à ces langages.
Cependant,
dans le domaine de la gestion administrative, bien avant l'apparition
du concept de Semantic Web, il avait été décidé
de chasser cette ambiguïté en convenant de significations
communes à donner à un certain nombre de documents
et d'informations échangées. On a commencé
à définir des méta-données administratives
et commerciales en grand nombre (voir http://www.w3.org/Metadata/).
Des méta-données ont également été
développées pour faciliter la documentation automatique.
Par exemple, aujourd'hui, une codification commune décrit
l'auteur d'un document, sa date, sa nature et, très sommairement,
son objet. Les éditeurs html que nous utilisons tous pour
préparer un article destiné à une mise en ligne
permettent aux auteurs, notamment à travers la rubrique Propriétés
de la page, de préciser ces données. Si les auteurs
ne le font pas spontanément, l'éditeur extrait du
texte un certain nombre de ces méta-données qui seront
édités dans l'en-tête du code source du document.
Ces
conventions ont permis le traitement automatique à grande
échelle des documents respectant ces standards, en accédant
directement aux données qu'ils contiennent. Ainsi, en rapprochant
par une simple application informatique des milliers de déclarations
en douanes utilisant la nomenclature douanière internationale,
il est possible de faire une étude sur les grands courants
d'échange intéressant, par exemple, les produits pétroliers
et dérivés.
Le
Web Sémantique en pratique
L'ambition
du Web Sémantique est de rendre ce processus applicable au
plus grand nombre possible de documents administratifs ou commerciaux,
voire à des documents de type «littéraire»
tel que le présent article. Mais pour cela, il faudra que
les architectes du Web proposent un cadre commun permettant aux
informations contenues dans ces documents d'être traitées
comme des données (data) normalisées. Ainsi ces données
pourront être partagées et réutilisées
indépendamment des applications, des entreprises et des communautés
d'auteurs qui les auront générées. Il faudra
ensuite que les auteurs acceptent de n'utiliser que des données
ainsi normalisées. Ceci réduira leur liberté
de création mais facilitera la circulation de leurs productions.
Le
travail à faire sera considérable. Il faudra notamment
définir, thèmes par thèmes et de façon
coopérative, un cadre commun de description des ressources
(Resource Description Framework ou RDF)
qui utilisera évidemment les acquis syntaxiques (langage
XML) ou d'adressage (URL) déjà offerts par le web.
Les informations elles-mêmes seront progressivement normalisées
à travers le Web Ontology Language (OWL).
Par ontologie, on désigne le sens à donner à
tel ou tel concept. Il conviendra évidemment de s'accorder
sur des sens communs devant être attribués aux concepts
que l'on utilisera.
" Le Web sémantique est un
web de données. De nombreuses données que nous utilisons
tous les jours sont présentes sur l'Internet mais ne sont
pas accessibles aux échanges (le Web proprement dit). C'est
le cas de mon compte en banque, de mes photographies, de mes dates
de rendez-vous. Mais je ne peux pas les rapprocher pour connaître
par exemple ce que je faisais le jour où j'ai été
photographié, ni l'état de mon compte en banque ce
jour-là. Pourquoi ne peut-on pas le faire ? Parce que les
données sont encapsulées dans des applications et
que les applications ne sont pas conçues pour les échanger.
Le Web Sémantique porte sur deux choses. Il définit
des formats communs pour l'échange des données, alors
que le Web traditionnel ne définit que les modalités
d'échange des documents. Par ailleurs, il offre un langage
commun permettant aux données de renvoyer à des objets
du monde réel d'une façon identique. Ceci permet à
une personne ou à une machine de construire des bases de
données puis des réseaux de bases de données
qui ne seront pas connectée par des liens physiques mais
par le fait qu'elles désignent des objets identiques".
Ainsi, si je veux construire une base de données sur les
automobiles, je ne serai pas obligé de me connecter physiquement
à des documents concernant des automobiles que j'aurai du
identifier et trouver auparavant. Il me suffira de rechercher les
données par lesquels les auteurs auront convenu de désigner
de façon normalisée le concept d'automobile, ceci
quel que soit le document ou l'application support de l'information.
Applications possibles du Web
Sémantique
Tout ceci, on le voit, est plus facile à dire qu'à
faire. Quand on connaît la lourdeur et le coût des travaux
de normalisation des données, tels que ceux entrepris au
plan international par l'Edifact Board concernant les données
administratives et commerciales, on peut se demander si étendre
l'ambition au traitement de données plus générales
sera utile. Ceci d'autant plus que ce ne seront pas seulement les
normalisateurs qui devront travailler, afin notamment d'affiner
ou de faire évoluer constamment les normes, mais les auteurs.
Ceux-ci devront connaître les normes à utiliser et
s'efforcer de les respecter du mieux possible, si du moins ils veulent
être compris par les machines qui interpréteront leurs
créations.
Pour Tim Berners-Lee, qui est un idéaliste, l'enjeu mérite
l'investissement. Dans les articles et interventions que nous avons
évoqués, il explique que le Web Sémantique
constitue aujourd'hui la seule façon de sauvegarder l'universalisme
et la gratuité d'accès aux informations qui a fait
et continue à faire la grandeur du Web. En effet, aujourd'hui,
de nombreuses entreprises cherchent à rendre propriétaire
et payant l'accès à leurs contenus. Or, la philosophie
de l'Internet repose sur le concept de neutralité du réseau.
Chacun a le même niveau d'accès aux contenus et toutes
les données figurant sur le web doivent être traitées
de façon égale. Microsoft et Google, c'est à
noter, se sont prononcés publiquement pour la défense
de cette philosophie. Mais des compagnies de téléphone
américaines en ont pris récemment le contre-pied.
Elles veulent définir un Internet partagé (two-tier
system) où les émissions des entreprises capables
de s'offrir des voies de communication large bande auront priorité
sur les autres. Ceci est recherché, actuellement, dans la
perspective de la diffusion des shows télévisuels,
très gourmands en bande passante. Mais l'idée devrait
être étendue et généralisée à
tous usages. Avec le Web Sémantique, cette facturation du
temps d'accès en fonction du débit deviendrait impossible
ou très difficile, puisque ce seraient les données
elles-mêmes qui feraient l'objet des échanges, sans
références à leurs auteurs ni à ceux
qui les utilisent.
Pour Sir Tim, le seul modèle acceptable reste donc celui
où tous les fournisseurs de contenus payent tous le même
tarif pour accéder au réseau et pour y diffuser leurs
données. Ainsi les universités et les associations
ne sont pas défavorisées par rapport aux grosses entreprises,
ni en ce qui concerne les facturations ni en ce qui concerne les
conditions de connexion. D'où le rôle éminent
vertueux que jouera le Web Sémantique.
Les utilisateurs que nous sommes peuvent cependant s'interroger
sur l'intérêt qu'ils trouveront à se couler
dans les lourdes procédures du Web Sémantique, indépendamment
du fait que celui-ci permettra de décourager la segmentation
des réseaux et des tarifications en fonction des capacités
financières des clients. Pour notre part, nous nous sommes
posés la question, en tant qu'éditeur d'une revue
scientifique en ligne fonctionnant sur le mode de l'open source.
Nos textes sont accessibles gratuitement à tous. Les lecteurs
ayant accepté de louer des connections à large bande
les reçoivent plus vite que les autres, mais l'égalité
entre eux, à ce détail près (dont nous ne tirons
aucun profit) reste entière. Pourquoi alors nous engagerions-nous
dans la définition coopérative de normes décrivant
les données que nous utilisons, ou dans la procédure,
si ces normes existent déjà, visant à les implémenter
dans les codes sources de nos articles ?
La réponse est que cette contrainte nous permettrait d'assurer
une meilleure diffusion de nos articles ou, au-delà de ceux-ci,
de nos idées. Nous retrouverions là, considérablement
augmenté, l'avantage qu'offrent depuis quelques années
les moteurs de recherche. Ceux-ci, en associant sur une base désormais
très large les réponses aux questions, permettent
à de très nombreuses personnes qui ne connaissaient
pas notre publication de la découvrir, à propos de
la référence aux articles portant sur tel ou tel concept
précis que nous aurions traité : par exemple celui
de centrale nucléaire à eau pressurisée (PWR).
Dans la perspective élargie du Web Sémantique, ce
ne serait plus seulement notre article qui serait référencé,
mais le sens que nous aurions donné au concept de PWR, par
comparaison avec de nombreux autres articles traitant du sujet.
Ainsi, un internaute cherchant à se documenter sur le concept
pourrait trouver, grâce au travail de rapprochement fait par
l'ordinateur, une vision contrasté du problème des
centrales PWR, résultant du rapprochement des sens différents
donnés par des auteurs différents.
La perspective reste encore lointaine, s'agissant de journaux comme
le nôtre traitant un grand nombre de sujets différents.
En revanche, dans l'immédiat, nous pensons que le Web sémantique
pourrait être utilisé au sein de l'Education Nationale,
par exemple pour mieux informer les élèves de l'existence
des nombreux documents pédagogiques en ligne et des modes
d'accès à ces documents désormais mis à
leur disposition par les académies ou les établissements.
Le Web sémantique pourrait ainsi devenir le complément
des «portails élèves» ou des «portails
étudiants» qui, au cœur de réseaux de type
Intranet, s'efforcent de faciliter l'accès des élèves
aux ressources pédagogiques. La charge supplémentaire
imposée aux auteurs qui se verraient obligés de participer
aux travaux d'indexation et de normalisation ne serait pas excessive.
Elle ferait en tous cas partie de leur métier d'enseignant.
D'ores et déjà, le Web sémantique est très
apprécié par les chercheurs scientifiques, au niveau
de l'enseignement supérieur, qui peuvent accéder grâce
à lui à de nombreuses données expérimentales,
afin de les analyser automatiquement.
Mises en garde
Mais, contrairement à ce que pense Tim Berners-Lee, le Web
Sémantique ne risque-t-il pas de se révéler
un nouvel instrument permettant aux pouvoirs de police de pénétrer
dans l'intimité des comportements et des pensées des
citoyens ? Dans un article intitulé « Keep out of MySpace
» (N° 30 du 10 juin 2006, p. 30) le NewScientist britannique
dénonce le fait que la National Security Agency des Etats-Unis
finance des recherches visant à recueillir les données
personnelles que les individus publient sur eux-mêmes ou rassemblent,
au sein d'espace de documentation qui leur sont offerts à
cette fin par des sociétés de service. C'est le cas
de MySpace (http://www.myspace.com/),
espace de rencontre et de convivialité qui avait été
patronné par Microsoft, où les abonnés sont
invités à donner beaucoup d'informations les concernant
afin de favoriser l'établissement de liens sociaux avec d'autres.
Il existe de très nombreux autres sites ludiques où
chacun est obligé pour participer de se raconter et de rapporter
les comportements et préférences de leurs amis. Par
ailleurs, les blogs personnels se multiplient, dont les auteurs
n'hésitent pas à se dévoiler ou à dévoiler
la vie privée de leurs relations. Les images et photographies
personnelles y abondent également.
La NSA espère que le développement du Web Sémantique
au sein de ces espaces permettra de rapprocher facilement ces informations
personnelles avec d'autres, bancaires, de santé, administratives
ou d'achat. Ainsi pourraient être mis en évidence,
sans que les intéressés s'en aperçoivent, les
profils et donc les personnes qu'à tort ou à raison,
les autorités de police jugeraient suspectes. On serait loin
alors du scandale provoqué par le fait que la NSA se soit
procuré ces derniers mois, via les opérateurs de télécommunication,
les contenus des conversations téléphoniques d'un
certain nombre d'individus a priori honorables suspectés
de pouvoir éventuellement monter des réseaux terroristes.
La NSA et autres agences d''intelligence", c'est-à-dire
d'espionnage, pourraient pénêtrer partout à
l'insu des citoyens.
Les interconnections sont actuellement difficiles, mais avec le
Web Sémantique, les liens apparaîtront d'eux-mêmes,
à travers des applications visant à rapprocher les
données (data) sans difficulté. En effet, le Resource
Description Network précité visera à conférer
à chaque type de donnée une identification (tag) unique,
prédéfinie et non ambiguë. Les services d'intelligence
économique, d'espionnage et de contre-espionnage seront les
premiers à en profiter, car ils se seront les premiers dotés
des outils permettant de le faire. Il est significatif de constater,
comme l'indique le NewScientist, qu'un article intitulé Semantic
Analytics on Social Networks, présenté au dernier
WWW2006 d'Edimbourg par des universitaires américains, avait
été en partie financé par une organisation
jusque là inconnue intitulée ARDA. ARDA, qui ressemble
étrangement à DARPA, signifie Advanced Research
Development Activity. Elle est budgétée par la
NSA pour résoudre certains des problèmes que rencontre
la communauté du Renseignement aux Etats-Unis. On ne saurait
être plus explicite.
Ces
jours-ci, l'ARDA a été rebaptisée Disruptive
Technology Office (voir Wikipedia : http://en.wikipedia.org/wiki/Disruptive_Technologies_Office).
Mais sa mission reste la même: faire du «profiling»
à partir de systèmes d'espionnage (intelligence) automatisés.
Les 80 millions d'abonnés des actuels sites du genre de MySpace
auront tout intérêt à se méfier de ce
qu'ils publieront sur eux-mêmes, en s'imaginant que ces détails
intimes n'intéresseront jamais personne que leurs proches.
Voici de quoi en éloigner beaucoup des perspectives culturelles
offertes par le Web Sémantique.