Automates
Intelligents s'enrichit du logiciel
Alexandria.
Double-cliquez sur chaque mot de cette page et s'afficheront
alors définitions, synonymes et expressions constituées
de ce mot. Une fenêtre déroulante permet aussi
d'accéder à la définition du mot dans une
autre langue.
Mieux dénicher les pépites scientifiques
grâce à l'algorithme "PageRank" de Google
Vous
connaissez tous le fameux "PageRank" de Google, cette
petite barre verte plus où moins allongée, sur votre
navigateur, et témoignant de l'indice de notoriété
d'une page web... Mais l'on sait moins que l'algorithme de classement
utilisé par Google, largement diffusé parmi les chercheurs,
fait l'objet de travaux dépassant le cadre de l'Internet.
Ainsi, selon
l'article "Finding Scientific Gems with Google"
publié dans Physics(1),
l'algorithme magique de Google serait tout simplement un très
bon candidat pour mesurer la qualité d'un travail scientifique.
En
effet, si la valeur et l'importance d'un travail publié devrait
être évaluée sur son réel contenu et
son originalité(2),
elle est en fait plus généralement jugée par
le nombre de citations dans d'autres articles. Et c'est là
où le bât blesse car cette technique de comptage, qui
aboutit à des indices de citations, est bien loin d'être
infaillible. Ainsi, il n'est pas rare de voir des articles scientifiques,
que l'on pourrait qualifier de majeur, n'avoir suscité finalement
que peu de citations... et donc être candidats à l'enterrement
de première classe... Comment d'ailleurs vraiment distinguer
dans un article ce qui relève de la citation "polie"
et de la citation absolument fondamentale ? Nombre d'articles incluent
par exemple une section introductive décrivant l'histoire
et l'état actuel de la spécialité abordée,
partie pouvant facilement contenir la moitié des références
de l'ensemble de l'article, celles-ci n'étant finalement
pas fortement appropriées sachant que peu des résultats
indiqués sont employés réellement dans le travail
présentés par les chercheurs. Résultat : il
peut arriver que certains articles sans portée vraiment fondamentale
soient abondamment cités, et d'autres, bien plus importants,
presque, voire jamais évoqués.
Une
nouvelle méthode, plus fiable...
Le corpus des articles scientifiques constitue une structure assez
similaire à celle du web. Tout comme les page des sites web
sont reliées les unes aux autres par des liens, les articles
scientifiques sont connectés les uns aux autres par des citations
: le nombre de sites externes pointant vers un site dans le monde
du web (ce qu'on appelle le "in-degree)" est un peu analogue
à celui de l'indice de citation d'un article, dans le monde
de l'édition scientifique.
Quand les deux fondateurs de Google, -Larry Page et Serguei Brin
- se sont attaqués au problème de ranger les sites
selon leur influence(3),
ils n'ont pas considéré le "in-degree" comme
pertinent : il est en effet facile de gonfler artificiellement l'importance
d'un site, ne serait-ce qu'en créant massivement des échanges
de liens(4).
Ils ont alors conçu l'algorithme PageRank (rang de page)
dans lequel chaque lien d'une page à une autre est compté
comme un vote pour la page de destination et le score de chaque
page dépend des scores des pages qui lient vers elle, et
ainsi de suite. Au départ chaque page a un score de 100.
Le score de chaque page est ensuite recalculé en y ajoutant
celui de chaque page liant vers elle et en divisant par le nombre
de liens sortants. Quand tous les scores ont été recalculés,
l'algorithme recommence jusqu'à ce que les scores cessent
d'évoluer (il s'agit d'un algorithme convergent). En d'autres
termes, chaque site dans le réseau peut être vu comme
une distribution de son influence sur tout les sites auxquels ils
renvoient. Une page gagne ainsi de l'influence en étant citée
par d'autres pages considérées comme influentes (l'algorithme
actuel, gardé aujourd'hui secret, est en fait un peu plus
compliqué et contient notamment un système de pénalité
à l'encontre des webmasters tentant de contourner l'algorithme,
mais en gros voici l'idée).
Donc,
sachant qu'un corpus d'articles scientifiques peut être vu
comme un réseau de nuds et de liens - respectivement
les articles et les citations entre article, Patrick Chen et son
équipe [université de Boston/laboratoire national
de Brookhaven(1)] ont appliqué
la technique du PageRank(PR) et celle plus classique des indices
de citations sur la totalité des articles de Physical Review
et de leurs citations entre 1893 et juin 2003(5).
Si les deux méthodes sont linéairement corrélées
pour de nombreux articles, il n'en reste pas moins que certains
papiers se sont révélé avoir un PR très
important en comparaison de leur faible indice de citations. Et
d'exhumer alors des articles d'intérêt, souvent oubliés,
faisant remonter en haut de la liste
le fameux "Theory of the Fermi interaction" de
Feynman et Gell-Mann(6)
à lorigine -pardonnez du peu - du modèle
standard pour les interactions faibles(7),
ou encore le "Photon correlations" de Roy J.
Glauber(8), enfoui dans la littérature
avec un indice relativement faible de citation, mais dont l'importance
des travaux présentés lui valurent le... prix Nobel
de physique 2005(9).
Un
bel exemple est aussi ce "Cluster formation in two dimensional
random walks : application to photolysis of silver Halides",
de H. Rosenstock et C. Marquardt, publié le 15 décembre
1980, n'étant cité que... 3 fois dans la littérature
et donc arrivant en 201853 ème position de la liste. L'application
du PageRank le fait remonter à la 85ème place (voir
tableau ci-dessous).
Top 100 des articles classés selon leur PageRank
Google rank : place d'arrivée parmi les 100 premiers
articles du TOP 100
cite rank : place d'arrivée au sein du TOP 100 par
la méthode des indices de citations
#cites : nombre de citations
Ayant
testé la robustesse de la méthode et des paramètres
employés, les auteurs de l'étude sont convaincus que
le protocole basé sur l'algorithme du PageRank de Google
est pertinent et vient enrichir la palette d'outils pour juger de
la qualité et de l'impact d'une publication scientifique.
L'avantage ici est la simplicité de la méthode qui
d'ailleurs, pourrait être sûrement sophistiquée.
On ne peut qu'encourager les chercheurs à pousser plus loin
ce travail, par exemple en ne se limitant pas au simple corpus des
numéros de Physical Review, mais à un domaine bien
plus élargi, incluant de nombreuses disciplines scientifiques...
Peut-être déterreront-ils alors les articles fondateurs,
de portée vraiment transdisciplinaire.
Et pourquoi ne pas rêver alors de la publication d'une telle
liste, chaque mois, à destination des laboratoires....
Notes (1)
Nature Physics 0604130 : "Finding Scientific Gems with Google",
par Patrick Chen, Huafeng Xie, Sergei Maslov, & Sidney Redner
2006 http://lanl.arxiv.org/PS_cache/physics/pdf/0604/0604130.pdf
(2) Ceci supposant alors une grande sûreté
de jugement... Certains articles sont tellement novateurs qu'ils
ne peuvent être repérés que par quelques initiés,
leur valeur et leur interdisciplinarité ne se dégageant
souvent qu'à posteriori. (3) Collaboration qui a débuté
en 1996 à l'université de Stanford, lorsque Larry
Page et Sergey Brin développaient "Black Rub",
un nouveau moteur de recherche dont la particularité était
de pouvoir analyser les "BackLinks" pointant vers un site
Internet donné. (4) Ce qu'on appelle aussi des "Fermes de
liens". (5) Soit un ensemble représenté
par une matrice de quelque 353 268 nuds (les articles publiés
durant la période) et 3 110 839 liens (les citations entre
articles de la revue). (6) Publié en 1958 dans le Physical Review
Letters n°109, pages 193198 (7) Sans ces travaux, on peut se poser la question
de savoir si Carlo Rubia et Simon van der Meer auraient eu en 1984
le prix Nobel de physique pour leur contribution décisive
au grand projet qui a mené à la découverte
des particules W et Z, vecteurs de l'interaction faible. (8) Physical Review Letters n° 10, pages
8486 (1963). (9) Pour sa description théorique du
comportement des particules de lumière, partageant ce prix
avec Theodor W. Hänsch et John L. Hall.