• English

Tout le monde parle, ces dernières années, du Web 2.0. Dynamique, interactif, social, il est quasiment devenu l’incarnation d’un mode de vie nouveau et branché. Mais alors que tout le monde est occupé à regarder du côté de ce qui se faisait hier, les informaticiens sont déjà en train d’inventer la nouvelle version du Web. Et son utilisation de la sémantique va très probablement surprendre : les machines auront bientôt la capacité de comprendre le sens des pages Web qu’elles affichent.

Imaginez un monde dans lequel votre assistant personnel robot parcourra les étendues infinies du Web à la recherche d’informations que vous lui aurez demandées, un monde où les moteurs de recherche vous poseront des questions afin d’affiner ou de préciser vos recherches pour que leurs résultats tombent toujours dans le mille, un monde dans lequel les pages Web seront créées à la demande et en temps réel spécialement pour vous. Arrêtez de rêver : tout ceci existe déjà (certes, de façon assez limitée) ou va bientôt voir le jour. Bienvenue dans le monde du Web sémantique. Bienvenue dans le Web 3.0.

 

Les limites actuelles du Web

Tel que nous le connaissons aujourd’hui, le Web est très limité et, même si l’on essaie de contourner ces limites autant que faire se peut, elles ont incité les informaticiens à réfléchir à une possible façon de les surmonter. Le premier problème est la récupération d’informations : imaginez-vous taper le mot-clef « jaguar » dans un moteur de recherche, vous obtiendriez sûrement (de façon d’ailleurs assez aléatoire) des résultats à propos de l’animal, de la voiture ou même d’une version obsolète de Mac OS X. Certains ne seront pas découragés pour autant, et taperont aussitôt « Panthera Onca » (le nom scientifique du jaguar) mais, si l’on considère leur recherche première, ils n’auront alors plus accès à tous les résultats dans lesquels le mot « jaguar » n’apparaît pas.

Ceci n’est pas le seul problème que le Web rencontre face au traitement de l’information : il est, pour l’instant, absolument incapable d’extraire des informations d’une image (ou d’un texte affiché comme image, par exemple) autrement que par les mots qui l’entourent. En effet, seul un agent humain est pour le moment capable de comprendre de telles choses et d’en déduire de nouvelles informations par des opérations logiques.

Une autre limite repose dans la maintenance de sites Web complexes dont les nombreux liens pointeraient vers un contenu Web extérieur : si une quelconque partie de ce contenu change d’emplacement (et crée, de ce fait, une erreur 404), rien aujourd’hui n’est capable de rediriger l’utilisateur vers l’adresse adéquate pour que ledit contenu puisse être retrouvé.

Enfin, une quatrième lacune du Web aujourd’hui est le manque de personnalisation. Prenez le très célèbre Google : le moteur de recherche s’adapte à votre comportement en analysant vos recherches passées. Le problème, c’est que Google ne peut pas considérer le contexte dans lequel vous effectuez votre recherche : il est possible que, cette fois-là, vous recherchiez des informations pour aider votre sœur à préparer son exposé du lendemain ; en ce cas, vous ne chercherez pas sur le Web de la même façon qu’habituellement.

La solution est finalement assez simple : pour que le sens soit interprété correctement par les machines, il faut qu’il soit encodé dans des métadonnées sémantiques qu’elles peuvent lire. Ceci permettra au Web de traiter l’information de manière automatisée, de relier et de combiner des données qui auraient pu paraître disjointes auparavant et de déduire des informations implicites de connaissances déjà existantes, le tout résultant en une base de données globale contenant un réseau universel de propositions sémantiques.

 

Décrire sémantiquement un contenu en RDF

Cet encodage du sens peut être facilement réalisé grâce à un traitement simple de l’information, en suivant quelques cadres de références. Considérons la phrase suivante : « Le téléphone de Thomas Durand est le 01-44-55-27-00 ». Représenté en XML, ceci pourrait donner des résultats aussi divers que :

<no_telephone>
<proprietaire>Thomas Durand</proprietaire>
<numero>01-44-55-27-00</numero>
</no_telephone>

ou bien :

<individu nom= »Thomas Durand »>
<no_telephone>01-44-55-27-00</no_telephone>
</individu>

ou encore :

<individu nom= »Thomas Durand » tel= »01-44-55-27-00″ />

Ceci est bien évidemment un problème, puisqu’aucune de ces écritures n’est réellement capable de donner un rendu clair du lien entre Thomas et le numéro de téléphone donné. La solution repose dans la décomposition simple de l’affirmation en un « triple » suivant les catégories Sujet, Prédicat et Objet : Sujet=Thomas Durand, Prédicat=a un numéro de téléphone, Objet=01-44-55-27-00. C’est cette classification qui sert de base au Resource Description Framework (Cadre de Description de Ressources) ou RDF, utilisé pour décrire et représenter des faits dans le Web sémantique (http://www.w3.org/RDF/). Ainsi, les faits peuvent être connectés les uns aux autres selon des relations logiques, permettant l’exploration sémantique du contenu. Le cadre RDF est déjà mis en place pour certains sites comme http://dbpedia.org (la version sémantique de Wikipédia) et s’étend déjà à certains autres : le site musique de la BBC (www.bbc.co.uk/music) utilise déjà la récupération automatisée d’informations pour générer des pages Web sur les artistes, pages toujours à jour grâce aux informations sémantiques.

Mais même le système RDF ne suffit pas à un ordinateur pour comprendre notre monde. Prenons l’exemple d’un personnage historique, disons Charles de Gaulle. Quelques éléments biographiques, représentés grâce au RDF, ressembleraient à :

Charles de Gaulle, a une date de naissance, 22/11/1890
Charles de Gaulle, a une date de mort, 09/11/1970

(pour plus d’informations sur le RDF et sa syntaxe réelle, voir http://www.w3.org/TR/2004/REC-rdf-syntax-grammar-20040210/)

Alors que cela peut paraître évident à n’importe quel humain de la planète, ces deux triples ne suffiront pas à un ordinateur pour comprendre que Charles de Gaulle est mort. C’est pourquoi une autre couche appelée OWL, assortie de règles, doit être ajoutée : elle s’assurera que l’ordinateur connaît les contraintes dont est constitué le monde tel que nous le connaissons, en l’occurrence ici qu’avoir une date de mort veut dire être mort, et qu’être mort exclut totalement la possibilité d’être vivant.

Le temps des pages Web statiques semble soudain bien lointain… Bien qu’il y ait encore beaucoup à faire pour la sémantique soit mise en place sur le Web, les possibilités sont immenses : en terme d’indexation de contenu pour utilisation ultérieure dans un contexte délinéarisé, l’utilisation de la sémantique pourrait fournir aux utilisateurs une expérience unique et plus naturelle, bien plus proche du fonctionnement de leur propre esprit.

 

Article rédigé par Ari Bouaniche.

 

Cet article a été largement inspiré des cours donnés par le Pr. Harald Sack de l’Institut Hasso Plattner à l’Université de Potsdam, en Allemagne, dans le cadre de son MOOC (en anglais) sur le Web sémantique (https://openhpi.de/course/semanticweb).

Partager et découvrir:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Yahoo! Buzz
  • Twitter
  • Google Bookmarks