Web sémantique
«The Semantic Web is an extension of the current web in
which information is given well-defined meaning, better enabling computers and
people to work in cooperation»
Tim Berners-Lee, James Hendler, Ora Lassila The Semantic
Web, Scientific American, May 2001
Introduction
Le Web Sémantique constitue un environnement dans
lequel les humains et les machines vont communiquer selon une base
sémantique .Une des caractéristiques principales est la
compréhension partagée basée sur un squelette
d'ontologie.
Le Web sémantique, en fait, est une architecture
composée, il se base sur plusieurs technologies, spécifications
et normes (ontologies, XML, RDF, RDFS, OWL).
Dans ce chapitre on va présenter ce qui est le Web
sémantique, ainsi que ses langages et ses applications.
I. Insuffisance du Web actuel
Sur Internet on peut accéder à un grand volume
d'information, ce qu'on considère depuis quelques années,
insuffisant car on s'est rendu compte qu'il n'y a pas un réel partage de
connaissance.
Une recherche d'information sur le Web repose sur
l'utilisation de mots ou de phrases incluses dans des documents, ce qui conduit
à des résultats non pertinents car on ne dispose d'aucune
information de nature sémantique à propos du contenu.
II. Web sémantique, quoi de nouveau ?
Pour rendre le Web sémantique, il faut que toutes les
ressources Web soient décrites par des
3
|
|
Web sémantique
|
Ontologies & e-learning
|
Conception
|
Implémentation
|
métadonnées, ce qui permet aux machines une
meilleure exploitation de ces ressources.
On peut définir les métadonnées comme
"des données relatives à des données" traitables par une
machine [1], pour le cas des documents pédagogiques, le contenu des
documents sont les données, et les informations relatives aux auteurs,
à leurs champs d'intérêt, à leurs objectifs
pédagogiques sont des métadonnées.
Par ressource on désigne tout ce qu'on peut trouver sur
le Web: par exemple des documents, ou même une composante d'une autre
ressource plus grande; par exemple un paragraphe spécifique d'un
document
IV. Langage du Web sémantique
IV.1. le World Wide Web Consortium (W3C)
Fondé en 1994, pour développer les protocoles
nécessaires à l'évolution du Web, c'est un consortium
international qui regroupe de nombreux professionnels de l'industrie, du
service, de la recherche et de l'enseignement partageant les mêmes
objectifs d'évolution et de stabilisation à long terme des
technologies du Web.
IV.2. Architecture du Web sémantique
L'architecture du Web Sémantique proposée par W3C
s'appuie sur une pyramide de langages :
Au niveau le plus bas se trouvent les données brutes
codées par le standard Unicode, ces données possèdent une
adresse URI (Uniforme Ressource Identifier) qui permet d'attribuer un
identifiant unique à chaque ressource.
Ces données peuvent être structurées
grâce à un langage de balises tels que XML (eXtensible Markup
language). La syntaxe XML peut être considérée comme
un premier niveau de sémantique, elle permet aux utilisateurs de
structurer les données en fonction de leur contenu sans rien dire de la
signification des structures.
Pour attribuer une signification à cette structure et
relier d'une façon pertinente les différents
éléments, Tim Berners-Lee propose le standard RDF (Resource
Description Framework) comme standard de représentation, standard
développée par le W3C.
4
|
|
Web sémantique
|
Ontologies & e-learning
|
Conception
|
Implémentation
|
Ce langage a pour but de donner une organisation plus
structurée des informations présentes sur le Web à travers
une description sémantique des données fournies par XML [2].
La signification sémantique des données XML
représentées par RDF est largement insuffisante pour assurer une
bonne distinction des différents concepts, il faut qu'on puisse
définir les concepts les uns par rapport aux autre, ce qui est possible
avec RDFS et OWL.
IV.3. Langage XML
Actuellement, Internet est un simple moyen d'accès
à du texte et à des images. Il n'existe pas de normes pour la
recherche intelligente, l'échange de données, la
présentation adaptable. Internet doit être plus qu'un espace
d'accès à des informations et une norme d'affichage. Il doit
définir une norme de gestion de l'information, une manière
commune de représenter les données afin que les logiciels
puissent plus facilement rechercher, déplacer, afficher et manipuler des
informations. Le HTML en est incapable car il s'agit d'un format qui
décrit l'affichage d'une page Web; il ne représente pas les
données [3].
C'est à partir de ce constat que le W3C a mis en place
la norme XML; XML fait Recommandation du W3C depuis le 10 février 1998,
ce langage est un métalangage facilitant l'élaboration de
langages à balises spécialisés.
Au départ, voilà une petite comparaison entre HTML
et XML:
· HTML définit le format de mise en page
(affichage ou impression) d'un document, alors que XML en définit la
structure, le contenu, indépendamment de la mise en page. Les documents
XML ont un DTD (Document Type Definition), les documents HTML n'en ont
pas.
· La grammaire de HTML est fixe, définie par le
standard, avec ses mots réservés et ses structures entre balises
(tags). XML, au contraire, permet de définir n'importe quelle structure
dans la mesure où elle est arborescente, avec notamment les balises que
l'on veut. On peut ainsi définir des structures standard au niveau d'une
profession, des DTD standards ont été définis pour
l'automobile, la chimie, les banques, les mathématiques, etc.
· Les documents HTML ont une structure séquentielle
avec un en-tête (header) et un corps (body). Les documents XML, eux, sont
des hiérarchies [4].
Web sémantique
|
Ontologies & e-learning
|
Conception
|
Implémentation
|
|
IV.3.1. Document XML
Une source de données est un document XML si elle est
« bien formée », c'est à dire si elle correspond
parfaitement à la spécification de XML.
Un document XML est représenté sous la forme d'un
fichier texte structuré en éléments, à l'aide de
balises éventuellement imbriquées.
En en-tête du document doit figurer un « prologue
», une déclaration qui identifie le document comme un document XML.
Ce prologue indique la version de XML employée, le codage de
caractères, et si le document est associé à une DTD ou
s'il est autonome.
Il existe un élément particulier :
l'élément « racine », encore appelé «
élément document ».
Cette racine doit contenir tous les autres
éléments du document et ne peut apparaître qu'une fois dans
un document XML.
A travers un exemple on va essayer de donner un aperçu
général sur la structure d'un document XML, cependant on ne peut
couvrir tout le détail du XML.
<?xml version=' 1.0'
encoding="ISO-8859- 1"?>
<catalogue>
<stage id="XMLpres">
<intitule>XML et les bases de
données</intitule>
<prerequis> connaître les langages
SQL et HTML</prerequis> </stage>
</catalogue>
|
|
IV.3.2. Document XML valide
En XML, des DTD (Document Type Definitions) peuvent accompagner
un document.
Elles définissent essentiellement les règles qui
lui sont propres, telles que les éléments présents et la
relation structurelle existant entre eux.
Web sémantique
|
Ontologies & e-learning
|
Conception
|
Implémentation
|
|
Un document bien formé est dit valide lorsqu'il respecte
une structure type définie dans une DTD.
Une DTD est un composant optionnel du prologue XML, elle peut
être interne ou externe.
Elle est interne lorsque sa définition se trouve dans le
document XML lui même, et si elle se trouve dans un autre fichier elle
est donc externe.
Si on associe une DTD externe à l'exemple
précédent on doit ajouter dans le prologue la balise suivante:
<!DOCTYPE catalogue SYSTEM
"DTDexterne.dtd">
Voici le fichier DTDexterne.dtd:
<!ELEMENT catalogue (stage)*>
<!ELEMENT stage (intitule,prerequis)> <!ELEMENT
intitule(#PCDATA)>
<!ELEMENT prerequis (#PCDATA | xref)*>
<!ELEMENT xref EMPTY>
<ATTLIST stage id ID #REQUIRED>
|
|
· Un catalogue est constitué de 0 jusqu'à N
stages (utilisation de *).
· Le symbole #PCDATA indique que
l'élément intitule peut contenir toute les
données XML.
· Un stage est constitué de deux
éléments qui sont 'intitule' et
'prerequis'
· La balise <ATTLIST stage id ID
#REQUIRED>
Sert à déterminer les attributs de
l'élément stage, ici il y a un seul qui est
"id", on a
spécifié qu'il est de type ID,
cela veut dire que la valeur qu'il peut prendre est un symbole
commençant par une lettre, et contient des lettres ,des chiffres, des
caractères « - » , « _ », «
. »,et « : ».
· Le symbole #REQUIRED indique que la
valeur de l'attribut id doit être spécifié par l'auteur de
document.
· Le symbole EMPTY désigne un
élément vide. NB: Le symbole "| " se lit
"et/ou", et le symbole "," veut dire "et".
Web sémantique
|
Ontologies & e-learning
|
Conception
|
Implémentation
|
|
Cependant, la DTD peut figurer dans le document XML lui
même en incluant dans le prologue l'ensemble des déclarations de
la DTD comme suit:
<?xml version='1
.0'?>
<!DOCTYPE catalogue[
<!ELEMENT catalogue (stage)*>
<!ELEMENT stage (intitule,prerequis)> <!ELEMENT
intitule(#PCDATA)>
<!ELEMENT prerequis (#PCDATA | xref)*>
<!ELEMENT xref EMPTY>
<ATTLIST stage id ID #REQUIRED> ]>
</catalogue>
<catalogue>
<stage id="XMLpres">
<intitule>XML et les bases de
données</intitule>
<prerequis> connaître les langages
SQL et HTML</prerequis> </stage>
|
|
|