Le Web sémantique, une infrastructure d'intégration de ... - LRI

mustardunfInternet και Εφαρμογές Web

21 Οκτ 2013 (πριν από 3 χρόνια και 7 μήνες)

49 εμφανίσεις

Le Web sémantique,
une infrastructure d'intégration
de sources de données
Chantal Reynaud
Université Paris X
&
LRI (Université Paris-Sud & CNRS), UR INRIA Futurs
1.Importance du point de vue des
usages
2.Méthodes, techniques et outils
existants
3.Les recherches futures pour le Web
sémantique
Plan de l'exposé
1.Importance du point de
vue des usages
Intégrer des données :
Dans quel but ?
Donner l'impression d'utiliser un système
homogèneet centralisé
Le Web
Intégrer des données :
Pour quoi faire ?
Collecter toutes les réponses pertinentes
provenant de sources de données multiples et
hétérogènes
Workshop on
SW andDB
Int. Semantic Web Conf.
2002
Recherche de
papierssur le
Web
sémantique
Action spécifique
Web sémantique
Combiner des donnéesprovenant de sources hétérogènes et fournir
uneréponse globalela plus complète possible
Les papiers proches d'une
certaine publication selon
des critères mots-clés,
auteurs ou titre de session
spécialisée ?
DBLP Bibliography Server
Présentations orales :
.
•14 : 00 Session 7a -Sources de données fédérées
Version Propagation in federated database Systems, Schönhoff, Strässler, Dittrich
Semantic Integration of XML heterogeneous data Sources, Reynaud, Sirot, Vodislav
...
www-lsr.imag.fr/IDEAS2001/
AuthorTitleConference
ReynaudSemantic Integration of XML Heterogeneous data SourcesIDEAS'01
ReynaudSemantic integration in XylemeDKE (2003)
ReynaudPICSEL and Xyleme: two illustrative Information Integration AgentsAgentLink 2003
VodislavViews in large-scale Web repositoryVLDB (2002)
....
LRI
<nom>C. Reynaud </nom>
<statut> Prof. Paris X </statut>
<enseignement>...</enseignement>
<recherche>...</recherche>
<publications>
<année> 2003</année>
<reference>
<auteurs>...</auteurs>
<titre>...</titre>
<conference>...</conference>
</reference>
<reference>
.....
</reference>
...
</publications>
.....
2.Méthodes, techniques et
outils existants
L'approche médiateur
L'approche médiateur
1.
Fichier
Wrappern°1
Wrappern°2
Wrappern°j
Wrappern°k
Wrappern°l
Wrappern°p
Moteur de requêtes
Plans de requêtes
Requête utilisateur
Mediateur PICSEL
Ontologie
du
domaine 1
Ontologie
du
domaine 2
Description
du contenu
de la source
1
Description
du contenu
de la source
2
Description
du contenu
de la source
n
Description
du contenu
de la source
k
Description
du contenu
de la source
l
Description
du contenu
de la source
p
2.
BDR
3.
XML
k.
BDOO
l.
XML
p.
BDR
Architecture générale
Médiateur :
Module de description du domaine
Module de description des sources
Module de reformulation des requêtes
Formalisme déclaratif
Dépend d'un formalisme
entrée : la requête de l'utilisateur exprimée en termes du
vocabulaire du domaine
sortie :un ensemble de requêtes spécialisées exprimées
uniquement en termes du vocabulaire décrivant les sources
Adaptateur (Wrappers) :interfaces entre les
sources et le médiateur
Programmes qui transforment les requêtes spécialisées du
médiateur en des requêtes exécutables sur les sources
spécifique d'un domaine
Algorithme générique
Principaux problèmes étudiés
•Description du domaine et des sources à
l'aide de formalismes déclaratifs fondés sur la
logique
Le contenu des sources est décrit comme
un ensemble de
vues
sur le domaine
Les
vues
correspondent à l'expression de
requêtes spécialisées que l'on peut poser
aux différentes sources
•Construction de plans de requêtes
:
Problème de
réécriture de requêtes en
termes de vues
L'approche entrepôt de
données
Fichier
BD
Données
externes
Entrepôt
Entrepôt
de Données
de Données
DM
DM
Méta
Données
Administrateur
Sources
Sources
Chargeurs
Chargeurs
Clients
Clients
Un entrepôtest défini comme un ensemble de données
provenant de sources diverses, variables dans le temps et
non volatiles qui sont utilisées dans le processus d’aide à la
décision.
C’est une grosse base de donnéesqui organise les
données opérationnelles, les intègreet les stockepour
faciliter l’interrogation complexe et l’analyse en donnant à
l'utilisateur une vue globale des informations.
Source 1
Source 2
Source n
...
Extraction-Transformation
Extraction-Transformation
Extraction-Transformation
Source 1
Source 2
Source n
...
Intégration -Transformation
Chargement
Entrepôt
Entrepôt
de
de
données
données
Différents types d'intégration
Intégration de
schémas
Intégration de données
virtuelle
(médiateurs)
Intégration de données
matérialisée
S1
Schéma 1
S2
Schéma 2
Sn
Schéma n
Schéma unifié
S1
Sn
S2
Sn
Schéma n
S1
Schéma 1
S2
Schéma 2
Interface d'accès
Vue reconciliée
de toutes les sources
Schéma unifié
Travaux et résultats du
Websémantique
L'approche médiation centralisée
Points forts :
Les données restent stockées dans les sources
Un schéma global (ou ontologie)
1) Vocabulaire du domaine mis à la disposition de
l'utilisateur pour la formulation des requêtes
2) Connexion des sources
Points faibles dans le cadre du Web
sémantique
La construction automatisée
de l’ontologie (1)
Ontologie
enCARIN
Génération
automatique de
l’ontologie en
CARIN
Extraction semi-
automatique
(OntoMedia)
Experts
436 classes
298 propriétés
600 relations
115 XML-
Schemas
OTA
Ontologie
G. Giraldo(LRI, Univ. Paris-Sud)
La construction automatisée
de l’ontologie (2)
A. Termier (LRI, Univ. Paris-Sud)
Documents XML
UsedCar
Color Year Model
UsedCar
Km Year Model
Book
Title CoverAuthor
Book
Title Author
Infos
UsedCar
Year Model
Book
Title Author
Cluster 1Cluster 2caractérisationcaractérisation
TreeFinder
Travaux dans le cadre d'architectures
distribuées pair-à-pair
Etude et conception de langages expressifs et flexibles
(PPL)
Permettre d'établir des mises en correspondance
entre des schémas de systèmes reliés.
Permettre de définir localementdes relations
sémantiques entre les schémas locaux tout en
permettant de répondre globalementaux requêtes
utilisateurs en exploitant le réseau des systèmes
reliés sémantiquement.
Halevyet al., 2003 (Seattle, USA)
Travaux sur la mise en
correspondance entre ontologies
Le système GLUE
Dérivé du système LSD d'identification de
mises en correspondance entre un schéma
globalet le schéma (DTD) de sources
d'information XML
Appliqué au Websémantique pour assister le
processus de mise en correspondance entre
les taxinomies de deux ontologies en utilisant
des techniques d'apprentissage automatique
Doanet al. 2002
3.Recherches futures pour le
Websémantique
L'approche médiation décentralisée
SI1
SI2
SI3
SI4
SI5
SIn
Des systèmes de gestion de données pair-à-pair
connectés sémantiquement
Vers des études théoriquessur le
calcul des réponsesaux requêtes
Concernant des classes de systèmes plus
restreintes
•Les schémas des sources et les mises en correspondance sont
exprimés en terme d'ontologies qui sont des hiérarchies de
classes.
Exemple : Ph. Adjiman(LRI, Univ. Paris-Sud)
Une méthode pour calculer de manière anytime et incrémentale
l'ensemble des réponses à une requête posée à l'un des pairs. Le
calcul se fait de proche en proche en étant guidé par les mises en
correspondance. Complétude démontrée.
•Le problème du calcul des réponses aux requêtes est décidable
Afin de guider dans les choix de conception
Pouvoir intégrer des données et des
connaissancesdistribuées sur le Web
en temps réel
Nécessite des solutions innovantes en rupture
avec l'existant
•SGBDs traditionnels: gestion et interrogation efficaces de
données régulières, centralisées et fiables.
•Données du Web: données volumineuses, peu structurées,
éparpillées, hétérogènes.
Besoin de techniques de structuration et
d'intégration de données passant à l'échelle du
web
Conception d'outils de "médiation intelligents"
entre les utilisateurs et des sources
d'informations stockées localement ou
accessibles via le Web.
Contrôle des changements, surveillance du
Web
Quelques directions de recherche dans le
cadre du Web sémantique
Extraction de connaissancesde façon à
donner une vision abstraite, condensée,
qualitative, plus signifiante pour l'utilisateur.
Projet GEMO, INRIA Futurs
Vers l'intégration de données
multimédias
Extension de la notion d'entrepôts de données
dans une organisation pour inclure les rapports
techniques, des présentations video, audio,
etc.
Vers l'intégration de connaissances
Des données mais aussi :
des connaissances du domaine,
des ontologies,
des méta données,
etc.
Conclusion
Un objectif ambitieux
•Des travaux nécessitant des compétences multiples
-Modélisation, représentation, traitements de connaissances
complexes (Intelligence Artificielle)
-Gestion de grandes bases de données, interrogation via des
langages de requêtes optimisés (Bases de données)
Ex :Projet GEMO : groupe VERSO (INRIA)+ Equipe IASI (LRI, Univ.
Paris-Sud)
Les recherches sont en cours ....
•Un défi : obtenir des performances acceptables
•Le passage à l'échelle du Web pose des problèmes nouveaux
Les données sont complexes, distribuées, hétérogènes, répliquées,
multiformes, changeantes, elles existent parfois via l'invocation de
services, ....