ppt - Lirmm

mustardunfInternet and Web Development

Oct 21, 2013 (3 years and 11 months ago)

104 views

EIAH’2003
-

Strasbourg


Une méthode incrémentale d’extraction de
connaissances pédagogiques sur le web

Pierre Pompidor



Michel Sala

Danièle Hérin



LIRMM


Montpellier II / CNRS

161 rue ada, 34 392 Montpellier cedex 5


{pompidor, sala, dh}@lirmm.fr

Phone : 33 4 67 1 85 85

Fax : 04 67 41 85 00


EIAH’2003

Strasbourg

Plan


Introduction



Méthodologie



Architecture


Cycle de fonctionnement


Exemple


Requêteur


Analyseur



Analyse d’une ressource


De définition


De spécialisation



Révision de l’ontologie


Génération de brouillon de cours


Conclusion

EIAH’2003

Strasbourg



Introduction



Thème de travail



Agrégation semi
-
automatique de connaissances extraites du web.

Pour la création de brouillons de cours.




Problématiques

Liées à l’utilisation d’un moteur de recherche



Imprécision dans la formulation de requêtes (mots clés)


Imprécision des réponses fournies par le moteur de recherche



EIAH’2003

Strasbourg



Approche



Analyse des pages



À partir d’interrogation du moteur de recherche Google


par des listes de mots clés de plus en plus élaborées



Les mots clés sont intégrés de manière incrémentale dans une
ontologie

qui représente l’ossature du document en cours de
réalisation (brouillon de cours)



Extraction des mots clés



Réalisée par une analyse lexicale, syntaxique et sémantique



à partir d’une base de patrons syntaxiques (200 actuellement)

extraits de l’analyse de définitions du dictionnaire en ligne.

EIAH’2003

Strasbourg



Cycle de fonctionnement


Phase préalable


Analyse de la syntaxe des définitions du dictionnaire Larousse en ligne


Création de «

patrons

» syntaxiques



Phase 1 : Création «

manuelle

» d’une ontologie initiale sur le cours



Phase 2 : Interrogation d’un moteur de recherche



à partir des concepts de l’ontologie



Phase 3 : Analyse des pages fournies par le moteur


Vérification de la pertinence de l’emploi des mots clés


Extraction des éléments de définitions


Extraction des éléments de spécialisation



Phase 4 : Enrichissement de l’ontologie initiale



Phase 5 : Génération du brouillon de cours


À partir de l’ontologie enrichie

EIAH’2003

Strasbourg



Ontologie initiale



L’enseignant crée une ontologie initiale : elle correspond aux
concepts de base et à l’ossature de son cours.




Architecture Multi
-
tiers



Serveur d’application / serveur applicatif



Serveur d’objets / serveur de composants


EIAH’2003

Strasbourg



Interrogation d’un moteur de recherche



Le «

requêteur

» interroge un moteur de recherche à partir d’une
liste de mots clé pris sur chaque branche de la hiérarchie de
l’ontologie.



«

architecture Multi
-
tiers

» «

serveur d’application

»


«

architecture Multi
-
tiers

» «

serveur applicatif

»


«

architecture Multi
-
tiers

» «

serveur d’objets

»


«

architecture Multi
-
tiers

» «

serveur de composants

»



Les pages fournies en résultat sont transmises à l’analyseur

EIAH’2003

Strasbourg



Analyse des pages



Pour chaque concept de l’ontologie, extraction de deux types de
connaissances



Des définitions : explication du concept


Des spécialisations : instances du concept



Types d’analyse



Lexicale : mots présents dans la page


Syntaxique : appariement des patrons


Sémantique : détermination des référents

EIAH’2003

Strasbourg



Analyse des pages

Extraction des éléments de définition




Contenu de la page



«

Un
serveur d’application

est basé une
architecture multi
-
tiers
. C’est
un modèle d’architecture d’applications dans lequel on sépare la
présentation, les traitements et les données. L’objectif poursuivi est de
permettre une évolution de l’un de ces trois tiers de façon relativement
indépendante des deux autres.

»



Analyse


«

Serveur d’application

» et «

architecture multi
-
tiers

» s’apparient



La page est analysée


Le patron

«

c’[être] un(e) généralisation
-
du
-
concept
-
X dans lequel

»

s’apparie.





extraction de «

on sépare la présentation, les traitements et les données


La deuxième page ne peux pas être analysée.


EIAH’2003

Strasbourg



Analyse des pages

Extraction des éléments de spécialisation



Contenu de la page


«

Le
serveur d’application

est l’environnement d’exécution des
applications côté serveur. Il prend en charge l’ensemble des
fonctionnalités qui permettent à N clients d’utiliser une même
application : …. Le
serveur d’application

est donc indispensable si l’on
souhaite éviter de re
-
développer l’ensemble de ces fonctionnalités (cas
des GGI). Les moteurs JSP / Servlets, Microsoft ASP, Cold Fusion,
PHP, … sont à ce titre des
serveur d’application

».



Analyse


«

Serveur d’application

» et «

architecture multi
-
tiers

» s’apparient



La page est analysée


Le patron

«

… [être] [locution de coordination] [article défini] concept
-
X

»

s’apparie.





extraction de «

les moteurs JSP / servlets, Microsoft ASP, Cold Fusion,
PHP, …

»

EIAH’2003

Strasbourg



Enrichissement de l’ontologie


Architecture Multi
-
tiers

On sépare la présentation, les traitements et les données



Serveur d’application / serveur applicatif

est l’environnement d’exécution des applications coté serveur


Moteur JSP / servlets


Microsoft ASP


PHP


Cold Fusion



Serveur d’objets / serveur de composants


Modèle COM


Active X


EJB


Corba


EIAH’2003

Strasbourg



Générateur de brouillon de cours


La méthode converge.



L’ontologie n’évolue plus et le générateur de brouillon de cours
produit un texte synthétique (mal formé) dont les concepts de
l’ontologie sont l’ossature.



Le brouillon



Dans une architecture multi
-
tiers, on sépare la présentation, les
traitements et les données.


Une architecture multi
-
tiers se compose de serveurs d’application et de
serveurs d’objets.

Un serveur d’application est l’environnement d’exécution des
applications coté serveur, et sépare les niveaux : accès aux données,
traitement métier et présentation.


Un serveur d’application se compose d’un moteur JSP ou de servlets,
Microsoft ASP, PHP et Cold fusion.


Un serveur d’objets (ou serveur de composants) se compose d’un
modèle COM, de EJB, Corba. Le modèle COM se compose d’Active X
.

EIAH’2003

Strasbourg

Conclusion
-

1


Production de résultats concrets


Hypothèse : l’enseignant connait des concepts qui constituent l’ossature
du cours.


Ontologie initiale


L’enseignant explore le web pour intégrer des connaissances
pédagogiques


Enrichissement de l’ontologie


Génération d’un brouillon de cours.



Travail en cours


Maitrise de l’enrichissement de l’ontologie


Techniques de synthèse de connaissances


Cycle d’apprentissage doit être complété pour faire de la ressource
pédagogique créée, une ressource réutilisable et normée

EIAH’2003

Strasbourg

Conclusion
-

2


Travail en cours



Maitrise de l’enrichissement de l’ontologie



Techniques de synthèse de connaissances



Cycle d’apprentissage à compléter


Rendre la ressource pédagogique créée, réutilisable et normée.