Structures linguistiques pour la recherche

mustardunfInternet and Web Development

Oct 21, 2013 (3 years and 9 months ago)

110 views



1

13/05/07

LIST


DTSI


Service Réalité virtuelle, Cognitique et Interfaces sensorielles

Structures linguistiques pour la recherche
d’images sur Internet

14/10/2008

Directeur de thèse



Ioannis Kanellos

Encadrants CEA




Pierre
-
Alain Moëllic






Gregory Grefenstette

Rapporteurs





Florence Sèdes






Bruno Bachimont

Examinateur




Pierre
-
François Marteau


Adrian Popescu

CEA LIST / Télécom Bretagne



2

13/05/007

DTSI

14/10/2008

Plan de la présentation


Introduction


Approche conceptuelle de la recherche
d’images


Structuration de connaissances


Création de ressources


Applications


Conclusions et perspectives






3

13/05/007

DTSI

Recherche d’images sur Internet


Pratique courante associée aux moteurs de
recherche d’information


Fonctionnalités de recherche d’images


Grands acteurs de la recherche d’informations
(Google Images, Yahoo! Images, Microsoft Live)


Applications dédiées (Picsearch, Flickr)


Recherches effectuées par un très grand nombre
d’utilisateurs


Requêtes visant une grande diversité de sujets


Corpus photographiques très vastes et en rapide
croissance

14/10/2008



4

13/05/007

DTSI

Systèmes actuels


Indexation des images


En exploitant le texte
environnant dans les
pages Web (Google
Images)


Effectuée par les
utilisateurs (Flickr)


Indexation peu coûteuse de
grands volumes de
données


Mais… trois grandes critiques sur les moteurs actuels


Exclusivement textuelle et de bas niveau


Pas ou peu de traitements d’images


Moyens d’interaction avec les applications souvent inadaptés



5

13/05/007

DTSI

Structures linguistiques


Solution pour palier ces problèmes


Faire évoluer les moteurs pour permettre un
traitement non plus au niveau des chaînes de
caractères, mais à un niveau symbolique


Exploitation de structures sémantiques


Conditions d’exploitabilité


(Nécessairement) à large échelle


Couvrir le plus possible les requêtes des utilisateurs


Bonne qualité des connaissances incluses


Attente de plus en plus importante de la part des
utilisateurs en terme de précision des réponses




6

13/05/007

DTSI

Structures linguistiques existantes


Ressources généralistes constituées manuellement


WordNet (Fellbaum98)


base de données lexicale


Structurée hiérarchiquement


82 115 synsets nominaux


Cyc (Guha91)


réseau sémantique recueillant des
connaissances du sens commun


Hiérarchie moins adéquate que celle de WordNet


300 000 nœuds



Ressources relatives à des domaines


Geonames


base de données géographiques


Structure hiérarchique et spatiale


Six millions d’entités géographiques


UMLS


base de connaissances complexe relative au
domaine médical



7

13/05/007

DTSI

Construction automatique de structures linguistiques


Constitution manuelle de ressources coûteuse


Cognition (cognition.com)


24 ans de travail pour
constituer une carte sémantique de l’anglais


Nombreux travaux visant l’automatisation du processus
(Sanderson99)


Mais


La plupart des travaux visent des domaines précis


Difficultés à

assurer simultanément une bonne qualité des
connaissances extraites et une bonne couverture du
domaine ciblé


Construction automatique de structures à large échelle


(Grefenstette07)


fouille de données sur le Web afin de
construire une carte sémantique de la langue


(Ponzetto07)


nettoyage de l’arbre catégoriel de
Wikipédia


(Rattenbury07)


structuration de connaissances
géographiques à partir de Flickr





8

13/05/007

DTSI

Traitement d’images


Recherche par le contenu
visuel (CBIR)


Méthode alternative ou
complémentaire à la recherche
par mots clef


Description de bas niveau des
images


Descripteurs globaux (texture,
couleur, forme)


Descripteurs locaux (points
d’intérêt)


Plus complexe du point de vue
algorithmique (temps de
calcul, passage à l’échelle)


Pour les moteurs CBIR
classiques : manque de
cohérence conceptuelle des
résultats


Source http://alipr.com



9

13/05/007

DTSI

14/10/2008

Plan de la présentation


Introduction


Approche conceptuelle de la recherche
d’images


Structuration de connaissances


Création de ressources


Applications


Conclusions et perspectives






10

13/05/007

DTSI

Approche de la thèse

Ressources structurées

/ semi structurées

WordNet, Geonames,

Wikipedia

Applications

Structures sémantiques


à large échelle

Structures linguistiques

Approche

Recherche

par le contenu

Web

Architecture générique de
moteur de recherche d'images

ThemExplorer

Olive

Safir



Quelles images

cherchons
-
nous sur Internet ?



Comment ?

Analyse d’un
fichier de log



11

13/05/007

DTSI

Étude des usages en recherche d’images


Nombre de requêtes par


session

Comment cherchons nous des images sur Internet ?


Analyse statistique et conceptuelle d’un fichier de log
contenant plus de 20 millions de requêtes


Position des pages regardées dans


l’ensemble des résultats



12

13/05/007

DTSI

Étude des usages


complexité des requêtes


Analyse manuelle d’un échantillon
de 1000 requêtes choisies
aléatoirement


64% des requêtes incluent un seul
concept


30% des requêtes incluent deux
concepts


Les requêtes simples se prêtent bien
à un traitement en exploitant des
ressources linguistiques


Classiquement, complexité
dépend du nombre de termes
composant une requête


Proposition d’une analyse
basée sur le nombre de
concepts dans une requête



13

13/05/007

DTSI

Étude des usages


domaines conceptuels

Quels concepts cherchons nous sur Internet?


Analyse en utilisant des ressources externes


Limitée à l’anglais


Portant sur trois millions de requêtes uniques


WordNet pour les noms communs


358 000 de requêtes


Geonames pour les termes géographiques


392 000 de requêtes (79 000 communes avec WordNet;
151 028 communes avec un dictionnaire français)


Liste de noms de personnalités pour les noms
propres (Wikipédia + NNDB


http://nndb.com)


108 062 requêtes




14

13/05/007

DTSI

Domaines conceptuels
-

distribution des requêtes


WordNet


analyse automatique


Entités vivantes


26,5%


Caractéristiques psychologiques


13,4%


Artéfacts


12,6%


Geonames


analyse des requêtes fréquentes au moins 20
apparitions dans le fichier de log


Noms de villes


56,4%


Noms de pays


20,1%


Objets naturels


8,5%


Noms de personnalités


analyse automatique


Acteurs


54,9%


Chanteurs


13%


Modèles/mannequins


11,9%



15

13/05/007

DTSI

Étude des usages
-

conclusion


Importance d’une bonne précision sur la première
page de résultats


Nombre important de recherches allant au
-
delà :
intéressant de proposer une navigation rapide
parmi les images résultats


Une majorité des requêtes sont mono
-
conceptuelles


Facilement traités en utilisant des structures
linguistiques


Découverte de trois domaines conceptuels
intéressants pour la recherche d’images


Noms communs


Toponymes


Noms de personnalités



16

13/05/007

DTSI

Caractérisation des structures linguistiques


Espace de requêtes très diversifié


Besoin de structures linguistiques à (très) large
échelle


Existence de ressources préconstituées


Utiles mais devant être adaptées pour la
recherche d’images


Nécessité de construire automatiquement des
nouvelles ressources


Relations quelquefois incorrectes et risques
d’incohérence



17

13/05/007

DTSI

Relations entre les concepts


Sélection de relations utiles en recherche
d’images


Définitoires pour les opérations possibles sur le
contenu des structures linguistiques


Relations génériques


Hyperonymie/hyponymie



représentation d’un
concept par ses héritiers


Homonymie



séparation des différents sens d’un
terme


Synonymie



regroupement des termes représentant
la même entité


Relations spécifiques à des domaines


Géographie

: positionnement, inclusion spatiale


Personnes

: données biographiques



18

13/05/007

DTSI

Relations conceptuelles en recherche d’images


Reformulation automatique
des requêtes


Structuration des résultats

Skyscraper

Petronas

Towers



Empire State

Building

isA

isA

isA


Adaptation de la
présentation des résultats

Robert De Niro

Raging Bull



Taxi Driver

filmOf

filmOf

filmOf



19

13/05/007

DTSI

Structures linguistiques en recherche d’images


Recherche par le
contenu dans des
espaces
conceptuellement et
visuellement
cohérents


La combinaison des
descriptions de bas
et de haut niveau
des images fait
l’objet d’un effort de
recherche soutenu
(Liu07)



20

13/05/007

DTSI

Architecture de recherche sémantique d’images

Corpus d’images

Internet

Ressource linguistique

Corpus d’images

Collecteur d’images

Sélecteur de concepts

Moteur de recherche

visuel

Interface

Requête textuelle

Requête image



21

13/05/007

DTSI

14/10/2008

Plan de la présentation


Introduction


Approche conceptuelle de la recherche
d’images


Structuration de connaissances


Création de ressources


Applications


Conclusions et perspectives






22

13/05/007

DTSI

Domaines conceptuels


Constitution de structures sémantiques pour
trois domaines


Noms communs


Toponymes


Noms de personnalités


Choix dirigé par


Leur intérêt pour la recherche d’image


grand
nombre de requêtes de ces trois types


La possibilité d’adapter ou de construire des
structures linguistiques à large échelle




23

13/05/007

DTSI

Adaptation de WordNet


Synsets de la base lexicale existante


Ajout d’une mesure de proximité conceptuelle






Format de sortie des résultats

freqWeb

: fréq. de cooccurrence de deux termes sur le web


distance

: nombre de nœuds dans la hiérarchie entre
c1

et
c2


sens
: nombre de sens différents de
c1



24

13/05/007

DTSI

Évaluation de l’adaptation de WordNet


20 concepts du niveau de base (Rosch76) : animaux,
plantes, concepts naturels, artéfacts


7 évaluateurs


Comparaison avec la ressource linguistique de Ask
(
http://ask.com
)


Pertinence des termes proches








Couverture des ressources


Ask : moins de 10 requêtes proches pour 13 requêtes


WordNet : au minimum 10 requêtes proches pour
toutes les 20requêtes



25

13/05/007

DTSI

Olive


recherche d’images de noms communs


Exploitation de la version adaptée de WordNet et
de PIRIA (moteur CBIR du CEA LIST) (Joint04)


Caractéristiques


Représentation conceptuellement structurée des
requêtes


Utilisation sous
-
types feuilles de WordNet


Proposition de requêtes proches


Plus génériques


Plus spécifiques


Du même niveau


CBIR parmi les images du même terme feuille de
la hiérarchie


Olive
-

démo vidéo



26

13/05/007

DTSI

Évaluation d’Olive


Précision de la recherche


Comparaison avec Google Images, sur un panel de
20 concepts, avec 8 participants




Meilleurs résultats pour 15 concepts testés


Précision du CBIR


Comparaison avec Cortina (Quack04)




Test utilisateurs


10 participants


Comparaison avec Google Images


Structuration sémantique des résultats appréciée


Amélioration de l’interactivité perçue comme utile

Olive

Google Images

P@20

64%

56%

Olive

Cortina

P@10

52%

6%



27

13/05/007

DTSI

Construction d’un thésaurus géographique


Définition d’un thésaurus géographique (Hill99)


Élément = (
nom
,
coordonnées
,
type
)



Structure d’un thésaurus géographique


Organisation hiérarchique (relation isA)


Notre Dame de Paris

est une
cathédrale


Inclusion spatiale


Notre Dame de Paris



Paris



Île de
France



France


Non considérée dans la définition de Hill



28

13/05/007

DTSI

Sources d’information


Réutilisation d’une ressource existante et enrichissement
automatique


Geonames (geonames.org) : base de données géographiques
constituée manuellement


Wikipédia : Nombre important d’articles décrivant des
toponymes


Alltheweb : moteur de recherche d’informations


Panoramio


partage d’images
géo
-
référencées


>6 millions d’images + descriptions


Validation du contenu



29

13/05/007

DTSI

Construction d’un thésaurus géographique

Sources

de données


Gazetiki

Extraction

Localisation

Catégorisation

Classement

Golden Gate

Bridge

37,819

-
122, 479

Bridge

253300

85000

Extraction / Analyse


Gazetiki


Plus de 7 millions d’entités géographiques


Thésaurus couvrant la plupart des régions du monde



30

13/05/007

DTSI

Extraction de toponymes et localisation


Extraction de toponymes


Wikipédia


titres des


articles


Panoramio


dictionnaire


de concepts géographiques


+ règles d’extraction


Localisation


Wikipédia


coordonnées


de l’article


Panoramio


statistiques


sur les images décrites


par un toponyme

Longitude : 21,2478

Latitude : 45,757



31

13/05/007

DTSI

Catégorisation et classement


Catégorisation


Wikipédia


dictionnaire du domaine + utilisation de la
première phrase, des catégories et de l’Infobox



Panoramio


dictionnaire du domaine + statistiques sur le
texte des résultats de AlltheWeb







Classement


deux composantes


Panoramio
nombre d’images x nombre d’utilisateurs


AlltheWeb
nombre de résultats

+



32

13/05/007

DTSI

Évaluation de Gazetiki


15 villes: comparaison avec TagMaps (Rattenbury07) ou
Geonames


Couverture et précision améliorées par rapport à TagMaps






Localisation avec Panoramio


Majorité des coordonnées


à <200 m


Catégorisation


Précision

Couverture

TagMaps

85%

1915

Gazetiki

90%

6087

Wikipedia

Panoramio

Nb éléments

217

326

Erreurs

13

32

Précision

94%

90%



33

13/05/007

DTSI

ThemExplorer


recherche d’images de toponymes


Exploitation de Gazetiki et de PIRIA


Présentation de noms d’entités précis


Pas de divisions administratives


Caractéristiques


Navigation basé sur une carte interactive fournie
par Yahoo!


Navigation selon des catégories


CBIR parmi les images du même toponyme


ThemExplorer
-

démo vidéo




34

13/05/007

DTSI

Évaluation de ThemExplorer


Restriction de l’espace de recherche pour le CBIR sur 20
images, avec 6 participants





Fusion de descripteurs pour le CBIR sur 20 images, avec 6
participants





Test utilisateurs


8 participants


Comparaison avec World Explorer (Ahern07)


Navigation selon des catégories et CBIR bien appréciées


Couverture de Gazetiki sensiblement meilleure que celle
de TagMaps


Problème avec les tags apparaissant en double


Restriction

Spatiale

Spatiale + mots clef

P@10

29%

51%

Descripteurs

globaux

locaux

Globaux + locaux

P@10

57%

60%

70%



35

13/05/007

DTSI

CelebWiki
-

structure pour les noms de personnalités


Analyse des articles Wikipédia décrivant des acteurs,
musiciens, footballeurs et modèles


Infobox, catégories, tableaux, texte de l’article


Extraction


Données biographiques


Données relatives à leur activité


Ajout d’une mesure de pertinence




Ajout d’une mesure de proximité conceptuelle




36

13/05/007

DTSI

Évaluation de CelebWiki


20 noms d’acteurs, musiciens et footballeurs


8 participants au test


Comparaison avec la ressource linguistique
de Ask


Pertinence des termes proches





Couverture (370 de requêtes)



37

13/05/007

DTSI

Safir


recherche de noms de personnalités


Exploitation de CelebWiki et de PIRIA


Caractéristiques


Représentation conceptuellement structurée des
noms de célébrités


Utilisation des informations dans CelebWiki


Proposition de requêtes proches


Noms de personnalités associées


Requêtes plus génériques


CBIR parmi les images de la même personne


Safir
-

démo vidéo (lien à mettre)




38

13/05/007

DTSI

Safir


recherche de noms de personnalités



39

13/05/007

DTSI

Évaluation de Safir


Précision de la recherche


Comparaison avec Google Image sur 20 noms de
personnalités, avec 5 participants




La reformulation des requêtes n’améliore pas la
précision des résultats


Meilleure précision pour Safir dans le cas des
footballeurs


Safir

Google Images

P@20

60%

68%



40

13/05/007

DTSI

14/10/2008

Plan de la présentation


Introduction


Approche conceptuelle de la recherche
d’images


Structuration de connaissances


Création de ressources


Applications


Conclusions et perspectives






41

13/05/007

DTSI

Conclusions


Structuration automatique de connaissances à
grande échelle à partir du Web


Méthode de recherche d’images par le contenu
dans des espaces conceptuellement cohérents


Proposition d’une méthode de recherche
sémantique d’images sur Internet


Intégration des structures linguistiques et du
CBIR


Application à trois domaines conceptuels


Noms communs


Toponymes


Noms de personnalités


Résultats très encourageants pour les deux
premiers cas



42

13/05/007

DTSI

Perspectives


Traitement des requêtes complexes


Résultats positifs dans la campagne d’évaluation
ImageCLEF





43

13/05/007

DTSI

Perspectives


Focalisation du travail sur le domaine géographique



Amélioration de la structuration des connaissances


Catégorisation multilingue


Ajout de nouvelles relations : inclusion spatiale, synonymie


Amélioration des traitements par le contenu


Descriptions locales des images (sacs de mots visuels)


Classification supervisée


Annotation automatique d’images géo
-
référencées


Algorithme basé sur un k
-
PP


Une majorité de ces pistes s’inscrivent dans le projet ANR
Georama (CEA List


Exalead
-

ENSTB)



44

13/05/007

DTSI

Publications au cours de la thèse


Adrian Popescu, Pierre
-
Alain Moëllic, Ioannis Kanellos
ThemExplorer: Finding and Browsing Geo
-
referenced Images
,
CBMI 2008
, June 18
-

20, London, UK.


Adrian Popescu, Gregory Grefenstette, Pierre
-
Alain Moëllic
Gazetiki: Automatic Creation of a
Geographical Gazetteer
,
JCDL 2008

, June 16
-

20, Pittsburgh, USA.


Adrian Popescu, Pierre
-
Alain Moëllic, Ioannis Kanellos
A Conceptual Approach to Web Image Retrieval
,
LREC 2008
, May 28
-

30, 2008, Marrakech, Morroco.


Adrian Popescu, Ioannis Kanellos
Multilingual and content based access to Flickr
,
ICTTA 2008
, April 7
-

11, 2008, Damascus, Syria.




Adrian Popescu, Pierre
-
Alain Moëllic, Ioannis Kanellos
Utilisation de structures sémantiques pour la
recherche d'images sur Internet
,
ECOI Workshop, in conjunction with EGC 2008
, January 29, 2008,
Nice, France.



2007


Adrian Popescu, The RIAO 2007 Conference
-

A Personal View ,
ACM SIGIR Forum
, December 2007


Adrian Popescu
Large Scale Semantic Structures for Image Retrieval
,
ACM Multimedia 2007
,
September 24
-

29, Augsburg, Germany
-

doctoral symposium.




Adrian Popescu, Gregory Grefenstette, Pierre
-
Alain Moëllic
Improving Image Retrieval Using Semantic
Resources
,
to appear as book chapter in the Springer Series in Computational Intelligence



Adrian Popescu, Christophe Millet, Pierre
-
Alain Moëllic
Ontology Driven Content Based Image
Retrieval
,
CIVR 2007
-

posters session
, July 9
-

11, 2007, Amsterdam, The Netherlands.



Adrian Popescu
Image Retrieval Using a Multilingual Ontology
,
RIAO 2007
, May 30
-

June 1, 2007,
Pittsburgh, USA.


Christian Fluhr, Gregory Grefenstette, Adrian Popescu
Toward a common semantics between Media
and Languages
,
IWRIDL
, December 12
-
15, 2006, Kolkata, India


Adrian Popescu, Christophe Millet, Gregory Grefenstette, Pierre
-
Alain Moëllic, Patrick Hède
Imaging
Word
-

Wording Images
,
SAMT 2006
-

poster session
, December 6
-

9, 2006, Athens, Greece.


Adrian Popescu, Gregory Grefenstette, Pierre
-
Alain Moëllic
Using Semantic Commonsense Resources
in Image Retrieval
,
SMAP 2006
, December 4
-

5, 2006, Athens, Greece.



45

13/05/007

DTSI

Références


(Ahern07)


(Fellbaum98)


(Grefenstette07)


(Guha91)


(Hill99)


(Joint04)


(Liu07)


(Quack04)


(Ponzetto07)


(Rattenbury07)


(Rosch76)


(Sanderson99)




46

13/05/007

DTSI

Applications

14/10/2008