Robert VISEUR - Cetic

mustardunfInternet και Εφαρμογές Web

21 Οκτ 2013 (πριν από 3 χρόνια και 9 μήνες)

91 εμφανίσεις

Groupe de discussion
-

15/12/2005

1

Technologies de recherche Internet :

un état des lieux



Robert VISEUR

Guide technologique

CETIC

Groupe de discussion
-

15/12/2005

2

Contexte de l’exposé


Recherches appliquées menées au Cetic :


Technologies Open Source de crawl et d’indexation


Technologies Retroweb d’extraction Web (pages HTML)



Exploration de diverses pistes de valorisation :


Outils de migration semi
-
automatique de sites Internet statiques


Outils personnalisés de veille


Moteurs de recherche « grand public »


Moteurs de recherche professionnels (Intranet, Extranet, thèmes)



Les exposés découlent des travaux en matière de
développement d’outils de recherche sur mesure.


Groupe de discussion
-

15/12/2005

3


De quoi parle
-
t
-
on ?


Sujet : moteurs de recherche Web



Assemblages de plusieurs technologies :


Pour la collecte des données (crawler / spider / robot)


Pour l’indexation


Pour l’interrogation


Pour la présentation des résultats


Source

: LIFL

Groupe de discussion
-

15/12/2005

4

Le marché de la recherche grand public…


Acteurs internationaux


Google


Yahoo


MSN



Acteurs régionaux


Ask Jeeves


(en)


Seekport


(eu)



Acteurs locaux (fr
-
fr)


Voilà

(lié à France Telecom)


Exalead

(fonctions sémantiques)


Kartoo

(cartographie des résultats)



Constats :


La position de Google est très forte auprès du grand public... surtout
francophone.


Des acteurs plus petits peuvent croître et prospérer, grâce à de
nouveaux angles d’attaque (techniques et marketing) du marché.

Groupe de discussion
-

15/12/2005

5

Et ses chiffres


Part de marché
-

France


Google


69,18%


Yahoo




7,05%


Voila




6,05%


Msn



5,93%



Part de marché
-

Monde


Google


44.8%


Yahoo!


23.05%


MSN


12.09%


AOL



6.1%


Ask Jeeves




6.1%



Part des médias


Google


2,28 annonces par semaine


Yahoo!


0,96 annonces par semaine


MSN Search


0,74 annonces par semaine


Exalead


0,07 annonces par semaine

o
Acteur français : performant mais trop discret !

Groupe de discussion
-

15/12/2005

6

Spécialisation des outils de recherche


Shopping


Froogle


(développé par Google)


Kelkoo


(français, acheté par Yahoo!)


Gooster


(indépendant, initié par
Netbooster en France)



Actualités


Google News

(développé par Google)


Moreover


(acheté par MSN)


Feedster


(USA, indépendant, « univers » RSS)



Livres


Google Book

(développé par Google, ex
-
Google Print)


Amazon A9


(antérieur à Google Print)


Quaero


(réaction européenne à Google Print)




Vidéo / audio


Google Vidéo

(développé par Google)


Blinkx


(indépendant, reconnaissance vocale)



Constat

: la compétition reste ouverte !


Groupe de discussion
-

15/12/2005

7

Apports technologiques des outils spécialisés


Intégration de multiples sources d'information (Web, XML,
RSS, bases de données,...)


évolution des méta
-
moteurs Web


demande des entreprises, aussi


=> Prise en charge partielle par Retroweb



Post
-
structuration de l'information Web crawlée


utilisé par les moteurs d’actualités, les comparateurs de prix,...


=> Pris en charge par Retroweb



Extension à de nouveaux types de données (PDF, « Office
», MP3, AVI, PDF,…)


=> Architecture de greffons (
plug
-
ins
)

Groupe de discussion
-

15/12/2005

8

Forces et faiblesses de Google (1)


Forces


Part de marché dans la recherche Web (visibilité)


Couverture médiatique importante, image de marque


Forte tradition d'innovation


Infrastructure matérielle (réactivité)



Faiblesses


Fraîcheur et profondeur (dans certains domaines)


Manque d'intégration des projets


Peu d'innovation sur le moteur Web


Exemples

Google répond vite à de mauvaises questions (pas d’aide à la formulation de
requêtes).

Google ne catégorise pas les résultats (pas de distinction entre la voiture
Jaguar, le Mac OS Jaguar, le Jaguar de Francis Weber, le félin Jaguar,…).

Groupe de discussion
-

15/12/2005

9

Forces et faiblesses de Google (2)


Faiblesses (suite) :


Limites du PageRank atteintes

o
Problèmes de
spam

(
Google bombing
, fermes à liens)


« miserable failure » donne «
Biography of President George W. Bush

»


Comment ? Coalitions de webmestres !


Formes « douces » : échanges de liens massifs, fermes à liens,…

o
Problèmes liés aux blogs (par exemple)


Les moteurs de blogs sont optimisés pour le référencement et fortement
interconnectés (bon pour le Pagerank).


Conséquence

La pertinence de Google n’apparaît plus comme une référence.


o
L’algorithme du Pagerank perd sa force en cas de maillage faible


Conséquence

L’algorithme perd de sa pertinence en entreprise.


o
Par extension : inadéquation hors de la structure Web classique


Problème pour les actualités, le shopping, etc


Solution proposée par Google : TrustRank


Groupe de discussion
-

15/12/2005

10

Pourquoi cette domination ?


Le moteur reste globalement rapide et pertinent (peu de
raison de changer)



La concurrence se démarque peu



Sortie d’applications « tendances » (blogs, RSS, Ajax, etc)


Bon en terme d’image


Voir l’engouement populaire pour l’IPO de Google !



Lenteur des concurrents à attaquer sur le marché des
liens contextuels


Position très forte de Google sur le marché de publicité en ligne



Valorisation de la publicité contextuelle sur le moteur et
sur un réseau étendu de sites affiliés


Très forte rentabilité, permettant le financement du marketing et de la
recherche appliquée

Groupe de discussion
-

15/12/2005

11

Exemple d’outsiders (1)


Clusty


fonctionnement en métamoteur


catégorisation des résultats


Trafic

: 3.807ème site mondial



Exalead


requêtes sémantiques


catégorisation des résultats


Trafic

: 154.769ème site mondial



A9 / Amazon


personnalisation de l'interface +
Ajax


recherches dans le contenu des
livres


Trafic

: 1.369ème site mondial



Blinkx


indexation d'audio (dont
podcasts) et de vidéo


reconnaissance de la parole


Trafic

: 18.060 ème site mondial

Groupe de discussion
-

15/12/2005

12

Exemple d’outsiders (2)


Ujiko


fonctionnement en métamoteur


interface riche en Flash


personnalisation


dimension ludique (niveaux)


Trafic

: 139.612ème site mondial



Technorati


recherche de blogs


« tracking » des messages


Trafic

: 735ème site mondial



Seekport


moteur de recherche européen


recherche thématique


Trafic

:

o
67.874ème site mondial (.de)

o
132.212ème site mondial (.co.uk)



Constats

: ces outsiders
bénéficient souvent d’une
popularité appréciable.

Groupe de discussion
-

15/12/2005

13

Modèles d’affaires des moteurs de recherche


Positionnement payant


Marginal




Inclusion XML


Marginal




Publicité contextuelle


Modalité :

o
CPClic

o
CPCall (=> VoIP)


Appliqué par Google, Yahoo!, MSN, Ask
Jeeves,…




Autres :


Commissions sur les ventes (produits)


Services en entreprise (Exalead, FAST,
Antidot,…)

Groupe de discussion
-

15/12/2005

14

Quelques perspectives (1)


Web sémantique


Enjeux :

o
comprendre ce que l'utilisateur cherche

o
comprendre ce que contient l’information


Formes :

o
reformulation des requêtes

o
crawlers « intelligents »

o
catégorisation automatique



Web 2.0


Interactivité (Ajax)

o
Exemples :


A9 (affichage dynamique d'informations sur chaque site de résultats)


Google Suggest (suggestion de requêtes en temps réel)

o
Par extension : interfaces riches (Kartoo et, surtout, Ujiko)


Coopération entre les utilisateurs

o
Ajouter l'intelligence de l'humain à l'automatisme du moteur

o
Exemple :


« folksonomies »


Communautés

Groupe de discussion
-

15/12/2005

15

Quelques perspectives (2)


Moteurs P2P


Exemple : JXTA Search (Sun)


Questions en suspens :

o
Réactivité ?

o
Bonne solution pour du
crawl

multimédia (partage de bande passante et de
puissance de calcul) ?



Algorithmes Open Source


Idée : Algorithme de
ranking

intrinsèquement robuste


Problème : infrastructure


Exemple : Mozdex.com



Personnalisation


Personnalisation de l’interface


Géolocalisation de l’internaute => contenu local mis en avant



Divers :


Ouverture (API)


Ranking complexe : TrustRank, contextualisation,…


Intégration (avec poste de travail notamment)


Prise en charge de nouveaux types de documents

Groupe de discussion
-

15/12/2005

16

La suite…


Présentation des technologies développées et maîtrisées par le
Cetic dans le domaine de l’extraction, de la structuration et de
l’indexation de contenus Web



Exemples de références et de prototypes











La « surprise » du groupe de discussion

: le moteur de
recherche des contacts du Cetic



Groupe de discussion
-

15/12/2005

17

Questions ?