Fouille de textes : Extraction

cuttinglettersAI and Robotics

Oct 20, 2013 (3 years and 8 months ago)

99 views

Fouille de textes : Extraction
Itérative de la Terminologie

Mathieu ROCHE

(
Équipe IA
-
TAO du LRI)



12 novembre 2003

Journées de l’Ecole Doctorale 2003


Journée de l'Ecole Doctorale 2003

2

Axe « fouille de textes »

de l’équipe IA
-
TAO


Yves Kodratoff

Ahmed Amrani

Jérôme Azé

Thomas Heitz

Oriane Matte
-
Tailliez

Mathieu Roche


Journée de l'Ecole Doctorale 2003

3

Plan de l’exposé



Approche globale



EXIT : EXtraction Itérative de la Terminologie


La méthode utilisée


L’évaluation des résultats



Conclusion et perspectives

Journée de l'Ecole Doctorale 2003

4

Approche globale

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
brut

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
nettoyé

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
étiqueté

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Termes

Traces de
concepts

-

découverte de
règles
d’association

-

extraction
d’information
par patrons
d’extraction



Nettoyeur

Etiqueteur

EXIT

Détection
des traces de
concepts

Extraction
d’informations

Journée de l'Ecole Doctorale 2003

5

Étape 1 : Nettoyage


Description du corpus





La question biologique
:

Comprendre l’organisation, la dynamique
des protéines qui interagissent directement avec l’ADN, chez la
levure
Saccharomyces cerevisiae
.


DNA
-
binding proteins Yeast



6000 textes (10 Mo)

MEDLINE
-

NCBI

6000 résumés d’articles = CORPUS

Journée de l'Ecole Doctorale 2003

6

Étape 1 : Nettoyage


Nettoyage lié au format du corpus



1: Biochim Biophys Acta 2001 Dec 30;1522(3):175
-
86


The modulation of the biological activities of mitochondrial histone Abf2p by

yeast PKA and its possible role in the regulation of mitochondrial DNA content

during glucose repression.


Cho JH, Lee YK, Chae CB.


Department of Life Science and Division of Molecular and Life Science, Pohang
University of Science and Technology, 790
-
784, Pohang, South Korea


The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is
essential for

the maintenance of mitochondrial DNA (mtDNA) and appears to play an
important

role in the recombination and copy number determination of mtDNA.


PMID: 11779632 [PubMed
-

in process]

Journée de l'Ecole Doctorale 2003

7

Étape 1 : Nettoyage


Uniformisation du corpus

Règles

:

Grâce à une liste de près de 2000 alias
de gènes associés à leur nom
générique, nous avons remplacé ces
alias par leur nom générique.



Ex

: ISE1, LIS1, SED6


ERG6


alias

Journée de l'Ecole Doctorale 2003

8

-

-

-

-

-

-

-

-

-


-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Étiqueteur

grammatical

Corpus nettoyé

Corpus étiqueté

-

-

-

-

-

-

-

-

-


-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Étape 2 : Étiquetage

The modulation
of the
biological
activities of
mitochondrial
histone
Abf2
-
protein ...

The
/DT

modulation
/NN

of
/IN

the
/DT

biological
/JJ

activities
/NNS

of
/IN

mitochondrial
/JJ

histone
/NNP

Abf2
-
protein
/NNP

...

Étiqueteur
de Brill

Journée de l'Ecole Doctorale 2003

9

-

-

-

-

-

-

-

-

-


-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Étiqueteur

grammatical

Corpus nettoyé

Corpus étiqueté

-

-

-

-

-

-

-

-

-


-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Étape 2 : Étiquetage

ETIQ : Application pour adapter l’étiquetage de
Brill à des textes spécialisés (Ahmed AMRANI).

Journée de l'Ecole Doctorale 2003

10

Étape 3 : EXIT (Extraction Itérative
de la Terminologie)

-

-

-

-

-

-

-

-

-


-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus étiqueté

DNA binding

TATA binding

binding motif

transcription factor

Liste de termes

Termes extraits

:


Nom
-
Nom


Adjectif
-
Nom


Nom
-
Préposition
-
Nom


Nom
-
verbe_gérondif


Formule
-
Nom

Journée de l'Ecole Doctorale 2003

11

Étape 4 : Détection de traces de
concepts


Exemple de traces de concepts en biologie

TRANSCRIPTION
-

ACTIVATOR
-
GENE

TRANSCRIPTION

INITIATION

TRANSCRIPTION

REGULATION

TRANSCRIPTION

TFIID
-
complex

SAGA
-
complex

TRANSCRIPTION

INITIATION MACHINERY

MSN4

MSN2

Journée de l'Ecole Doctorale 2003

12

Étape 4 : Détection de traces de
concepts


Exemples d’instances de concepts


(bending:Sujet,influence:Verbe)

Bendng


transcription
-
factor


Regulfactor



Caractérisation des traces de concepts
dans les textes


utilisation du logiciel de visualisation
ROWAN


induction en extension sur les concepts

Journée de l'Ecole Doctorale 2003

13

2

patrons d'extraction sont nécessaires

pour rechercher la

spécificité des protéines codées par les gènes de régulation de

transcription :




MSN2 encodes
SpécificitéFacteur



MSN4 encodes
SpécificitéFacteur

Étape 5 : Extraction d’informations



Extraction d'informations par patrons
d'extraction


Exemple
:

…MSN2 encodes a
zinc
-
finger transcriptional activator

, ...

…MSN4 encodes a
DNA
-
binding component of the stress
responsive system

, ...


Journée de l'Ecole Doctorale 2003

14

1 seul patron d'extraction suffit

pour rechercher la spécificité des

protéines codées par les gènes de régulation de transcription avec

la
connaissance sémantique
.




$TranscriptionActivitor

encodes
SpécificitéFacteur

Étape 5 : Extraction d’informations



Extraction d'informations par patrons
d'extraction


Exemple
:

…MSN2 encodes a
zinc
-
finger transcriptional activator

,
...

…MSN4 encodes a
DNA
-
binding component of the stress
responsive system

, ...


Journée de l'Ecole Doctorale 2003

15

Étape 5 : Extraction d’informations


Extraction de règles d’associations
[Kodratoff et al., 2003]



(bending:Sujet,influence:Verbe)

Bendng

DNA
-
duplex




DNAconformatn

transcription
-
factor
Regulfactor

gal4
-
binding




Regulfactor

interaction
-
with
-
TFIIB



Transcriptn


Bendng, DNAconformatn, Regulfactor


T牡湳捲楰in

Journée de l'Ecole Doctorale 2003

16

Approche globale

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
brut

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
nettoyé

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
étiqueté

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Termes

Traces de
concepts

-

découverte de
Règles
d’association

-

extraction
d’informations
par patrons
d’extraction


Nettoyeur

Etiqueteur

EXIT

Détection
des traces de
concepts

Extraction
d’informations

Journée de l'Ecole Doctorale 2003

17

-

-

-

-

-

-

-

-

-


-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Étiqueteur

grammatical

Extraction des

collocations

Sélection

des “meilleurs”

collocations

Corpus nettoyé

Corpus étiqueté

-

-

-

-

-

-

-

-

-


-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


insertion mutation

hydrogen peroxide

DNA binding

SH2 domain


EXIT : la méthode utilisée (1/5)

DNA binding

TATA binding

binding motif

transcription factor

Journée de l'Ecole Doctorale 2003

18

EXIT : la méthode utilisée (2/5)


Une méthode statistique



Information Mutuelle

[Church et Hanks, 1990]

Journée de l'Ecole Doctorale 2003

19

EXIT : la méthode utilisée (3/5)


Une méthode statistique


Rapport de vraisemblance

[Dunning, 1993]







RV
= a log(a) + b log(b) + c log(c)


+ d log(d)
-

(a+b) log(a+b)
-

(a+c) log(a+c)


-

(b+d) log(b+d)
-

(c+d) log(c+d)


+ (
a+b+c+d)

log(
a+b+c+d
)

y

y' avec y'


y

x

a

b

x' avec x'


x

c

d

Journée de l'Ecole Doctorale 2003

20

EXIT : la méthode utilisée (4/5)


Paramètres ajoutés
[Roche, 2003]




Privilégier les termes qui apparaissent dans des
textes différents.








Journée de l'Ecole Doctorale 2003

21

EXIT : la méthode utilisée (5/5)


Interface développée en Java par Thomas Heitz

Journée de l'Ecole Doctorale 2003

22

EXIT : évaluation des résultats
(1/5)


La précision


1.
real world

2.
neural network


3.
frequent itemset


4. remote sensing

5.
naive bayes



1. real world

2. neural network

3. frequent itemset

4. remote sensing

5. naive bayes



Termes extraits

Journée de l'Ecole Doctorale 2003

23

EXIT : évaluation des résultats
(2/5)




Les courbes d’élévation (« lift chart ») :
variation de la précision en fonction du
nombre de termes proposés à l’expert


Journée de l'Ecole Doctorale 2003

24

EXIT : évaluation des résultats

(3/5)


Le rappel


Impossible à calculer !!

Journée de l'Ecole Doctorale 2003

25

EXIT : évaluation des résultats

(4/5)


Comparaison de mesures
[Roche et al., 2003]


Journée de l'Ecole Doctorale 2003

26

EXIT : évaluation des résultats

(5/5)


Courbes d’élévation avec l’information mutuelle et le
rapport de vraisemblance

Journée de l'Ecole Doctorale 2003

27

Conclusion et perspectives




Expérimenter les mesures d’induction
mises en place



Étudier les textes entiers.


Journée de l'Ecole Doctorale 2003

28

Approche globale

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
brut

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
nettoyé

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Corpus
étiqueté

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-


Termes

Traces de
concepts

-

découverte de
règles
d’association

-

extraction
d’information
par patrons
d’extraction



Nettoyeur

Etiqueteur

EXIT

Détection
des traces de
concepts

Extraction
d’informations