PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE NUCLEAIRE DE ...

frogsspiffyΤεχνίτη Νοημοσύνη και Ρομποτική

18 Ιουλ 2012 (πριν από 5 χρόνια και 1 μήνα)

479 εμφανίσεις

Analytica Chimica Acta, 217 (1989) 85-100
Elsevier Science Publishers B,V., Amsterdam - Printed in The Netherlands
85
PREVISION DES SPECTRES DE RESONANCE MAGNETIQUE
NUCLEAIRE DE 13C PAR INTELLIGENCE ARTIFICIELLE: LE
PROBLEME DE LA CODIFICATION
JEAN P. GASTMANS*, JOSB C. ZURITA et JOAO SAHAO, JR.
Znstituto de Quimica, Universidade Estadual Paulista, 14800Araraquara, 5’60 Paul0 (Brazil)
VICENTE DE P. EMERENCIANO
Znstituto de Quimica, Universidade de Sk Paul0 (Brazil)
(Rep le 12 Octobre 1987)
SUMMARY
(Prediction of W-nuclear magnetic resonance spectra by artificial intelligence: the problem of
coding structures. )
Possible errors in earlier methods of coding structures are discussed, particularly with regard to
(Y- and &conformation and double bonds. The proposed method of coding is based on the absolute
interatomic distances and the relative orientations of atoms. The coding system agrees with pre-
vious theoretical equations, except for density matrices; the usual classification of (Y, /.l and 6
effects is obviously not included. An advantage of the method is that neighbouring atoms which
have negligible effect are not included in the coding, so that the number of plausible structures is
reduced. Another advantage is that similar structures can be tested, atom by atom, to a level at
which complete structural equivalence no longer exists. The program developed on this basis is
applicable with personal computers and provides options which enable the theoretical spectrum
to be predicted, the signals to be interpreted if the experimental spectrum is known, and the
influence of each neighbouring atom on the carbon signal to be studied.
RESUMB
Divers methodes anterieures de codification sont discutees. Nous proposons un nouveau code
base sur les distances interatomiques absolues et sur les orientations relatives des atomes entreux.
Ce code respecte les equations theoriques anterieurement developpees, sauf en ce qui concerne les
matrices de densite. La classification habituelle des effets en CY, /3, 6, etc. nest dvidemment plus
respect&e. Lavantage de cette methode est que la majorite des atomes voisins dont linfluence est
negligeable ne font pas partie du code, diminuant ainsi le nombre de structures necessaires. Un
aut,re avantage est quil permet de rechercher des structures semblables, atome par atome a lin-
terieur dun niveau sans quil nexiste une equivalence complete de structures. Le programme per-
met, suivant les options choisies, de prevoir le spectre theorique, dattribuer les signaux si le spectre
experimental est connu, et detudier linfluence que chaque atome voisin exerce sur le signal dun
carbone.
L’emploi des systemes d’intelligence artificielle en spectroscopic resonance
magnetique nucleaire (RMN) de 13C a fait l’objet de nombreuses recherches
ces dernieres an&es [l-8]. Les methodes de codification de Bremser [9],
0003-2670/89/$03.50
0 1989 Elsevier Science Publishers B.V.
86
Bremser et Fachinger [lo], le code DARC (description, acquisition, retrieval,
computer-aided designs) [ 111 et celle du groupe de Stanford [ 121 sont prob-
ablement les plus connues et employees. La recherche se base sur une banque
de don&es dans laquelle l’ordinateur recherche des structures semblables a
celles du compose etudie. Ces methodes different entr’elles par la man&e dont
les substructures sont d&rites. Bremser [9], Bremser et Fachinger [lo] et le
code DARC [ 111 codifient les substructures en de’crivant le voisinage topolo-
gique de chaque atome. La codification du groupe de Stanford [ 121 est plus
complete puisque le code contient des informations configurationnelles.
Nous avons tent6 d’elaborer une banque de don&es en accord avec le sys-
tkmes de codification de Bremser et du groupe de Stanford et nous l’avons
testee sur quelques monoterpenes et diterpenes. Les resultats que nous avons
obtenus sont decevants. Dans le code de Bremser, nous avons observe des di-
zaines de cas ou les codes sont identiques pour des carbones spectroscopique-
ment differents; certains cas peuvent engendrer des erreurs importants, par
exemple les substructures I et II (Fig. 1). Dans la substructure I, les deux
methyles, qui ont le m6me code, absorbent differemment (C, aux environs de
25 ppm et C, aux environs de 17 ppm). Dans la substructure II, l’erreur est
encore plus dvidente, entre les methyles axiaux et Qquatoriaux, on observe une
difference de 12 ppm, bien que leurs codes soient identiques. La codification
de Stanford Qlimine la plupart des grandes erreurs commises par celle de Brem-
ser. Seules subsistent les erreurs dues a des differences conformationnelles,
qui, en regie g&r&ale, ne sont pas t&s importantes. Le grand desavantage de
la codification de Stanford, ne reside cependant pas dans la precision des prev-
:>= g :Q:
A
I
II.
m
nL
Fig. 1. Analyse des codes de Bremser et de Gray.
87
isions, mais dans lenorme quantite de substructures a Qtre definies, une bonne
partie dentrelles, absolument inutiles.
Prenons le cas des mono&penes, par exemple le compose III (Fig. 1) . Les
codes des atome marques (0 ) englobent tous les atomes de la molecule. Par
consequent, ces code ne se repeteront jamais dans un autre compose et leur
utilite en tant que prevision est nulle. 11 existe m&me des cas, et ils ne sont pas
rares, ou les codes de tous les atomes dune molecule seront uniques, car chacun
decrit la molecule entiere, par exemple la molecule IV. Pour dautres raisons,
le mQme fait, cest-a-dire linutilite de nombreuses substructures, sobserve chez
les diterpknes.
Prenons le cas de la molecule V. Les groupes en position 6 par rapport a C,
pour lesquels il existe des don&es experimentales sont indiques par les lettres
A, B, D et E. Le absorptions de C, en fonction de la nature de ces groupes sont
reprises dans la Tableau 1. Dans la codification de Stanford, ces 9 substruc-
tures sont differentes. Du point de vue pratique, 8 de ces 9 substructures sont
parfaitement inutiles, car il est evident que linfluence de ces quatres groupes
sur labsorption de C, est ndgligeable. Dautre part, la codification sur quatre
liaisons est essientielle, sinon les mQmes erreurs commises par le code de Brem-
ser vont reapparaitre (comme, par exemple, les trois methyles du compose II).
Nous avions codifie 3576 carbones appartenant aux mono- et di-terpenes.
Ces carbones Qtaient d&rites par 3024 substructures. Cette constation nous a
fait abandonner cette methode. 11 devenait evident que les previsions se fer-
aient principalement h des niveaux inferieurs au niveau 6. A ces niveaux, les
erreurs deviennent importantes. 11 nest pas rare quelles depassent 10 ppm,
mQme au niveau y. Cette observation nous a conduit a ddvelopper une nouvelle
methode de codification que nous prdsentons dans ce travail.
TABLEAU 1
Influence spectrale des atomes 6 (composb V)
A
B D
E
C7 (ppm)
CH,
CH,
_C=
CH,
-CH,
C&
CH,
-CH,
CHz
CH,
CH,
-CH,
_C=
CH,
CH,
CH,
CH,
CH,
CH,
CH,
CH,
CHz
-CH
-CH
CH,
CHz
=c
=CH,
=CH,
=CH,
=CH,
=CH,
=CH2
-0
=o
-0
40.4
41.2
41.6
39.9
39.8
39.1
40.6
40.3
39.9
moyenne: 40.3
METHODE
Codification
La codification est faite automatiquement par lordinateur a partir des don-
&es suivantes: (1) la description du compose, reduite 21 un vecteur; (2) les
coordonndes spatiales (x, y et z) de chaque atome.
Le vecteur reduit doit contenir toutes les informations necessaires pour que
lordinateur puisse construir la matrice de connectivite correcte. Les regles qui
regissent la construction du vecteur reduit sont done arbitraires et dependent
du propre logiciel. Celles dont nous nous servons sont les suivantes. Apres avoir
numerate tous les atomes, le vecteur est construit en indiquant: (1) les nu-
meres initiaux et finaux de toutes les chaines; une chaine est la succession
datomes lies chimiquement et de numerotations croissante (par exemple, une
chaine l-10 signifie que latome 1 est lie Ir latome 2, celui-ce a son tour est lid
a latome 3 etc.); (2) le signal
- 1 suivi des numeros des atomes des liaisons
qui ne sont pas reprises dans les chaines; (3) le signal -2 suivi du numero
atomique de lhdteroatome et les positions ou il se trouve; le processus peut Qtre
rep&e sil existe plusieurs heteroatomes; (4) le signal -3 suivi des numeros
des atomes des liaisons doubles; (5 ) le signal - 4 suivi des numeros des atomes
aromatiques; (6) le signal - 5 suivi des numeros des atomes des liaisons triples;
(7) le signal - 9 pour clore le vecteur.
Par exemple, le vecteur du compose VIII sera: 0114151718202123 -
101140422042705140720081308151016132414231625 - 2082321 - 202526 -
321221926 - 9
Les coordonnees sont obtenues manuellement, cest dailleurs la partie la
plus laborieuse du systeme, a partir de la projection du modele moleculaire dans
58
(XII)
au)
conformation la plus stable sur les plans xy et xz. Les distances de liaison sont
padronisees a lechelle de 4.1 cm/A. Les erreurs de coordonndes qui pourraient
Qtre Qventuellement comises par loperateur seront corrigdes automatiquement
par lordinateur. Le fait de codifier les molecules dans leur conformation la
plus stable nous permet, en principe detudier les signaux des carbones qui ne
sont pas fixes dans une structure rigide. Ce raisonnement nest Qvidemment
valable que sil nexiste quune conformation nettement plus stable, ce qui est
souvent le cas. Par exemple, dans le compose VII, les signaux des 2 methyles
sont differents, mais leurs codes le sont Qgalement. Celui de C!, tiendra compte
89
de latome doxygene, tandis que celui de C, lignorera. De plus, si lon effectue
un mouvement de rotation autour de laxe de la liaison a, le code de C, va se
modifier par le biais de la distance entre C, et lhydroxyle, comme, dailleurs le
code de C, qui pourra contenir latome doxygene si langle de ;otation est tel
que la distance entre C, et loxygene devient inferieur a 4.25 A [voir (d) ci-
dessous] .
Les coordonndes pourraient Qtre obtenues par photographie, ce qui est un
moyen beaucoup plus simple et rapide [ 131. Cependant, comme nos modeles
moleculaires sont asset grands (certains depassent 70 cm), les problemes de
parallaxe sont frequents et deviennent rapidement insolubles. Cest la raison
pour laquelle nous avons opte pour la mesure manuelle bien quelle soit plus
laborieuse.
A partir de ces deux don&es, lordinateur codifie chaque carbone de la man-
i&e suivante.
(a) 11 attribue un numero-code a chacun de ses voisins. Actuellement, il peut
reconnaitre et codifier 22 groupes differents qui sont repris dans la Tableau 2.
Nous developpons actuellement une deuxieme version qui permettera de trai-
ter Qgalement le soufre et les halogenes.
(b) 11 associe au code de chaque voisin, la distance a laquelle il se situe par
rapport au carbone codifie.
(c ) 11 associe au carbone codifie, son propre numero-code et un chiffre (SS)
qui est la somme des distances entre les premiers et seconds voisins non lies
chimiquement. Ainsi, pour le carbone Cz du /?-methylcyclohexane (VI), on
obtient: SS, EC&+&, ou & est la distance entre les atomes 1 et 6, et d14 est
la distance entre les atomes 1 et 4, tandis que pour lcu-methylcyclohexane,
nous aurons: SS2=dlP6+d1,1. Dans la grande majorite des cas, les propres dis-
tances interatomiques mention&es en (b) sont suffisantes pour distinguer des
conformations differentes. Ainsi, le code de latome C6 sera different suivant
que le mdthyle soit axial (1) ou equatorial (1 ). La difference se notera au
dernier niveau. Dans certains cas, cependant, les codes peuvent &tre Qgaux bien
TABLEAU 2
Code des groupes atomique
Groupe
Code
Groupe
Code
Groupe Code Groupe Code
CH,
1 c=
7 o=
13
N 18
CH,
2 HC=
8 OH
14
NH= 19
CH
3 C=
9 0
15
N- 20
C
4 HC”
10 NH2
16
N- 21
H,C=
5 C”
11 NH
17
N? 22
HC=
6 =C=
12
C? et N+ reprkentent lea carbones et azotes aromatiquee.
90
TABLEAU 3
Influence des conformations differentes sur le code datomes structurellement equivalents
Groupe *
Code de C, (numero-code, distance en A)
Methyle axial (C, )
C1(1,1.54); C3(2,1.54); C&(2,1.54); C&(2,2.44); C,(2,2.44);
Ck(23.0)
SS=11.7 A
Mkthyle equatorial (C,  )
C,,(1,1.54); C,(2,1.54); C&(2,1.54); C,(2,2.44); f&(2,2.44);
c,(2,3.0)
ss=13.5ii
Groupe Code de C3 (numero-code, distance en A)
Methyle axial (C 1 ) C,(2,1.54); C,(3,1.54); C,(2,2.44); &(1,2.44); C&(2,2.44);
C&(2,3.0)
SS=8.9 A
Methyle equatorial (C, )
Cd(2J.54); C,(3,1.54); C,(2,2.44); &(1,2.44); C,(2,2.44);
C&(2,3.0)
ss=9.7ij
que les conformations soient differentes. Cest le cas pour les carbones 2,3 et
7 dont les codes sont repris dans la Tableau 3, les valeurs de SS permettent
alors de distinguer les conformations differentes.
(d) Le code est tronqud a 4.25 A (17 cm), ce qui correspond a un peu plus
que la distance entre le premier et le quatrieme carbone du butane en confor-
mation alter&e.
A titre dexemple, nous reprennons les codes de quelques carbones du kaur-
ane (compose VIII) dans la Tableau 4. Pour des raisons de facilite, nous avons
&pare le code de chaque carbone en trois niveaux. Le premier setend jusqua
1.73 A (7 cm), il correspond strictement au niveau alpha. Les deuxieme qui
setend jusqua 2.86 A, et le troisieme ne correspondent pas aux niveaux p et y
classifiques. Ainsi,
dans le code de C1, le carbone C12, qui serait y,
apparait dans le second niveau; C,, et C&, apparaissent Bgalement dans le sec-
91
TABLEAU 4
Exemple de codification de carbone: Ci (code, distance en A)
C, (code 2)
SS= 19.65 A
C, (code 2)
ss =17.15 A
C,, (code 2)
SS=31.12 A
Cz2(code 7)
ss=34.05 A
Niveau 1:
Niveau 2:
Niveau 3:
Niveau 1:
Niveau 2:
Niveau 3:
Niveau 1:
Niveau 2:
Niveau 3:
Niveau 1:
Niveau 2:
Niveau 3:
C&(4,1.54); C,(2,1.54)
C,,(15,2.44); C&(3,2.44); C,(2,2.56); C,,(4,2.56); C,,(2,2.75)
C&(4,2.92); &(7,3.00); C,(4,3.53); C1,(2,3.58); C,,(1,3.75);
C,(2,3.78); 021( 13,4.04)
C,(2,1.54); &(2,1.54)
C,,(4,2.50); C,(4,2.50); C,,(7,2.65); 0,,(15,2.75)
C,(3,2.92); 021 (13,3.34); C,,(4,3.85); (I&( 1,3.90)
C11W.54); C,,(4+54)
&,(3,2.39); C,(4,2.44); C&(1,2.44); C,,(4,2.50); C&(2,2.53);
&(4,2.70); &(2,2.75); C,(2,2.82)
C17(1,2.82); 0*,(15,3.33); C,(3,3.78); C,(3,3.84)
0,,(13,1.23); 0,,(15,1.43); C4(4,1.54)
&(4,2.29); C,(3,2.31); C,(2,2.37); C&(1,2.53); C,(2,2.7)
C1(2,3.0); C,(2,3.1); &(4,3.51); C&(1,3.7)
ond niveau de C2, bien quil sagisse datomes y. En regle generale, on peut
constater que notre second niveau contient tous les atomes p, et quelques at-
omes y.
Quand on compare notre code a celui du groupe de Stanford, on remarque
que les groupes 6 apparaissent dans le troisieme niveau, mais ils ny apparais-
sent pas tous. Par exemple, dans le code de Ci, on ny trouve que deux groupes
S (C,, et Ozl), tous les autres (C&,
CT, C9 et C,,) sont exclus du code parce
quils sont trop Qloignes de C,. Ce fait est trks important, car il permet de
diminuer le nombre de substructures ndcessaires, sans rien perdre de la preci-
sion des resultats. La meme exclusion des groupes y, dont les influences sont
faibles, sobserve dans les codes des autres carbones. Par exemple, le code de
C, ne retient quun seul groupe 6( Ozl); les autres (C,,, Cz4, Cs et C,) sont
Qlimines.
Lordinateur realise sa recherche par niveaux entiers, ce qui est plus rapide,
mais il peut aussi, si lusager le desire, continuer sa recherche a linterieur dun
niveau par distances croissantes. Cette flexibilite nest pas possible dans les
autres methodes.
Le code que nous venons de decrire presente certains avantages, mais aussi
un grand inconvenient: chaque molecule doit 8tre construite et les coordonnees
atome doivent Qtre mesurees manuellement; ce qui represente un travail
laborieux.
Comme avantages, nous pouvons titer le qualites suivantes. Sa flexibilite
permet deffectuer des types de recherche inaccessibles aux autres logiciels. 11
nest pas necessaire de codifier tous les atomes. Les atomes dont linfluence est
92
preponderante sont inclus dans le code et les autres sont elimines. La prepon-
derance relative des atomes 6, est ddterminee par la distance a laquelle ils se
trouvent. Le code &ant tronque a 4.25 A, les atomes qui se trouvent a des
distances superieures sont Qliminds automatiquement. A lheure actuelle, nous
avons codifid 11725 signaux qui nont g&r&e que 6230 substructures. Ce code
respecte les equations theoriques obtenues anterieurement par la mecanique
quantique [ 14-171. Ces equations demontrent clairement que les signaux de-
pendent du type de carbone et de ses voisins (repris dans les numeros-code )
des distances auxquelles ces noyaux se trouvent (reprises par les distances) et
de langle entre laxe de symetrie de chaque voisin et le vecteur que relie celui-
ci au noyau du carbone (repris par SS) . Les codes de Bremser et de Dubois ne
reprennent que le premier et, dune maniere approximative, le second facteur.
Le code de Stanford ninclut quimparfaitement le second facteur. 11 existe
cependant une derniere variable qui intervient dans ces equations. Ce sont les
matrices de densite qui font partie du terme paramagndtique. Aucun code ne
reprend cette variable. 11 est done probable que les systemes dintelligence ar-
tificielle developpes jusqua present ne seront pas tres p&is quand ils seront
appliques aux composes aromatiques tels que flavones, lignanes, etc., pour les-
quels les effets mesomeres sont importants.
La banque de don&es est t&s compacte car lordinateur la construit par
substructures et non par signal. Chaque substructure occupe 78 bytes distri-
b&s comme suit: (1) 40 bytes pour numeros-code et les distances des atomes
voisins; (2 ) 2 bytes pour la valeur de SS; (3) la valeur minimum (2 bytes),
maximum (2 bytes), la somme de tous les signaux observes (3 bytes) et le
nombre de cas (2 bytes) pour chaque niveau, soit un total de 27 bytes; et (4)
les indices des prochains registres des niveaux 0, 1 et 2; soit 3 nombres de 3
bytes chacun. 11 est bien entendu que tous ces nombres sont transform& en
base alfanumerique.
Lorsque lordinateur doit introduire un nouveau signal dans sa banque de
don&es, il recherche dabord si la substructure existe. Si elle nest pas connue,
il tree un nouveau registre; sinon, il modifie le registre de la substructure pour
y inclure cette nouvelle don&e. 11 modifie ensuite les registres pour lesquels le
code des niveaux inferieurs est Qgal a celui de la nouvelle substructure. Par
exemple, si lordinateur reconnait une substructure au niveau 2, il c&era un
nouveau registre, modifiera le registre du niveau 2 ainsi que tous les registres
oh le code du niveau 1 est Qgal a celui de la nouvelle substructure. De meme,
sil reconnait une substructure au niveau 3, il va modifier le registre ou la sub-
structure est d&rite ainsi que tous les registres dans lesquels les codes des
niveaux 1 et 2 sont Qgaux a celui de la substructure pour y inclure cette nouvelle
don&e.
En procedant de la sorte, la banque est t&s compacte; ainsi les 6230 sub-
structures que comportent le systeme ne requierent que 500 kbytes. Lincon-
venient de ce type darchitecture est que lordinateur ne parvient plus h calculer
93
la deviation lors de la prevision. 11 est encore capable de la calculer globalement
en comparant toutes les don&es experimentales ri la banque entiere, mais il
nen est plus capable cas par cas comme dans les autres systemes.
Nous estimons cependant que, pour le spectroscopiste, la deviation nest pas
une don&e essentielle. A quoi lui sert-il de savoir que telle prevision est en-
tachee dune erreur statistique de 0.5 ppm, sil sait par experience, que le seul
effet de solvent peut selever 212 ppm? De plus, le nombre de cas observes nest
generalement pas suffisamment grand pour que la valeur de la deviation soit
une don&e statistiquement valable. Pour le spectroscopiste, les valeurs ex-
tr8mes entre lesquelles le signal devrait Qtre observe renferment des informa-
tions beaucoup plus importantes.
Algorithme
Le fluxogramme est represent6 dans la Fig. 2 et sera detail16 par la suite. Le
systeme offre trois options: soit simplement corriger les coordonnees (option
1 ), prevoir le spectre thdorique (option 2) et attribuer les signaux (option 3 ).
Correction. Apres la lecture des don&es, lordinateur corrige les coordonndes
fournies de telle maniere que les valeurs des distances de liaison soient Qgales
aux valeurs padronisees, avec une erreur tolerable de 0.035 A, et que les angles
de valence soient Qgaux aux angles dhybridation, avec une erreur de 5.
Lordinateur est programme pour reconnaitre les cycles tendus (Qpoxide,
cyclopropane...) et les traitent en consequence. Lordinateur ne parvient ce-
pendant pas toujours a effectuer les corrections necessaires. Sil en est incap-
able, il demande a ce que les don&es initiales soient corrigdes. En genera$ il
parvient a corriger les erreurs de coordonnees inferieures ou &gales a 0.05 A.
Pre’uision. Lors de cette &ape, lordinateur commence sa recherche par ni-
veaux, puis offre loption du sub-menu. Pour linstant, deux options ont 6th
greffees au programme principal. Nous developpons dautres options qui lui
seront successivement ajoutees.
La premiere option est la recherche precise. Sil y a eu coincidence des
codes a un niveau, lordinateur recherche dans le niveau suivant, la structure
la plus semblable par distances croissantes. La seconde option est 1exclusion.
Sil y a eu coincidence h un niveau, lordinateur recherche et presente toutes
les structures du niveau suivant. Nous avons remarque que cette option est
assez employee par les chimistes qui determinent la structure des produits na-
turels. Lorsquil apparait des doutes au sujet de la structure correcte, cette
option permet souvent deliminer ou de confirmer plusieurs possibilites. Cest
dailleurs la raison pour laquelle nous avons appele cette option #exclusion.
Attribution. Lordinateur Qtablit une matrice de correlation. Cette methode
a deja 4th d&rite [ 81, mais nous y avons cependant apporte quelques modifi-
cations. Les limites du spectre theorique sont Btablies de la man&e suivante:
si le nombre de cas observes est Qgal ou supdrieur au nombre limite repris dans
la Tableau 5, lordinateur se sert des valeurs de maximum et minimum obten-
94
option
-1
impokrible
possible
sortie 1 _I
sortie 2
sortie 3
Fig. 2. Fluxogramme du programme CTREZE.
ues lors de 16tape antdrieure. Si le nombre de cas est inferieur, les limites sont
Qtablies respectivement en additionnant et en soustrayant du signal p&vu lors
de letape anterieure, la plus grande erreur que lordinateur await pu com-
mettre pour ce type de carbone. Ces valeurs, qui sont reprises dans la Tableau
5, sont recalculees par lordinateur a partir de la banque de don&es au fur et
a mesure que de nouvelles molecules sont incorporees a cette banque. Ces va-
leurs sont done provisoires et peuvent Btre modifiees par le propre ordinateur.
Si la tentative dattribution nest pas courronnee de succes, il essaie h nou-
veau suivant la methode d&rite [a], mais uniquement au niveau oti les previ-
sions ont Qtk obtenues.
Par exemple, les minima et maxima de C1 du compose X (voir cidessous) ne
sont pas changes, mais ceux de C2 deviennent: minimum = 17.1 ppm et maxi-
mum = 40.9 ppm.
Deux cas speciaux sont p&us: (a) si une colonne j et une ligne? sont
Qgalement nulles, lordinateur dmet un avis et demande si le signal j peut
95
TABLEAU 5
Erreur maximum par numkro-code et par niveau
Code * Niveau 1 Niveau 2
Nombre limite: 35
Nombre limite: 12
Erreur max. (ppm) Erreur max. (ppm)
Niveau 3
Nombre limite: 5
Erreur max. (ppm )
1
2
3
4
5
6
7
8
9
10
11
12
36.1
14.9
2.6
21.2
11.9 2.4
29.4 19.4 2.9
22.3 15.0 2.5
19.0
14.7
3.0
26.0 10.7 3.0
30.8 15.9 2.9
23.1 9.9 1.5
22.9 12.1 1.7
19.8 6.4 2.9
14.3 5.0
1.4
I1 nexiste actuellement aucun allkne dans la banque de don&es.
Qtre attribue au carbonne 3; (b)  1
si e nombre de colonnes nulles est Qgal au
nombre de lignes nulles, lordinateur Qmet un avis dindecision. 11 solicite laide
de loperateur pour faire lattribution des signaux de ces carbones.
Banque de don&es
Comme dans tous les systemes dintelligence artificielle, la confiance que
lon peut deposer dans les resultats fournis, depend directement dune banque
de don&es correcte. La banque de donndes est cr6Qe automatiquement a partir
des coordonnees et des spectres dun certain nombre de composes. Actuelle-
ment, notre banque a Qte c&e a partir de 576 terpenes et sterols.
Dans notre codification, nous pouvons detecter trois sources possibles der-
reurs. Les coordonnees pourraient Qtre error&es. Comme lordinateur recalcule
ces don&es, et Qvent,uellement les modifie, cette source derreurs est pratique-
ment kliminee. Les coordonndes fournies proviennent dune analyse confor-
mationnelle ma1 realisde. En &alit& cette source derreurs est possible, mais
elle ninvaliderait pas la banque de donnees. On creerait simplement des sub-
structures inutiles. Les donnkes experimentales sont fausses. Cette source
derreurs est la plus pernicieuse, car elle est difficilement detectable.
Pour eviter au maximum les erreurs de ce type, nous avons pro&de de la
man&e suivante. Nous navons choisi que des don&es provenant darticles
de revision. Pour commencer notre banque, nous avons choisi 95 spectres de
monoterpenes. A partir de 94 de ces spectres, nous Qlaborions une banque de
don&es contre laquelle nous comparisons le 958me terpene. Ce processus a
96
et& rep&e pour chaque terpkne. A partir des resultats obtenus, nous avons
dlimine deux terpenes et rectifie lattribution de deux carbones du terpene IX
pour lesquels les signaux Qtaient manifestement intervertis. Par la suite, toutes
les autres molecules furent confrontees avec cette banque initiale et y Qtaient
incorporees si aucune attribution abdrrante nbtait observee.
Malgre les precautions prises, il se peut cependant que lune ou lautre erreur
se soit glissde dans la banque de don&es.
EXEMPLES
Evidemment, lordinateur ne fait que reproduire linformation quil a recu.
11 est done difficile de juger de la qualite dun logiciel exclusivement sur la base
dexemples. Ceux que nous presentons par la suite ne servent que dillustration
des possibilites actuelles du systeme.
Chaque ligne de la Tableau 6 (compose VIII) reprend le numero du carbone,
les valeurs minimum et maximum, la moyenne statistique de tous les signaux
TABLEAU 6
Exemple 1 (cornposh VIII)
C
Min. Max. Prev. Nombre de cas Niveau Attribution
Exp.
1 31.2 31.2 31.2
2
3
2 20.1 20.1 20.1 2 3
3 35.3 35.3 35.3 1 3
4 33.5 48.3 45.1 24
2
5
48.1 48.1 48.1 1
2
6 23.7
46.4 34.1
34
1
7 61.2 88.3
77.0
39
1
8
20.9 56.7 35.7 7
1
9 11.0 52.2 38.2
141 1
10 45.6 46.7 46.2 5
2
11 15.1 43.4 25.4 577
1
12 19.9 44.8
35.9 691
1
13 41.6 41.6 41.6
1 2
14 87.0 88.0 87.5
2 2
15 53.1
53.1
53.1
1
2
16 79.1
79.1 79.1 1
2
17 23.6 23.6 23.6
1 3
18 21.2
21.7
21.6
10 3
19
170.0 170.0
170.0
2
2
22
178.3 178.3 178.3
1 3
24 6.7 39.1 21.8 851
1
27 16.7 17.1
16.9 2 3
1,6,12
n
;,9,11
3,8,13
5,lO
6,9,11,12
7
8,13
13 6 9 11,12
f 9 9 t
5,lO
3,6,9,11,12
6,9,11,12
4,13
14,16
15
14,16
17
18
19
22
24
27
31.2
20.4
35.8
48.3
48.9
26.8
77.8
50.0
33.4
46.4
34.8
24.1
42.1
87.8
53.5
80.2
23.6
21.1
170.5
179.7
19.8
17.2
97
qui font partie de sa banque de donnees, le nombre de cas observes, le niveau
auquel la prevision est faite ainsi que les numdros des atomes auxquels
18 0
II
47
19
o*.
a!?
of 4 O 8 I4
(lx)
(Xl
le signal experimental pourrait Qtre attribue. Pour Qviter au maximum que les
attributions ne soient erronees, lordinateur doit tenir compte du fait que ses
previsions peuvent &re entachees derreurs parfois importantes (voir Tableau
5 ). En consequence, les attributions sont rarement uniques et le spectroscop-
iste devra intervenir. Nous nous sommes principalement prdoccupes de ce que
lordinateur ne se trompe que le moins souvent possible; ce qui est le cas ici.
Aucune des attributions faites nest fausse, mais seuls 9 signaux ont Qte attri-
b&s indiscutablement.
11 peut paraitre curieux que le signal a 31.2 ppm ne soit pas attribud indis-
cutablement a C, puisque le signal prdvu a exactement la m&me valeur. En
r&alit& le signal a 33.4 ppm pourrait t&s bien lui Qtre attribue si lon tient
compte des espaces derreurs de la Tableau 5. Comme on peut le voir, les re-
sultat ne sont p&is quau niveau 3, et a un degre moindre, au niveau 2. Pour
9 carbones, les previsions nont pas depasse le premier niveau. CQtait previ-
sible car ce kaurane possede une structure toute particuliere, differente de celle
des autres membres de la serie. Nous avons cependant choisi cet exemple a
dessein pour illustrer les possibilites de la premiere option du sub-menu: lop-
tion recherche precise.
Les previsions des signaux des carbones pour lesquels il fut possible de se
servir de loption recherche precise, sont reprises dans la Tableau 7. Pour
chaque carbone ayant fait lobjet de la recherche precise, nous presentons les
atomes qui ont et6 successivement inclus au code du niveau antdrieur, les dis-
tances auxquels ils se trouvent ainsi que les valeurs minimum, maximum, les
moyennes statistiques ainsi que le nombre de cas existants dans la banque de
don&es. Entre parentheses, nous reprenons la valeur experimentale.
On peut remarquer que dans la majoritd des cas, le recours 21 loption re-
cherche precise amdliore sensiblement les resultats. La deviation diminue de
0.85 a 0.70 et nest pratiquement due qua un seul signal, celui de C,,. Lerreur
commise sur le carbone 11 provient probablement du fait que lordinateur nest
pas parvenue 21 introduire 0z5 dans le code de recherche. La recherche precise
represente Qgalement une aide precieuse pour le spectroscopiste. Par exemple,
il nexiste maintenant plus de doute que le signal a 31.2 ppm ne peut Qtre at-
98
TABLEAU 7
RBsultats de i’option “recherche precise” appliquke au compose VIII
C Inclusion de
Distance (A) Min. Max. Prev. Nombre de cas
4
6
7
9
10
11
12
24
1
4
33.5 47.5
46.3(48.3)
10
20
2.47 22.3
38.4 29.8
15
14 2.52 22.3
27.6
24.9 6
8
2.55 22.3
27.6 24.7 5
4 2.65 22.3 24.8 24.0(26.8) 3
19 2.32 68.4
81.5 76.3 33
5 2.5 68.8 81.5 76.4 24
9
2.57
74.7 81.5 78.8
5
15
2.6
74.7 79.3 78.1(77.8)
4
13 2.37
30.1 47.2 39.8 23
24 2.45 30.1 47.2 40.1 11
16 2.47 32.7 39.1 35.9
2
15
2.5
32.7 32.7 32.7(33.4) 1
24
3.2 45.6 46.7 46.3 (46.4)
4
9 2.52 16.0 43.4 28.4 181
16 2.52 16.0 34.2
25.3
83
13 2.57 16.0 34.2 23.3 39
17 2.77 20.7 34.2 25.7 (34.8) 25
10 2.45 23.0 44.0 36.5 507
8
2.5
23.1 41.2 32.3 122
24 2.52 23.4 41.2 32.2 67
14
2.57 23.4 34.1 28.6
27
15
2.6
23.4 24.0 23.7(24.1) 3
9 2.45 11.2 39.0 22.3 305
8
2.45 11.4
28.1 18.0
48
12 2.52
19.7 20.8 20.3 (19.8)
2
tribue qua C,; que celui a 26.8 ppm ne peut Qtre attribue a C, etc., ce qui sim-
plifie considerablement le tableau des attributions. Finalement, le recours a
cette option permet de suivre levolution des signaux au fur et a mesure que le
voisinage du carbone se precise. On peut ainsi accompagner linfluence que les
differents atomes voisins peuvent avoir sur les signaux de 13C.
Dans la Tableau 8, nous presentons les resultats obtenus pour le compose X.
On peut verifier a nouveau la grande importance de la recherche a linterieur
du niveau (option recherche precise). Cette importance est particulierement
marquante pour les signaux des groupes methyles. Par exemple, la recherche
initiale du signal de C1s na pas depasse la premier niveau. Comme le nombre
de cas est tres grand, la recherche h linterieur du niveau suivant est parvenue
a augmenter dune maniere considerable la precision tout en conservant un
nombre de cas statistiquement significatif. Ainsi, h la fin de loption recherche
precise,
il restait 13 cas compris entre 11.4 et 15.3 ppm.
En plus, comme cette option permet daccompagner linclusion, un par un,
99
TABLEAU 8
Exemple 2 (composk X )
C Min.’ Max.
Prev. Cas Recherche pdcise Niveau
Exp.
1 25.9 41.4 37.6 23 37.2 2
32.2
2 29.0 29.0 29.0 2 - 3 29.0
3 63.8 71.8 66.5 10 66.5
2
66.5
4 38.3 38.3 38.3 1 - 2 36.3
5 39.0 46.3 34.1 3 43.4
2
39.2
6 28.8 29.0 28.9 3 - 3 28.3
7 19.7 33.2 31.0 25 31.0 2 30.9
8 31.7 50.2 37.7 34 36.1 1 35.1
9 46.4 56.7 54.3 25 55.0
2
54.5
10 35.6 36.9 36.3 14 35.6 2 35.8
11 20.3 21.7 21.0 15 21.1 2 20.1
12 34.1 43.4 37.7 17 -
2
31.7
13 47.7 54.9 51.3 2 - 2
47.8
14 51.6 54.6 52.7 3 - 2 51.5
15 21.7 31.3 29.1 12 21.7 2 21.8
16 35.1 35.7 35.4 2 - 3 35.8
17 220.4 220.4 220.4 1 -
3
221.0
18 6.7 39.1 21.8 851 14.1 1 13.8
19 11.4 21.7 14.9 10 11.8 2 11.2
des atomes voisins, loperateur peut frdquemment juger davance, si lordina-
teur reussira a prevoir correctement le signal theorique. Les resultats obtenus
pour C!, et C,, (ou C,,) en sont lillustration. Lhydroxyle attachee A C, est
dune importance fondamentale pour la valeur du signal de C,. Comme la re-
cherche precise nest pas parvenue a introduire cette hydroxyle, les valeurs
obtenues avant et apres la recherche sont sensiblement dgales et trks Qloignees
du resultat experimental. Par contre, les recherches precises des signaux de C,,
et C,, ont et6 couronnees de succes parce que lordinateur est parvenu a intro-
duire la carbonyle dans le code de recherches. En consequence, la prevision
sest sensiblement modifiee et maintenant elle coincide pratiquement avec la
don&e experimentale.
Conclusions
Lorsque nous avons commence ce travail, notre but Btait dimplanter le sys-
t&me developpe par Gray sur microordinateur du type IBM-PC. Nous navons
&labor6 ce nouveau code que lorsquil devint evidence pour nous que la codifi-
cation de Gray Qtait trop detaillee.
Du fait que ce logiciel a 4th developpe pour des ordinateurs personnels, il est
t&s lent compare aux autres. Chaque carbone demande en moyenne 20 seg. de
recherche, et la recherche h lintdrieur dun niveau prend A peu pres 2 min. Ce
100
desavantage est cependant compense par la facilite d’implantation et d’acces.
Le chimiste qui travaille en determination de structures n’a pas toujours un
acces aise aux grands ordinateurs. Les PC par contre, sont amplement diffuses
et dun emploi facile.
Statistiquement, les resultats que nous obtenons sont de qualite semblable
21 ceux du groupe de Stanford. Les deviations sont de m&me ordre de grandeur;
9.7 ppm au premier niveau, 3.0 ppm au second et 0.5 au troisieme. Le grand
avantage de notre methode reside dans le fait que le nombre de substructures
necessaires est moindre. C’est-a-dire que la probabilite d’obtenir des previsions
21 des niveaux Qleves est plus grande. Nous nous tenons a l’entikre disposition
des chercheurs qui s’interesseraient 21 ce logiciel.
Nous tenons a remercier particulierement notre technicien, Mr. Mario Cil-
ense Jr., pour l’aide precieuse qu’il nous a apportee. L’un de nous, J.C.Z., re-
mercie la FAPESP pour l’octroi dune bourse d’etude.
REFERENCES
1
2
3
4
5
6
7
8
9
10
11
12
13
14
W. E. Lamb, Phys. Rev., 60 (1941) 817.
15
J. Masun, J. Chem. Sot. A, 1 (1971) 1038.
16 J. A. Pople, Proc. R. Sot. London, Ser. A, 239 (1957) 550.
17
G. A. Olah et G.D. Matesco, J. Am. Cheni. Sot., 92 (1970) 1430.
N. A. B. Gray, Progr. Nucl. Magn. Reson. Spectrosc., 15 (1982) 201.
C. A. Shelley et M. E. Munk, Anal. Chem., 54 (1982) 516.
C. W. Crandell, N. A. B. Gray et D. H. Smith, J. Chem. Inf. Comput. Sci., 22 (1982) 48.
H. N. Cheng et S. J. Ellingsen, J. Chem. Inf. Comput. Sci., 23 (1983) 197.
M. Novic et J. Zupan, Anal. Chim. Acta, 177 (1985) 23.
R. Wolfgang, Monatsh. Chem., 114 (1983) 365.
M. Zippel, J. Mowitz, I. Kohler et J. Opferkuch, Anal. Chim. Acta, 140 (1982) 123.
H. Kalchhauser et W. Robien, J. Chem. Inf. Comput. Sci., 25 (1985) 103.
W. Bremser, Anal. Chim. Acta, 103 (1978) 355.
W. Bremser et W. Fachinger, Magn. Reson. Chem., 23 (1985) 1056.
J. E. Dubois, M. Carabedian et I. Dagane, Anal. Chim. Acta, 158 (1984) 217.
N. A. B. Gray, J. G. Nourse, C. W. Grandell, D. H. Smith et C. Djerassi, Org. Magn. Reson.
15 (1981) 375.
M. Y. Kornilov, A. Tolstukhat, P. Kadziavskas et E. Butkus, Comput. Chem., 6(4) (1982)
193.