5-1 DEFINITION DU RESEAU

La version la plus simple de ces réseaux, aujourd'hui appelés, peut-être un peu abusivement, "réseaux neuronaux", est celle proposée par J. Hopfield en 1982.

L'unité de base est l'automate à seuil, défini au chapitre 2. Ces automates ont été proposés par McCulloch et Pitts dès 1943 comme modèles des cellules nerveuses (ou neurones). Sous l'influence des autres neurones qui leur sont connectés, ces cellules peuvent émettre des trains d'impulsions électriques.

Figure 5.1 Schéma d'un neurone (en haut) et de sa représentation formelle (en bas). Le neurone est excité, ou inhibé, par les signaux reçus sur ses synapses (à gauche de la figure). Ces signaux sont intégrés au niveau du corps cellulaire, et si le niveau d'excitation est suffisant, un train d'impulsions est émis le long de l'axone. A l'autre extrémité, à droite de la figure, les ramifications de l'axone partent exciter d'autres neurones (non représentés). Le neurone formel i somme les signaux reçus S_j pondérés par les poids synaptiques T_ij et émet un signal S_j= +1, si cette somme est supérieure au seuil q_i.

Une description simplifiée du neurone consiste à le considérer comme un automate, à l'état 1 lorsqu'il émet des trains d'impulsions, et à l'état 0 lorsqu'il reste au repos sans émettre. Les entrées de l'automate figurent les synapses du neurone, c'est-à-dire les connexions inter-cellulaires avec les neurones qui influent sur le taux d'émission du neurone considéré (Fig. 5.1). Ces synapses peuvent être activatrices, c'est-à-dire que si l'entrée est à 1, l'activité du neurone est renforcée, ou inhibitrices dans le cas contraire. Un neurone i est donc représenté par un automate à seuil dont l'état x_i(t) est mis à jour suivant:

Y est la fonction de Heaviside. La somme s'étend à tous les automates d'entrée j (voir le paragraphe 2.1.3 ). Les T_ij, appelés poids synaptiques par référence à la biologie, représentent l'intensité des interactions entre l'automate d'entrée j et l'automate i. Les poids synaptiques positifs s'interprètent comme des connexions excitatrices et les poids négatifs comme des connexions inhibitrices. Q_i est le seuil de l'automate i. Autrement dit, l'automate i prend l'état 1 si la somme pondérée ST_ij x_j de l'état de ses entrées est supérieure ou égale au seuil, et 0 sinon.

Dans le modèle de Hopfield la connectivité est complète à l'exception des termes diagonaux T_iiqui sont nuls. Bien entendu, d'autres termes non diagonaux peuvent éventuellement être nuls. De plus, les T_ij sont symétriques ( T_ij = T_ji). Chaque automate est donc défini par la donnée de ses poids synaptiques d'entrée T_ij et de son seuil Q_i.

Le mode d'itération est le mode séquentiel aléatoire: à chaque intervalle de temps un seul automate, pris au hasard, est mis à jour. Ce choix correspond à l'idée qu'il n'existe pas dans le cerveau d'horloge interne qui synchroniserait les transitions d'état des neurones. Ce mode d'itération, dit de Monte-Carlo, est aussi fréquemment utilisé dans les simulations numériques de certains systèmes physiques (voir le paragraphe 8.2).

Nous utiliserons dans ce chapitre un changement de variable qui facilite les démonstrations. Nous poserons:

S = 2x - 1 (5.2)

ce qui a pour effet de symétriser la variable d'état. Si x = 0 , S = -1, et si x = 1 , S = 1. Ce changement de variable conduit à changer le seuil en le remplaçant par 2 Q_i - ∑T_ij, et à diviser par 2 l'argument de la fonction de Heaviside, ce qui est sans effet sur son résultat (N est le nombre des automates). La fonction de changement d'état reste donc bien une fonction à seuil. Par conséquent, si la somme pondérée des S_j (avec les mêmes poids synaptiques) est supérieure au nouveau seuil, S_iprend la valeur 1. Sinon S_i prend la valeur -1.

Cet auteur a également montré, par des considérations analogues sur une quantité semblable à l'énergie, que l'itération parallèle de ce type de réseau conduit à des attracteurs qui sont soit des points fixes, soit des cycles limites de longeur 2.

Toutes les hypothèses sur le réseau (poids synaptiques symétriques, itération séquentielle) sont nécessaires pour que les attracteurs soient des points fixes, à l'exception de la nullité des coefficients diagonaux T_ii. En fait, si ces coefficients sont positifs, le sens de variation de l'énergie n'est pas modifié: en effet, DE ne faisant intervenir que les termes rectangles de la matrice des connexions, il faut lui rajouter 2 T_iiS_i²pour obtenir les deux termes négatifs lors des changements d'état. DE reste donc négatif. En revanche, si les T_ii sont négatifs le caractère monotone de la fonction énergie n'est plus assuré. Il suffit en effet que le coefficient T_iid'un seul automate soit négatif et supérieur en valeur absolue à la somme de toutes les valeurs absolues des termes correspondant aux autres automates qui lui sont connectés, et que son seuil soit nul, pour que cet automate change d'état à chaque itération.

5-3 LA REGLE DE HEBB

On peut se poser, à propos de n'importe quel type de réseau, le problème dit de la dynamique inverse:

• Est-il possible de construire un réseau d'automates qui admette un ensemble de configurations quelconques comme attracteurs?

Autrement dit, nous nous proposons de fixer à l'avance m configurations S^s, appelées références, que nous souhaitons être les attracteurs d'un réseau dont les poids synaptiques et les seuils sont à fixer en conséquence (l'indice supérieur s se rapporte aux références). La règle de Hebb apporte une réponse partielle à ce type d'interrogation. Dans son livre The Organization of Behavior (Wiley 1949), D. Hebb a suggéré que l'apprentissage d'un comportement cognitif faisait intervenir au niveau cellulaire le renforcement des synapses des neurones dont l'activité est corrélée. Traduit en termes de réseau d'automates, cela revient à "construire" le réseau par présentations successives des configurations de référence. Une présentation consiste à fixer chaque automate dans son état dans la référence; on augmente alors les T_ijdont les automates sont dans le même état, et on diminue les autres. Les T_ijsont donc donnés par:

C'est la règle de Hebb.

Le choix des seuils est particulièrement simple si:

• les références sont aléatoires: c'est-à-dire si l'état de chaque automate S_iest tiré au sort avec une égale probabilité d'être -1 ou 1, indépendamment de l'état des autres;

• les références ne sont pas corrélées: le produit S_i^sS_i^s'est nul en moyenne si la référence s est différente de la référence s'.

Dans ce cas, si l'on utilise les variables S, on prend les seuils nuls, ce que nous ferons dans la suite de ce chapitre. Il n'est pas très difficile de généraliser les résultats que nous allons décrire lorsqu'une ou deux des hypothèses ne sont pas vérifiées.

5-4 RESULTATS DE SIMULATION

Ces choix permettent effectivement de construire un réseau dont les configurations choisies comme références sont attractrices, à condition que celles-ci ne soient pas trop nombreuses (de l'ordre de 0,1 N), qu'elles soient aléatoires (et en conséquence, qu'elles comportent à peu près autant de -1 que de 1) et qu'elles ne soient pas corrélées entre elles. Les premiers résultats de simulation de Hopfield indiquent en effet que pour des réseaux de 100 automates, avec 15 références choisies au hasard, on observe avec une très forte probabilité les faits suivants:

• Si l'on prend une référence comme condition initiale, le réseau évolue vers un attracteur qui soit est cette référence, soit en est très proche: il ne diffère de la référence que par l'état de quelques automates.

• Si l'on part d'une configuration initiale proche de la référence, on converge vers l'attracteur de la référence, c'est-à-dire vers la référence elle-même ou une configuration proche.

On peut illustrer ces comportements à partir d'un système très simplifié de traitement d'images, permettant une "mini-reconnaissance de caractères". Chacun des 858 = 64 éléments de l'image, appelé pixel (pour picture element), est un automate à seuil relié à tous les autres. L'état du pixel est représenté par sa couleur: noir pour l'état 1, blanc pour l'état -1. Les configurations des automates sont aussi appelées "patterns" dans ce cadre. Les trois patterns de référence figurent les lettres X, b et K. Le pattern X, par exemple, correspond à la configuration représentée sur la figure 5.2:

Figure 5.2 Configuration représentant le pattern X.

Figure 5.3 Exemples de convergence de configurations vers les attracteurs d'un système de Hopfield. Chaque carré comprend 858 cases (ou pixels) représentant chacune l'état d'un automate (les cases noires figurent les automates à l'état 1, les cases blanches ceux à l'état -1). Les flèches partent des patterns pris comme configurations initiales et pointent vers les attracteurs correspondants. Les trois cases constituant la figure 5.3.a représentant les lettres X, b, K ont été choisies comme références. Elles ont donc déterminé le choix des connexions T_ijdu réseau, et sont invariantes dans la dynamique. On voit que de petites altérations du pattern X sont corrigées par la dynamique 5.3.b. D'autres, plus importantes, ne le sont pas (5.3.c). La translation d'un pattern conduit vers un autre attracteur (5.3.d). On note l'existence d'un attracteur mélange des deux patterns b et K (5.3.e).

La figure 5.3 représente quelques-uns des résultats obtenus en faisant évoluer le réseau dont les poids synaptiques ont été construits suivant la règle de Hebb à partir des trois références X, b et K. On y observe que:

• Les trois références définies sur la figure 5.3.a sont invariantes.

• On a représenté sur la figure 5.3.b quelques configurations appartenant au bassin d'attraction de la référence "X". On voit que de petites altérations de la référence, obtenues en inversant quelques pixels de la référence, sont "rattrapées" par la dynamique de convergence du système.

• Remarquons sur la figure 5.3.c un autre pattern invariant, qui est pratiquement l'opposé du pattern "K". En effet, la règle de Hebb avec seuil nul est symétrique par rapport à l'inversion des patterns (l'inverse, ou l'opposée, d'une configuration est obtenue en inversant les signes de tous les états des automates; dans une représentation 0,1 on échange les 0 et les 1). Chaque fois qu'un pattern est mémorisé, le pattern opposé l'est aussi. La légère différence entre l'attracteur observé et l'opposé du pattern "K" est due à la petite dissymétrie introduite par la manière dont on prend en compte le cas où l'argument de la fonction de transition est égal à 0. C'est aussi une illustration du fait que l'attracteur peut ne pas coïncider exactement avec la référence.

• Notons, figure 5.3.d, que la translation d'une référence n'est pas une petite modification: elle conduit à inverser un grand nombre de pixels de la référence, et la référence translatée n'est pas reconnue par le réseau, comme le montre la figure.

• Enfin, sur la figure 5.3.e, apparaît un attracteur mélange de "b" et de "K". L'existence de cet attracteur parasite sera expliquée au chapitre 8 (paragraphe 8.4).

5-5 LA METHODE DU RAPPORT SIGNAL SUR BRUIT

Trois méthodes permettent de prévoir le comportement des réseaux de neurones à seuil construits suivant la règle de Hebb, et d'expliquer les résultats des simulations. La plus simple et la plus générale, bien que seulement approchée, est l'étude du rapport signal sur bruit que nous allons développer maintenant. Les deux autres méthodes, celle des répliques et celle des distances, plus rigoureuses mais plus complexes, seront évoquées aux chapitres 8 et 11.

5-5-1 La règle fondamentale

La condition nécessaire et suffisante pour qu'une configuration S(t) ait pour successeur la configuration S(t+1), identique ou différente de S(t), s'écrit sous la forme de N inégalités pour chacun des automates i:

Ces inégalités sont la conséquence directe de la relation (5.1) définissant la fonction de transition: si la somme pondérée, argument de la fonction de Heaviside, est positive, S_i(t+1) = 1 et le produit des deux est positif; sinon les deux termes sont négatifs et leur produit est encore positif.

5-5-2 Invariance des références

Une configuration S^s est donc invariante, c'est-à-dire est son propre successeur, si les N inégalités suivantes (une par automate i) sont vérifiées:

Les deux inégalités 5.6 et 5.7 sont valables quel que soit le choix des T_ij.

Si les T_ij sont donnés par la règle de Hebb, l'inéquation (5.7) devient:

Nous avons remplacé T_ijpar son expression en fonction des références S^s. Le premier terme, N-1, dit terme de signal, correspond au terme de la somme sur s' tel que s' = s. Chacun des N-1 termes de la somme sur j est un produit de carrés de termes égaux à 1 ou -1 et vaut donc 1. C'est ce terme de signal, grand, de l'ordre de N, qui assure l'invariance de la référence.

La double somme comprend q = (N-1).(m-1) termes égaux à 1 ou -1. S'il n'existe pas de corrélations entre les différentes séquences, cette somme vaut en moyenne 0. Son écart quadratique moyen est la racine du nombre de ses termes, et tant que cette quantité est inférieure à N-1 l'inégalité a toutes les chances d'être vérifiée. Ce terme est donc un terme de bruit.

Plus précisément, la probabilité qu'une somme de q termes égaux à +1 ou -1 soit inférieure à x est donnée par la fonction Q(x/\R(q)), définie par:

La figure 5.4 donne le tracé de la fonction Q. La probabilité qu'une des inégalités (5.8) soit vérifiée est donc:

Par conséquent, en choisissant un argument de la fonction d'erreur grand, il est possible de rendre P aussi proche de 1 qu'on le souhaite. Soit y l'argument de la fonction Q(y) correspondant à la probabilité P°. y varie en sens inverse de m. Le nombre maximum de références donnant une probabilité d'invariance supérieure à P° est donc:

En première approximation, m varie linéairement avec N.

Figure 5.4 Probabilité Q(x/\R(q)) que le terme de bruit q soit inférieur à x, terme de signal.

Invariance "approchée"

En fait il y a autant d'inégalités que d'automates et la condition (5.11) ci-dessus n'assure que l'invariance de P°N automates sur les N, c'est-à-dire le fait que l'attracteur du réseau ne diffère de la référence qu'en (1‑P°)N automates. Autrement dit, si on accepte que l'attracteur diffère quelque peu de la référence, on s'attend à trouver une capacité maximum m proportionnelle au nombre des automates. C'est la première loi d'échelle concernant la relation entre le nombre de références et celui des automates. Le coefficient de proportionnalité dépend de l'erreur sur la référence, c'est-à-dire du nombre d'automates dont l'état n'est pas le même dans la référence et dans l'attracteur. En réalité, lorsque la nombre de références atteint 0,14 N, bien que l'erreur ne soit encore que de l'ordre du centième du nombre des automates, on observe la "catastrophe des 14%": au-delà de cette proportion aucune référence n'est plus retenue et les attracteurs sont sans rapport avec les références. Cette discontinuité de comportement apparaît dans les simulations numériques pour des réseaux comprenant un grand nombre d'automates (au moins plusieurs centaines). Ce résultat important est prévu par la méthode du champ moyen dont nous parlerons au chapitre 8 (voir les paragraphes 8.3.1 et 8.4).

Invariance "stricte"

Pour assurer que les N automates de la configuration de référence sont invariants, il faut satisfaire N inégalités. Si l'on admet que les doubles sommes sont indépendantes les unes des autres, ce qui n'est qu'une simplification raisonnable, on obtient P_N,la probabilité que les N inégalités soient vérifiées:

Figure 5.5 La probabilité d'invariance d'une configuration de référence décroît avec le rapport du nombre de références au nombre d'automates. Les losanges et les carrés sont des résultats de simulation numérique pour 50 et 100 automates respectivement. Les courbes correspondent à la formule théorique (5.12). La courbe du haut correspond à la probabilité d'invariance d'un seul automate suivant la formule (5.10).

P étant plus petit que 1, P_Nest plus petit que P, et une même probabilité P° est obtenue avec un argument de la fonction erreur plus grand, donc avec m plus petit (Fig 5.5).

5-5-3 Lois d'échelle

En utilisant le développement asymptotique de la fonction Q(x) aux grands arguments

on obtient la relation suivante entre m, N et P_N:

que l'on peut simplifier en choisissant pour P_Nla valeur qui annule le dernier terme (P_N = 0,6). Aux grandes valeurs de N, en première approximation m varie comme:

La relation est vérifiée par les simulations numériques. Cette loi d'échelle en N/logN est la condition d'invariance stricte des références.

5-5-4 Attractivité des références

L'une des propriétés les plus intéressantes de ces réseaux est que les configurations voisines d'une référence convergent vers cette dernière. Par configurations voisines on entend les configurations dont seuls quelques sites diffèrent de la référence. Soit S^s"une configuration voisine de la référence S^s, qui n'en diffère qu'en d sites. d est la distance de Hamming entre les deux configurations. Pour un automate i non modifié, la condition (5.6) de retour en un seul coup vers la référence s'écrit :

en utilisant la règle de Hebb. Le terme de signal est donc diminué de 2d. La somme aléatoire est certes modifiée, mais elle garde le même nombre de termes. Elle est donc inférieure au terme de signal avec une probabilité:

Pour un automate i modifié, le retour à la référence en un coup se fait si:

Un calcul précis de la probabilité de retour à la référence exigerait que l'on tienne compte de ces deux inégalités 5.16 et 5.18, et du fait qu'à chaque mise à jour d'un automate modifié, la distance à la référence décroît. Contentons-nous simplement de donner une borne inférieure de la probabilité:

Une manière simple d'obtenir la relation entre le nombre de références et la distance correspondant à une probabilité d'attraction donnée, consiste à égaler l'argument de la fonction Q dans l'expression ci-dessus avec celui donné précédemment pour l'invariance stricte avec un nombre maximum m* de séquences (équation 5.12). On obtient ainsi la relation suivante:

d, la distance d'attraction, varie donc entre (N-1)/2 pour une seule référence, et 0 lorsque le nombre de références est maximum (Fig. 5.6).

Figure 5.6 Distance à la référence correspondant à une probabilité de 50% de retour à la référence, en fonction du nombre de références, pour un réseau de 50 automates. Les points sont des résultats de simulations numériques, et la courbe correspond à la formule (5.20).

5-6 LE RESEAU DE HOPFIELD COMME MODELE DE SYSTEME COGNITIF

Le réseau de Hopfield n'est qu'un modèle très approximatif du fonctionnement cognitif du cerveau. Son mérite essentiel est de permettre le passage du niveau cellulaire, modélisé par les automates, au niveau cognitif modélisé par les propriétés dynamiques collectives du réseau. Notons quelques-unes de ses propriétés.

L'information est répartie dans le réseau. Cette notion n'a pas toujours été perçue comme allant de soi. Nombre de modèles cognitifs du cerveau se fondent sur des variantes du modèle du neurone "grand-mère". Dans ces modèles, une information particulière est supposée être encodée dans une ou plusieurs cellules du cerveau: si un sujet reconnaît, parmi différents visages, celui de sa propre grand-mère, c'est parce qu'un petit groupe de neurones spécifiques de la grand-mère ont été excités. Dans le modèle de Hopfield, au contraire, une information est représentée par une configuration d'activité des neurones, et la reconnaissance est interprétée comme le fait que le réseau admet cette configuration comme attracteur.

_{Le processus de stockage de l'information est celui
d'une mémoire associative. Dans un ordinateur classique, les mémoires
sont dites à accès aléatoire, ce qui signifie que l'adresse à laquelle est
stockée une information est sans rapport avec celle-ci. Pour avoir accès à l'information
complète il faut connaître son adresse exacte, et toute information incomplète
est sans intérêt. Dans le cas d'une mémoire associative, une information
partielle permet de restituer l'information complète. C'est bien ce qui se
passe lorsque l'on présente au réseau d'automates une configuration initiale
proche de la référence: la dynamique du réseau restitue la référence.}

_{Une autre propriété rapproche le réseau du cerveau
plus que d'un ordinateur classique, c'est sa robustesse. Si l'on
supprime une fraction des automates du réseau, les attracteurs ne sont guère
modifiés: les raisons de ce fait sont les mêmes que celles qui assurent la
convergence des configurations initiales vers les références les plus proches. Cette
propriété de détérioration graduelle des performances rappelle celle des
hologrammes en optique. Elle évoque aussi le fait que, malgré la perte de
plusieurs milliers de cellules nerveuses chaque jour, les performances du
cerveau ne déclinent que très lentement avec l'âge. Des destructions
comparables dans un ordinateur classique à la von Neumann auraient très vite
des conséquences catastrophiques.}

_{Enfin, le processus d'apprentissage est purement local
et, pas plus que la reconnaissance, ne fait intervenir de processeur central.}

_{En revanche, parmi les différences entre le cerveau et
le modèle de Hopfield, nous noterons l'hypothèse d'homogénéité du réseau. Personne
ne prétend aujourd'hui que la connectivité totale utilisée dans le modèle soit
celle du cerveau, que l'on sait fortement structuré. Cette hypothèse pourrait
cependant s'appliquer aux micro-colonnes, sous-ensembles de quelques milliers
de cellules complètement connectées du cortex cérébral.}

_Références

Le modèle de J. Hopfield est décrit dans "Neural Networks and Physical Systems with Emergent Collective Computational Abilities", P.N.A.S. USA, vol. 79 (1982), 2554-2558. C'est un article remarquable par sa clarté et par les questions qui y sont posées. Les problèmes du passage du neurone biologique à son analogue formel sont en partie discutés dans P. Peretto: "Collective Properties of Neural Networks: a Statistical Physics Approach", Biol. Cybern., 50 (1984), 51-62 (un peu difficile).