Le Réseau INTERNET

Le Réseau INTERNET

Gérard Weisbuch* et Dominique Pignon**

* Laboratoire de Physique Statistique
** Laboratoire de Physique Théorique
Ecole Normale Supérieure,
24 rue Lhomond, F 75231 Paris Cedex 5, France.


Le réseau informatique est devenu depuis quelques années (1993) un formidable instrument d'échange d'informations. Le but de ce rapport est d'expliquer le fonctionnement de ces nouveaux outils, tant le réseau lui même que son utilisation, de donner quelque exemples de documents et d'organismes qui s'affichent sur le réseau et d'en discuter les avantages et les difficultés qui se présentent aujourd'hui et pour le futur. Ce document, contrairement aux rapports DRET fournis habituellement par l'IEPENS ne décrit donc pas un champ de recherche, mais les possibilités offertes au monde de la recherche par le réseau WWW (World Wide Web), appelé plus communément Internet. Le but du WWW étant de faciliter tout échange d'information, les possibilités de transfert d'informations scientifiques sont considérablement accrues par rapport au document imprimé qui en est le support traditionnel, et à ce titre le WWW devrait intéresser tout particulièrement ceux qui ont à suivre l'actualité scientifique, ce qui est le cas des lecteurs de nos rapports.

Signalons que la version informatique sur le réseau de ce rapport peut jouer le role d'une illustration pratique de son contenu.


Introduction

Bref Historique

Depuis son apparition à la fin des années quarante, les fonctions de l'ordinateur ont considérablement évolué, et les tâches l'utilisant sont de plus en plus variées. Les premières machines ont été utilisées pour le calcul scientifique et les générations suivantes pour le stockage et la récupération de données de gestion. Dans le domaine commercial, une informatique des transactions couplée au réseau des télécommunications a révolutionné l'achat à distance et la réservation. Le micro-ordinateur a permis entre autres la fonction traitement de texte.
La réalisation de la connexion à grande distance des ordinateurs, menée essentiellement au début (1973) par la DARPA (arpanet) aux Etats-Unis a permis en plus du transfert de fichiers de programme et de données, la naissance du courrier électronique (e.mail) dont la généralisation dans le milieu universitaire en Europe doit beaucoup à l'initiative BITNET (1981) lancée par IBM. Par ailleurs, des banques de données bibliographiques, c'est à dire limitées aux références des documents, dont la consultation est restée très onéreuse, ont vu le jour ça et là (exemple PASCAL). Mais c'est la généralisation des stations de travail et leur interconnexion, alliée au concept d'hypertexte qui a permis le développement d'une recherche hiérarchisée, donc facilitée, de documents délocalisés.

L'hypertexte

Les écrans informatiques sont un peu comme des ardoises: leur lecture est plus difficile que celle d'un document sur papier, ils doivent donc contenir moins d'information; mais ils sont aisément effaçables et réécrits à nouveau. D'où l'idée de n'afficher qu'un petit nombre d'informations à la fois, mais de manière à faciliter le passage d'un document à un autre. C'est la souris qui permet ce passage facilité: dans chaque document, certains mots ou groupes de mots permettent l'affichage d'un autre document lorsque l'on clique dessus. Le lecteur voit ces mots en caractères spéciaux, gras, soulignés ou bleus, alors que l'auteur a pris soin dans une version spéciale du document, en langage html (hyper text markup language) par exemple, de lier le mot à l'adresse sur le réseau du document cible. Ce principe permet au lecteur de ne lire que les parties du document qui l'intéresse, en fonction des informations qu'il recueille au fur et à mesure. Un auteur n'est plus obliger de mettre au point un texte propre à ne satisfaire qu'un public bien "ciblé" en terme de compétence et de motivation: c'est le lecteur lui-même qui décide de ce qu'il veut prendre ou laisser, de même que du niveau des explications qu'il souhaite recevoir. Ce concept d'hypertexte est plus ancien que le réseau internet, et ses auteurs pensaient au départ à faciliter la consultation de documents situés sur une même machine. C'est le développement et la facilité d'utilisation des techniques de récupération à distance de gros documents non forcément hierarchisés (ftp, telnet...) qui ont permis la mondialisation du système.

La croissance du réseau

Un graphique montre la croissance exponentielle du réseau à ses débuts:


La croissance des données transférées par sites sur le réseau a été de 37% par mois les premiers mois pour se stabiliser ensuite à 25% (de croissance). Ces chiffres sont donnés pour la période durant laquelle les statistiques ont été centralisées pour le réseau NSFNET par le centre Merit.

Un peu de géographie

Les chiffres du tableau 1 donnent les octets transferrés sur le réseau par pays en janvier 1995. La prédominance des Etats-Unis ne surprend pas, sauf peut être par son ampleur: 87 % in , 81% out. Bien que les plus actifs sur le réseau, les Américains sont cependant importateurs. Par contre l'universalité du réseau est impressionante! 84 pays connectés qui sont très probablement aujourd'hui plus de 100. Il faut aussi noter les positions remarquables de certains pays géographiquement isolés (Taiwan, Corée, Singapour...) qui utilisent le réseau comme un moyen d'échanges scientifiques avec l'extérieur. Ceci est à rapprocher du développement très rapide du courrier électronique en Israel et en Italie au début des années 80. Le classement de janvier 1994 tableau 2 montrent que cette croissance rapide est du même ordre pour tous les pays.

Le réseau, mode d'emploi

Définitions

A ce stade de notre exposé, quelques explications et définitions s'imposent:
- Nous parlons ici du réseau World Wide Webb (WWW) qui permet d'accéder à des documents structurés partout dans le monde. WWW est un réseau au sens des connexions logiques, ce n'est pas un réseau physique comme Arparnet, l'ancien réseau de la DARPA, l'ancien réseau européen Earnet ou plus concrètement encore le réseau français RENATER. Pour l'utilisateur du réseau WWW, les structures administratives ou physiques qui permettent la transmission de l'information sont complètement transparentes.
- La transmission utilise des protocoles de transfert, par exemple ftp (file transfer protocol), que nous ne décrirons pas ici car encore une fois il sont transparents pour l'utilisateur.
- Par contre, cette transparence est liée à l'utilisation d'un logiciel, par exemple Mosaic ou Netscape, dont nous décrirons quelques éléments. C'est cette transparence des procédures de recherche et d'affichage des documents par rapport aux procédures explicites existant antérieurement qui ont fait le succès du réseau.
- Le deuxième élément du succès est la facilité de création des documents grâce à un langage html (hyper text markup language) dont nous expliquerons le principe de base.


Nous commencerons par décrire le fonctionnement du système, tant du point de vue des utilisateurs des documents que de celui des auteurs. Un troisième point de vue est celui des techniciens qui installent et maintiennent le système. Nous ne le développerons pas ici, dans la mesure où les techniciens du réseau n'ont guère besoin du présent document pour s'instruire sur Internet, WWW ou Mosaic. Leur point de vue est d'ailleurs bien documenté dans un livre et sur le réseau. Pour ce qui est de l'installation d'un logiciel d'accès au réseau la quarantaine de page de la référence sont une excellente introduction. De plus ces logiciels, et leurs documentations sont souvent disponibles sur le réseau lui même.

Les logiciels d'accès, Mosaic, Netscape ...

Mosaic est l'un des logiciels d'accès au réseau proposé par NCSA (National Center for Supercomputing Applications de l'université d'Urbana aux Etats-Unis). La figure **, une recopie d'écran de la fenêtre illustre le fonctionnement du logiciel. Le centre du document est la table des matières d'un rapport sur l'état de l'environnement marin de l'Australie par une agence gouvernementale de ce pays. Le titre du rapport figure à la troisième ligne (en grisé).
L'URL (Universal Resource Locator) est l'adresse sur le réseau du document. L'un des moyens d'accès au document est d'entrer cette adresse lors d'une opération de recherche, possibilité offerte dans le menu File (deuxième ligne de la figure). Mais en pratique cette possibilité n'est que rarement utilisée: on accède le plus souvent à un document par: Dans les différents menus de la deuxième ligne sont offertes des possibilités de: Certaines "touches" de la dernière ligne permettent de retrouver les documents consultés au cours de la présente session de recherche, d'autres facilitent aussi l'édition de nouveaux documents.
A peu prêt au centre de la fenêtre, la ligne :
8 Future directions in marine environnementale management soulignée en pointillée est une "ancre". Le soulignement indique qu'en cliquant sur cette ligne, on aura accès à un autre document dont le contenu affiché de la ligne permet de se faire une idée; dans ce cas particulier, il s'agira du texte du chapitre dont la ligne est le titre. Les pointillés indique au lecteur qu'il a déjà consulté ce chapitre précedement.

Le langage html

html, une expression employée dans différents contextes, veut dire hypertext markup language. La plupart des instructions du langage html concernent le formattage du document à l'écran. En ce sens, les possibilités de html s'apparentent à celles d'un formatteur de texte comme TEX par exemple. A ce titre il ne nous intéresse pas spécialement, si ce n'est par sa simplicité, sa souplesse et la qualité esthétique des documents obtenus, eut égard à sa simplicité. C'est surtout l'instruction de création des "ancres" qui est importante pour nous, car elle est à la base de l'hypertext. Une instruction comme:

<A HREF="http://www.ens.fr">l'Ecole Normale Sup&eacute;rieure</A>
est interprétée par html comme:

Le lecteur aura noté le groupe &eacute;rieure dans le mot Sup&eacute;rieure; les caractères accentués ne peuvent s'afficher à l'écran que s'ils sont indiqués comme des caractères spéciaux, à l'égal des caractères grecs ou mathématiques, par un groupe de plusieurs lettres dans le code source html. Le fait de ne pouvoir entrer directement les caractères accentués dans le code source est un handicap pour l'écriture des textes en français, à moins de disposer d'un traducteur automatique comme HTML Pro de Niklas Frykholm disponible sur Macintosh.
Dans les logiciels de navigation sur le réseau, comme Mosaic ou Netscape, la couche du logiciel qui gère l'affichage des documents à l'écran peut faire appel à des logiciels différents suivant l'extension du fichier, indiquée par la terminaison du nom du document. Tout ceci n'est bien sûr possible que si les logiciels correspondants sont présents sur la machine où les documents sont consultés.

Le réseau, Pourquoi faire: Communication réseau versus publication

La facilité de lecture, de récupération et d'écriture des documents conduisent à l'établissement de relations plus directes entre auteurs et lecteurs. De ce fait, le rôle des intermédiaires, comme par exemple celui joué par les milieux de l'édition dans le cas du livre ou des publications périodiques devient beaucoup moins nécessaire pour ce nouveau mode de communication. Bien entendu, ce fait conduit à une perception très différente du réseau par les uns et par les autres. Ce rapport est rédigés par des auteurs/utilisateurs du réseau et il présente essentiellement leur point de vue. Nous évoquons ici les questions sur lesquelles s'affrontent les différents points de vues

Avantages du réseau

Universalité

Des documents de nature très variée sont accessibles par le réseau:

Rapidité

Le temps de recherche et d'accès aux documents est très rapide (quelques secondes à quelques minutes) par rapport aux recherches par les méthodes classiques (de quelques minutes à quelques jours): bibliothèques et requêtes par le courrier (appelé snail mail en opposition à e.mail par les utilisateurs d'un réseau). L'accès aux documents sur le réseau n'implique pas de déplacement physique l'utilisateur pour des opérations comme la recherche, la lecture, la sauvegarde informatique, l'impression et même l'insertion pour citation, copie ou référence.
L'édition, la mise à jour et la correction des documents par l'auteur sont eux-aussi faciles et très rapides, donc la version disponible peut ne comporter qu'un nombre minimum d'erreurs, sans que des feuilles d'errata ou des rééditions soient nécessaires. Le corollaire négatif est que les adresses des sites et des documents changent parfois, et que l'auteur d'un document qui réfère à d'autre documents du réseau doit vérifier de temps en temps si les références sont toujours valables. Si on compare à l'édition classique, une adresse électronique de document par URL joue non seulement un rôle analogue au titre d'un ouvrage, mais elle donne aussi une adresse d'accès logique au document, un peu analogue à la cote et la position physique de l'ouvrage dans une bibliothèque.

Modularité

En général, un lecteur ne lit pas une revue scientifique de bout en bout, il la parcourt. Il sélectionne les articles suivant leur titre, et jette un coup d'oeil sur le résumé, les figures, l'introduction ou la conclusion avant d'aller plus avant dans la lecture des rares articles qui l'intéressent vraiment. L'hypertexte rend cette procédure aisée et naturelle, chaque utilisateur ne récupérant et ne lisant dans le document que ce qui l'intéresse.
Cette modularité est encore plus intéressante pour l'auteur: les conditions de taille minimum ou maximum d'un document ne sont plus nécessaires. Des documents très courts peuvent être mis sur le réseau: une idée ou un calcul simple, une opinion, les résultats préliminaires d'une seule expérience ou d'une observation...l'auteur n'est plus obligé de délayer son texte, ni de se livrer à d'interminables travaux de bibliographie.
A l'opposé, de nombreux éléments qui n'intéressent pas la majorité des lecteurs mais qui sont très importants pour une minorité d'entre eux peuvent être inclus: démonstrations mathématiques, programmes d'ordinateur, préparation des échantillons, détails d'appareillages, tableaux de données intermédiaires, résultats bruts... ces compléments d'information sont situés aux extrémités de la hiérarchie du document et l'hypertexte permet d'en proposer la lecture aux personnes intéressés.

Pas de documents indésirés

L'un des problème du courrier électronique, comme du courrier ordinaire, est l'amoncellement de courrier inutile de nature publicitaire ou propagande. Les mêmes phénomènes apparaissent ici aussi, d'où l'intérêt des documents que l'utilisateur recherche volontairement. Ceci permet la coexistence pacifique sur le réseau d'utilisateurs du monde de la recherche et des entreprises qui affichent leurs documents sur le réseau .com. D'autres groupes à caractère intermédiaire apparaissent aussi sur le réseau: sociétés savantes, éditeurs scientifiques, offices gouvernementaux (réseau .gov aux USA par exemple), associations de toute nature.

Les annonces

La rapidité du réseau et le caractère non-invasif des documents en font un support idéal d'annonces:

Pour ce type d'annonce les possibilités de l'hypertexte et la hiérarchie des informations sont de précieux avantages.

De nouveaux documents, de nouvelles possibilités...

Les avantages énumérés plus haut permettent de réaliser des documents de type fiches que l'édition classique ne permet pas de diffuser efficacement. De nombreuses "recettes" ne sont intéressantes que lorsqu'on en a effectivement besoin, et elle valent alors la peine d'être remises fréquemment à jour. On peut penser à: Dans tous les cas énumérés, de tels documents peuvent exister déjà dans des journaux, des annuaires ou des recueils. L'intérêt du réseau est:

Inconvénients

Documents vides

En fait, comme beaucoup de systèmes informatiques supportant de grandes capacités de mémoire dans leur phase d'expansion, le CD-ROM par exemple, le réseau souffre plutôt aujourd'hui d'un manque de documents à présenter. Nombres d'auteurs créent des liens vers des documents quasi-vides, en cours de rédaction. Pour certains projets de collaboration censés créer une abondante littérature, la table des matières reste le seul document qui voit le jour en encombrant le réseau, non pas par son volume, mais par les faux espoirs qu'elle suscite. Il en est souvent de même pour les discussions (Electronic Bulletin Board) qui sont rendues accessibles par le réseau sans aucun index. Le comble est atteint lorsqu'un auteur en mal de statistiques, oblige le lecteur à remplir un fastidieux questionnaire avant de le laisser accéder à un document quasi-vide!

"Le contrôle de qualité"

Les documents ne sont pas filtrés: c'est le reproche essentiel des professionnels de l'édition et de l'information. Les textes scientifiques par exemple ne sont pas relus, corrigés et acceptés par des rapporteurs anonymes, donc ils ne sont pas dignes de foi! le même reproche est fait sur les opinions qui courent sur le réseau, par exemple à propos des documents dans lesquels des auteurs discutent les qualités et les défauts de certains livres ou équipements. Pourtant ces opinions libres deviennent bien précieuses dans les domaines où l'indépendance des revues spécialisées dans l'évaluation est parfois bien compromise par l'abondance de la publicité qui y figure. Un des succès du réseau a par exemple été la discussion des défauts du Pentium, défauts qu'Intel avait d'abord cherché à minimiser.

A celà on peut répondre que l'édition scientifique et en particulier les procédures de sélection et d'édition des manuscrits souffrent de certains défauts, lenteur, coût, préjugés des éditeurs (au sens anglo-saxon) et des rapporteurs, auxquels les scientifiques essaient de remédier par la distribution anticipée des preprints. Cette pratique est antérieure au réseau qui ne fait que la faciliter.
Mais rien n'interdit de mettre en place sur le réseau des procédure de validation des documents qui y sont présentés, libre aux auteurs de s'y soumettre ou non. Les documents pourraient alors comporté le label d'une autorité éditrice, une société savante par exemple. On peut même concevoir des polémiques sur le réseau avec discussion des textes proposés, à l'image des revues comme Brain and Behavioral Research qui publient sur papier un article principal accompagné des opinions d'autres scientifiques sur le sujet.

D'une manière plus générale, les détracteurs du réseau souhaiteraient censurer l'information qui y circule et citent les documents à caractère pornographique ou dangereux comme le manuel du parfait poseur de bombes. En fait, les documents analogues existent sur papier et ne sont pas censurés dans les pays démocratiques. En ce qui concerne la pornographie, elle est bien innocente, quelques nus sur le serveur de playboy par exemple. Il n'est d'ailleurs pas sûr qu'il en reste ainsi, mais il est probable que si la pornographie se développe sur le réseau elle n'y restera pas en accès libre. Le réseau est aussi accusé de véhiculer des fausses nouvelles, comme dans le cas de l'insurrection du Chiapas, mais les médias traditionnels eux-aussi peuvent contribuer à la dissémination d'informations fortement exagérées sur les zones révolutionnaires.

Ces différences de point de vue sur le contrôle de l'information circulant sur le réseau, nous dirions plutôt sur la liberté d'expression sur le réseau, seront probablement tranchés par la loi, la réglementation propre aux sites et par la pratique. Si les principes de liberté d'expression et de responsabilité des auteurs ne sont pas directement contestés sur un plan théorique, les divergences sont très importantes entre ceux qui considèrent que les auteurs doivent être libres de s'exprimer en assumant eux-même la responsabilité de leurs écrits, et ceux qui souhaiteraient instaurer une certaine censure au niveau des établissement ou des même des réseaux en instituant des "éditeurs" responsables; du fait de leurs responsabilité, ces éditeurs seraient donc censés surveiller, a priori ou a posteriori, les informations présentées sur un site. Les tenants de la censure préalable se réfèrent à la réglementation en vigueur pour les livres, les publications périodiques ou les spectables, pour lesquels un directeur de publication ou d'exploitation est tenu pour responsable civil du contenu des oeuvres diffusées. A notre avis, deux types de raison suggèrent d'opter pour la responsabilité individuelle des auteurs et contre la censure préalable:


Recommendations


Dans la situation actuelle, nos recommandations visent à façiliter l'accès aux données pour les utilisateurs et à façiliter l'éditions de documents par les scientifiques français.

Les temps de transferts de fichiers situés outremer sont en ce moment prohibitifs et il conviendrait de créer un ou plusieurs sites miroir, dont la fonction n'est que de copier les fichiers existant ailleurs. Ce(s) sites de grande capacité de stockage seraient munis de bons outils de recherche à l'image du site altavista de Digital, mais dans lequel les documents auxquels réfèrent les pointeurs seraient résidents.

La DRET devrait soutenir tous les efforts logiciels entrepris pour faciliter l'édition de documents en français. L'écriture directe des accents français en html est très lourde, mais il existe aujourd'hui quelques traducteurs de textes accentués en html. Il est important de diffuser les logiciels déjà existant en les améliorant. De même, la pré-édition de formulaires et de modèles à compléter permettrait un démarrage plus rapide de l'édition scientifique Française sur le réseau.

Il ne faut pas oublier que les systèmes d'hypertexte développés pour le réseau sont maintenant de très bonne qualité et qu'il peuvent très bien être utilisés dans un contexte local pour gérer une documentation importante, par exemple la documentation interne à la DRET.

Finalement, bien que la DRET ait des problèmes de confidentialité tout à fait exceptionnels par rapport aux utilisateurs standard du réseau, une partie de son activité d'agence de moyens pourrait y figurer: appels d'offre, recrutements, soutien officiel à des manifestations scientifiques etc. Le site cordis des communautés européennes est un exemple de ce qui est faisable dans ce sens.

Références bibliographiques

De très nombreuses ouvrages sont parus récement. (La liste qui suit est par ailleurs en partie recopiée à partir du catalogue informatisé d'une librairie Parisienne.)

LE SYSTEME LINUX
par WELSH 1995, ITPS
Ce livre ne se présente pas comme une référence sur le réseau, mais la quarantaine de pages qui y sont consacrées peuvent être considérées comme un manuel de l'accès au réseau, comme lecteur, auteur et même comme technicien système en ce qui concerne l'installation d'un site sur le réseau.

OPEN COMPUTING: GUIDE TO MOSAIC, YOUR GUIDE TO ACCESSING THE WORLD WIDE WEB
REISS 1995 MAC GRAW HILL USA

HTML AUTHORING FOR FUN AND PROFIT
MORRIS 1995 PRENTICE HALL
Une référence sur le langage d'édition d'hypertexte sur le réseau.

INTERNET GUIDE DE CONNECTION
ANDRIEU 1995 EYROLLES
Cet ouvrage contient des informations sur les sites francophones.


FIREWALLS SECURITY INTERNET
NEW RIDER 1995/3 NEW RIDERS PUB.

THE INTERNET GOLDEN DIRECTORY
HAHN 1995/1 MAC GRAW HILL USA

MANAGING INTERNET INFORMATION SERVICES
LIU 1995/1 O'REILLY

THE WORLDWIDE WEB,MOSAIC AND MORE + DISK
MANGER 1995/1 MAC GRAW HILL USA

MOSAIC AND THE NEW INTERNET
LEININGER 1995/9 MAC GRAW HILL USA

INTRODUCTION TO THE INTERNET
BIBB 1995/3 VAN NOSTRAND REINHOLD

THE NCSA MOSAIC HANDBOOK
KREILING 1995/2 PRENTICE HALL

L'Internet professionel livre collectif édité par CNRS Editions

Références disponibles sur le réseau

La présente liste ne prétend certes pas à l'exhaustivité: de nouveaux documents s'y ajoutent continuellement, mais de plus les documents cités ici permettent aussi d'accéder à d'autres documents de même nature. En fait cette liste représente assez bien une hotlist, c'est à dire un ensemble primaire de repères à partir desquels il sera facile d'accéder à d'autres documents.
De très nombreux documents sur le réseau permettent de s'initier à son fonctionnement, tant pour: De nombreuse pages du Web par exemple sont en fait de précieux répertoires permettant des recherches hiérachiques par sujet ou par la géographie (en l'absence d'un annuaire nominal du Web, la recherche géographique des institutions, puis des chercheurs par sujet est la seule méthode générale que nous connaissions pour trouver l'adresse électronique d'un individu). On peut commencer par une recherche géographique à l'echelle mondiale. C'est la manière la plus efficace de retrouver des informations sur les sites académiques (Universites,...). Si on ne s'interesse qu'aux sites français, on peut directement interroger les listes ou les cartes de l'unité réseau du CNRS

Beaucoup de firmes présentent leur dernières réalisations sur le Web, et leurs adresse électronique est souvent très simple, de la forme: ibm, apple, intel...

Signalons aussi que les premières pages de nombreux sites, en particulier les sites universitaires affichent les pointeurs permettant d'accéder à toute cette documentation en ligne. Voire par exemple, pour la France: l'Ecole Normale Supérieure, ou aux Etats-Unis, la première page de Mosaic

L' histoire du WEB est résumée sur ce site.
Des discussions sur le rôle du réseau figurent elles aussi sur le réseau, par exemple dans le Netizens Netbook ou en France. Quelques articles d'une série publiés par la revue électronique Surfaces donnent le point de vue de philosophes et sociologues sur le réseau.

gmk
http://www.ccsr.uiuc.edu/People/gmk/Links/StartNetwork.html

santafe
http://www.santafe.edu

http://elias.ens.fr/atelier/infos.html