Introduction a la Micro-informatique

par **Admin-Cherni Koussay** Ven 11 Mar - 20:32

« Désormais, pour apprendre le français, il faudra SAVOIR le français ! » disait Coluche. De même, ce tutoriel s'adresse à tous ceux qui connaissent déjà les rudiments d’un langage évolué tel que le BASIC, le FORTRAN, le C ou le PASCAL et qui souhaitent apprendre l'assembleur. Une connaissance même sommaire d’un de ces langages suffit ! Aucune connaissance en programmation système n’est requise : le but de ce cours est justement d’en introduire les fondements.
Contrairement aux langages évolués, l'assembleur, ou « langage d’assemblage » est constitué d'instructions directement compréhensibles par le microprocesseur : c'est ce qu'on appelle un langage de bas niveau. Il est donc intimement lié au fonctionnement de la machine. C'est pourquoi il est relativement difficile à assimiler, en tout cas beaucoup plus que les langages de haut niveau.
Cela explique également pourquoi il existe au moins autant de langages d’assemblage que de modèles de microprocesseurs.

Avant d'apprendre l’assembleur INTEL 80x86, il est donc primordial de s’intéresser à quelques notions de base concernant par exemple la mémoire ou le microprocesseur. C’est là en effet que se trouvent les principales difficultés pour le débutant. Ne soyez pas rebuté par l’abstraction des concepts présentés dans les premiers paragraphes : il est normal que durant la lecture, beaucoup de choses ne soient pas claires dans votre esprit. Tout vous semblera beaucoup plus simple quand nous passerons à la pratique dans le langage assembleur.

Le microprocesseur peut fonctionner sous deux modes : le mode réel et le mode protégé. Le mode protégé permet d’accéder à 232 octets de mémoire vive, alors que le mode réel ne peut en adresser que 220 = 1 Mo. Nous ne traiterons dans ce cours que le mode réel. C’est celui qu’utilisent la plupart des programmes DOS.

Convention : toutes les adresses sont écrites en notation hexadécimale. Les autres nombres seront la plupart du temps représentés en base décimale. Dans le cas contraire, nous ajouterons la lettre ‘h’ après les chiffres.

I. L’ARITHMETIQUE SIGNEE

On appelle arithmétique non signée l’arithmétique dans laquelle tous les entiers sont positifs. En arithmétique signée au contraire, les nombres peuvent être soit positifs, soit négatifs. Un nombre signé n’est donc pas forcément négatif.

Les données informatiques se présentent sous la forme d’une succession de chiffres binaires, les bits. Nous supposerons que les systèmes de numération binaire et hexadécimal vous sont déjà familiers.

Il est en revanche fort possible que vous ne connaissiez pas la façon dont un ordinateur représente les nombres négatifs. Il existe deux conventions : la notation en signe et valeur absolue et la notation en complément à 2.

La première est extrêmement simple : le premier bit représente le signe, et les autres bits la valeur absolue du nombre. Le bit de signe vaut 1 si le nombre est strictement négatif, 0 sinon.

Par exemple, le nombre (–14) codé sur 8 bits s’écrit ainsi :

10001110

Cette convention n’est quasiment jamais utilisée en informatique. On lui préfère la représentation en complément à 2 dont le principe est le suivant :

- les nombres positifs sont codés de la même façon qu’en convention « signe et valeur absolue ».

- les nombres négatifs sont obtenus en inversant tous les bits, puis en ajoutant 1.

Exemple : le nombre 14 codé sur 8 bits est représenté ainsi :

00001110

et (–14) ainsi :

inversion des bits : 11110001

ajout d’une unité : 11110010

résultat : 11110010

Remarque : le résultat intermédiaire, 11110001, est appelé « complément à 1 ».

Vous allez immédiatement comprendre l’avantage de cette représentation. Faisons la somme de 14 et de (–14), de la même façon que s’il s’agissait d’entiers positifs :

00001110 + 11110010 = 100000000

Le résultat étant codé sur 8 bits, le 1 situé à gauche n’est pas pris en compte. On obtient donc 14 + (–14) = 0.

L’intérêt évident est que la différence de deux nombres peut se calculer avec le même algorithme que leur somme. Il suffit de transformer au préalable le nombre retranché en son opposé. Cette conversion est très simple et très rapide.

Au contraire, en représentation « signe et valeur absolue », on aurait eu besoin de nombreux algorithmes, car plusieurs cas se présentent.

Remarque : la représentation en complément à 2 revient en fait à écrire (-1) comme ceci :

11111111

(-2) comme cela :

11111110

(-3) comme cela :

11111101

etc…

Il y a ainsi une symétrie entre les nombres positifs et les nombres négatifs. Il en résulte que le bit le plus à gauche représente le signe, de la même façon qu’en notation « signe et valeur absolue ». Avant tout calcul, nous pouvons donc affirmer que le nombre 10010101 est négatif.

II. LA MEMOIRE VIVE

1. La segmentation de la mémoire

Votre PC est conçu pour gérer 1 Mo (soit 220 octets) de mémoire vive en mode réel. Il faut donc 20 bits au minimum pour adresser toute la mémoire. Or en mode réel les bus d'adresses n’ont que 16 bits. Ils permettent donc d'adresser 216 = 65536 octets = 64 Ko, ce qui est insuffisant !

Afin de pallier ce manque, on utilise deux nombres pour adresser un octet quelconque de la RAM. Le premier est appelé adresse de segment, le second adresse d'offset. Ils seront stockï¿½s sï¿½parï¿½ment.

La mémoire est découpée en segments de 64 Ko chacun. Un segment est donc en quelque sorte un gros bloc de mémoire auquel on peut accéder grâce à une adresse de segment qui désigne son numéro. Par exemple, le premier segment est le segment 0000 (en hexa), le deuxième est le 0001, le quarante-deuxième est le 0029, etc... Chaque numéro est codé sur 16 bits, c’est-à-dire 4 chiffres hexa.

Pour accéder à un octet particulier dans un segment, il suffit de compter le décalage de cet octet par rapport au début du segment. Ce décalage est obligatoirement inférieur ou égal à 65535 : il tient bien sur 16 bits lui aussi. On appelle ce décalage « offset ».

L'adresse d'un octet se note XXXX:YYYY où XXXX est l'adresse de segment et YYYY est l'offset (tous deux en notation hexadécimale, bien sûr).

Par exemple, le dix-septième octet de la RAM (le numéro 16) est situé à l'adresse 0000:0010. De même, l’octet 0000:0100 est l'octet numéro 256. Nous en arrivons à la petite subtilité qu’il convient de bien saisir, sous peine de ne rien comprendre à certains programmes en assembleur.

On pourrait penser que l’octet qui se trouve à l’adresse 0001:0000 est le numéro 65536. Il n’en est rien. C'est l'octet numéro 16.

Eh oui ! Les segments ne sont pas situés gentiment les uns à la suite des autres. Ils sont fort mal élevés et n'attendent pas que les segments qui les précédent soient terminés avant de commencer ! Ils se marchent donc sur les pieds.

Autrement dit, le deuxième segment ne démarre pas à l'octet 65536 comme il devrait le faire s'il était bien sage, mais à l'octet 16 ! Le troisième démarre à l'octet 32 et ainsi de suite…

La notion de segment n’est pas tant physique que mathématique : elle sert à se repérer dans la RAM.

La conséquence immédiate de tout cela est qu'un octet n'a pas une adresse unique. Par exemple, l'octet numéro 66 peut être adressé par 0000:0042, mais aussi par 0001:0032, par 0002:0022, par 0003:0012 ou encore par 0004:0002. Toutes ces adresses sont équivalentes.

Voilà pour la subtilité. Si vous avez compris, vous devriez être capable de trouver facilement comment on calcule l'adresse effective d'un octet, c'est à dire sa position absolue dans la RAM.

Allez, un petit effort !

Voici la solution : si l'adresse de l'octet est A17C:022E, alors son adresse effective est A17C x 16 + 022E, soit A17C0 + 022E = A19EE. On a multiplié par 16, car le segment A17C débute à l’octet A17C x 16, puis on a simplement ajouté le décalage.
Au final, on a bien une adresse sur 20 bits puisqu'on obtient 5 chiffres hexa. Chaque petit bloc de 16 octets s’appelle un paragraphe.

Remarque importante : Il est souvent plus simple de considérer qu’un segment est un bloc de taille quelconque qui débute à une adresse effective multiple de 16 et qui permet, à l’aide de son adresse de segment et d’un offset, d’adresser le bloc entier (64 Ko au maximum). Cette définition est à notre avis celle qui a le plus de sens, et nous l'utiliserons tout au long de ce cours.

2. Structure d’un programme en mémoire

Lorsque l’utilisateur exécute un programme, celui-ci est d’abord chargé en mémoire par le système. Le DOS distingue deux modèles de programmes exécutables : les fichiers COM et les fichiers EXE.

La différence fondamentale est que les programmes COM ne peuvent pas utiliser plus d’un segment dans la mémoire. Leur taille est ainsi limitée à 64 Ko. Les programmes EXE ne sont quant à eux limités que par la mémoire disponible dans l’ordinateur.

a) les fichiers COM

Lorsqu’il charge un fichier COM, le DOS lui alloue toute la mémoire disponible. Si celle-ci est insuffisante, il le signale à l’utilisateur par un message et annule toute la procédure d’exécution. Dans le cas contraire, il crée le PSP du programme au début du bloc de mémoire réservé, et copie le programme à charger à la suite.

Mais qu’est-ce donc qu’un PSP ?

Pour simplifier, le PSP (« Program Segment Prefix ») est une zone de 256 (= 100h) octets qui contient des informations diverses au sujet du programme. C’est dans le PSP que se trouve la ligne de commande tapée par l’utilisateur. Par exemple, le PSP d’un programme appelé MONPROG, exécuté avec la commande “MONPROG monfic.txt /S /H”, contiendra la chaîne de caractères suivante : “ monfic.txt /S /H”. Le programmeur a ainsi la possibilité d’accéder aux paramètres.

Voici à titre indicatif la structure simplifiée du PSP (ne vous souciez pas de ce que vous ne comprenez pas : pour l'instant, seules les deux dernières lignes nous intéressent vraiment) :

Offset

Description

Taille (octets)

00h

Appel de l'int 20h

2

02h

Adresse du 1er segment qui se trouve au delà du prog.

2

04h

Réservé

1

05h

Far call de l'int 21h (inutilisé)

5

0Ah

Vecteur de l'int 22h

4

0Eh

Vecteur de l'int 23h

4

12h

Vecteur de l'int 24h

4

16h

Réservé

22

2Ch

Segment du bloc d'environnement

2

2Eh

Réservé

82

80h

Nombre de caractères dans la ligne de commande sans compter le code ASCII 13 (retour chariot)

1

81h

Ligne de commande (à partir du caractère espace qui suit le nom du programme) + code ASCII 13

127

A présent que nous connaissons l’existence du PSP, il nous faut revenir sur un point important. Comme nous l’avons dit, un programme COM ne peut comporter qu’un seul segment, bien que le DOS lui réserve la totalité de la mémoire disponible. Ceci a deux conséquences. La première est que les adresses de segment sont inutiles dans le programme : les offsets seuls permettent d’adresser n’importe quel octet du segment. La seconde est que le PSP fait partie de ce segment, ce qui limite à 64 Ko – 256 octets la taille maximale d’un fichier COM. Cela implique également que le programme lui-même débute à l’offset 100h et non à l’offset 0h.

b) les fichiers EXE

« Pour un fichier EXE, tout est toujours un peu plus compliqué. »
(Devise du programmeur débutant en assembleur)

Bien qu’il soit possible de n’utiliser qu’un seul segment à tout faire, la plupart des programmes EXE ont un segment réservé au code (c’est ainsi qu’on appelle les instructions du langage machine), un ou deux autres aux données, et un dernier à la pile.

La pile est une mémoire très spéciale qui sert comme son nom l’indique à empiler des données de 16 bits de façon temporaire. On peut ensuite retrouver ces données en les dépilant. Le « dépilage » se fait toujours dans l’ordre inverse de l’empilage.

Le PSP a lui aussi son propre segment. Le programme commence donc à l’offset 0h du segment de code et non à l’offset 100h.

Afin que le programme puisse ï¿½tre chargï¿½ et exï¿½cutï¿½ correctement, il faut que le systï¿½me sache oï¿½ commence et oï¿½ s'arrï¿½te chacun de ces segments. A cet effet, les compilateurs créent un en-tête (ou « header ») au début de chaque fichier EXE. Ce header ne sera pas copié en mémoire. Son rôle est simplement d’indiquer au DOS (lors du chargement) la position relative de chaque segment dans le fichier.

3. Les cycles de lecture-écriture

Le code et les variables d’un programme se trouvent dans la mémoire vive. Pour accéder à une donnée en mémoire, le processeur place son adresse dans un bus d’adresse. Un cycle de lecture se met alors en place. Il consiste à retourner la donnée lue au processeur via le bus de données.

Pour l’écriture, l’adresse de la destination est transmise dans le bus d’adresse et la donnée à écrire est placée dans le bus de données.

Ouf !…

Nous aurons l’occasion de revenir sur la mémoire vive dans les autres chapitres pour apporter quelques précisions. Vous devriez mieux comprendre toutes ces notions en lisant la suite, car jusqu’ici nous n’avons pas encore parlé de la façon dont l’ordinateur se sert des adresses pour accéder à des données ou pour exécuter du code. C’est là qu’intervient le microprocesseur...