Numération et codages

Code ASCII

American Standard Code for Information Interchange
Code Standard américain pour l'échange d'information

Introduite en 1961 par Bob Bemer, cette norme définit 128 caractères numérotés de 0 à 127. Un caractère est ainsi codé sur 7 bits : à .

En pratique, l'octet étant l'élément de base d'une mémoire d'ordinateur, les caractères d'un texte codé en ASCII sont tous stockés sur 8 bits, avec le bit de poids fort systématiquement positionné à zéro.

Table des caractères ASCII

Décimal	Hexadécimal	Caractère
0	00	NUL
1	01	SOH
2	02	STX
3	03	ETX
4	04	EOT
5	05	ENQ
6	06	ACK
7	07	BEL
8	08	BS
9	09	HT
10	0A	LF
11	0B	VT
12	0C	FF
13	0D	CR
14	0E	SO
15	0F	SI
16	10	DLE
17	11	DC1
18	12	DC2
19	13	DC3
20	14	DC4
21	15	NAK
22	16	SYN
23	17	ETB
24	18	CAN
25	19	EM
26	1A	SUB
27	1B	ESC
28	1C	FS
29	1D	GS
30	1E	RS
31	1F	US

Décimal	Hexadécimal	Caractère
32	20	SP
33	21	!
34	22	"
35	23	#
36	24	$
37	25	%
38	26	&
39	27	'
40	28	(
41	29	)
42	2A	*
43	2B	+
44	2C	,
45	2D	-
46	2E	.
47	2F	/
48	30	0
49	31	1
50	32	2
51	33	3
52	34	4
53	35	5
54	36	6
55	37	7
56	38	8
57	39	9
58	3A	:
59	3B	;
60	3C	<
61	3D	=
62	3E	>
63	3F	?

Décimal	Hexadécimal	Caractère
64	40	@
65	41	A
66	42	B
67	43	C
68	44	D
69	45	E
70	46	F
71	47	G
72	48	H
73	49	I
74	4A	J
75	4B	K
76	4C	L
77	4D	M
78	4E	N
79	4F	O
80	50	P
81	51	Q
82	52	R
83	53	S
84	54	T
85	55	U
86	56	V
87	57	W
88	58	X
89	59	Y
90	5A	Z
91	5B	[
92	5C	\
93	5D	]
94	5E	^
95	5F	_

Décimal	Hexadécimal	Caractère
96	60	`
97	61	a
98	62	b
99	63	c
100	64	d
101	65	e
102	66	f
103	67	g
104	68	h
105	69	i
106	6A	j
107	6B	k
108	6C	l
109	6D	m
110	6E	n
111	6F	o
112	70	p
113	71	q
114	72	r
115	73	s
116	74	t
117	75	u
118	76	v
119	77	w
120	78	x
121	79	y
122	7A	z
123	7B	{
124	7C	\|
125	7D	}
126	7E	~
127	7F	DEL

Observez la relation entre le code hexadécimal des caractères représentant les chiffres et le chiffre représenté.
Observez l'ordre des lettres dans la table.
Observez la relation entre le code d'une lettre majuscule et de la lettre minuscule correspondante.

ASCII étendu

Comme son nom l'indique, il s'agit d'une extension du standard ASCII : en ASCII étendu, les caractères ont un code de 8 bits, dont la valeur peut donc aller de 0 à 255.

les codes compris entre 0 et 127 correspondent aux caractères définis par la norme ASCII.
les codes compris entre 128 et 255 permettent de définir 128 caractères supplémentaires

Il existe de nombreuses versions de l'ASCII étendu, certaines normalisées (les différentes parties de la norme ISO-8859), d'autres pas (Windows-1252). Ceci ne facilite pas les échanges lorsque l'on ne connait pas la version utilisée pour créer un texte.
Exemple : ISO-8859-1. Parmi les plus répandus, ce jeu de caractères étend l'ASCII par de nombreux caractères (notamment les caractères accentués) utilisés dans les pays d'Europe de l'Ouest. Une version mise à jour de ce jeu de caractères est ISO-8859-15, qui répare certains oublis comme le caractère œ, et ajoute des caractères "inventés" récemment comme le caractère €.

Unicode

Créé pour remplacer par une norme unique les nombreuses versions de l'ASCII étendu, l'Unicode va au delà de la simple association code-caractère, et définit, outre un jeu de caractères global (près de 250 000 caractères, incluant également symboles, idéogrammes...), de nombreuses propriétés pour chaque caractère. Il existe plusieurs implémentations informatiques (appelées transformations) de l'Unicode :

UTF-8 : 1 à 4 octets sont utilisés pour représenter un caractère. Ce codage présente l'avantage d'être compatible avec l'ASCII (les 128 premiers caractères de l'UTF-8 sont codés sur un octet et correspondent aux 128 caractères ASCII), ce qui explique qu'il soit le plus répandu des trois UTF-x. Il est par contre peu pratique à utiliser dans un programme qui manipule de nombreuses chaînes de caractères, en raison de la taille très variable d'un caractère. Ainsi, pour connaître le nombre de caractères d'une chaîne, il est nécessaire d'en examiner les octets un à un afin de savoir s'il faut se déplacer de 1, 2, 3 ou 4 octets.

Nombre d'octets	Code binaire UTF-8	Code hexadécimal du 1er octet	Description
1	0xxxxxxx	0 - 7F	caractères Unicode sur 7 bits (⇔ ASCII)
2	110xxxxx 10xxxxxx	C0 - DF	caractères Unicode sur 8 à 11 bits
3	1110xxxx 10xxxxxx 10xxxxxx	E0 - EF	caractères Unicode sur 12 à 16 bits
4	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	F0 - F7	caractères Unicode sur 17 à 21 bits

dans une chaîne de caractère codée en UTF-8, un octet commençant par 0 est donc nécessairement un caractère issu du jeu de caractères ASCII.
un octet commençant par 11 est le premier octet d'un caractère codé sur plusieurs octets. Le nombre de 1 correspond au nombre d'octets.
un octet commençant par 10 est un octet faisant partie du code d'un caractère codé sur plusieurs octets.

UTF-16 : 2 ou 4 octets sont utilisés pour représenter un caractère. Plus gourmand en espace que l'UTF-8 (pour les langues utilisant massivement les caractères ASCII), l'UTF-16 est cependant plus pratique à manipuler (les caractères et symboles Unicode les plus couramment utilisés sont codés sur 2 octets).
UTF-32 : 4 octets sont utilisés pour représenter un caractère. Très coûteux en espace de stockage, c'est de loin le moins utilisé des trois.

Pour en savoir plus : Consortium Unicode

Exercices sur le code ASCII

Résolvez les exercices ci-dessous sans consulter la table des codes ASCII.

Rappels :

le code du caractère 0 est (30)₁₆
le code du caractère A est (41)₁₆
le code du caractère a est (61)₁₆

Exercices sur le code UTF-8

A partir des valeurs de leurs octets, donnez le nombre de caractères des chaînes encodées en UTF-8 suivantes.