L'analyse quantitative de l'information est due à Shannon (1948). Il définit, dans un cadre probabiliste, une notion d'entropie, terme dû à Clausius (1864), qui a des interprétations diverses en informatique, en thermodynamique et en probabilités, pourtant toutes liées par des intuitions communes.
Considérons une partition d'un espace de probabilités en un ensemble d'événements : , avec si . En posant pi=P(Ei), et en utilisant le logarithme en base 2 (par convention, ), l'entropie de est définie par :
Dans les applications au codage, est l'alphabet source, et chaque événement est un symbole de l'alphabet. Les probabilités pis'obtiennent généralement par la mesure de la fréquence des symboles dans des textes usuels.
L'entropie mesure l'information par l'incertitude qu'elle permet de lever : incertitude avant, information après la réception d'un message identifiant l'un des événements de . Elle est ainsi maximale quand tous les événements sont équiprobables, c'est-à-dire pi = 1/n : . On retrouve ainsi le nombre de bits nécessaires pour coder un élément d'un ensemble de cardinal n, en l'absence d'hypothèse probabiliste. Par exemple, pour les 26 lettres de l'alphabet, il faut au moins bits (on doit donc en utiliser 5). L'entropie est minimale, et nulle, quand un des événements est de probabilité 1 : il n'y a aucune incertitude, et il est inutile de coder des événements de probabilité nulle. Un message codé sur zéro bit suffit à porter une information sûre !
Dans les cas intermédiaires, entre 0 et , le rapport mesure le taux de compression idéal que l'on obtiendrait en ne codant que les messages << les plus fréquents >>, et mesure la redondance intrinsèque, en terme d'information, d'un code représentant tous les messages possibles. Cette redondance est utile car elle permet de décrypter des messages chiffrés alors que la clé de déchiffrement est inconnue, et de façon plus courante, de corriger des fautes d'orthographe. La compression de données, requise pour réduire le coût des supports de stockage et de transmission de l'information, cherche au contraire à diminuer cette redondance.
On peut montrer que la longueur moyenne minimale, L, d'un codage
binaire de l'alphabet source vérifie :