L'analyse quantitative de l'information est due à Shannon (1948). Il définit, dans un cadre probabiliste, une notion d'entropie, terme dû à Clausius (1864), qui a des interprétations diverses en informatique, en thermodynamique et en probabilités, pourtant toutes liées par des intuitions communes.
Considérons une partition d'un espace de probabilités en un ensemble d'événements : , avec si . En posant , et en utilisant le logarithme en base 2 (par convention, ), l'entropie de est définie par :
Dans les applications au codage, est l'alphabet source, et chaque événement est une lettre de l'alphabet. Les probabilités s'obtiennent généralement par la mesure de la fréquence des lettres dans des textes usuels.
L'entropie mesure l'information par l'incertitude qu'elle permet de lever : incertitude avant, information après la réception d'une message identifiant l'un des événements de . Elle est ainsi maximale quand tous les événements sont équiprobables, c'est-à-dire : . On retrouve ainsi le nombre de bits nécessaires pour coder un élément d'un ensemble de cardinal , en l'absence d'hypothèse probabiliste. Par exemple, pour les 26 lettres de l'alphabet, il faut au moins bits (on en utilise 5). L'entropie est minimale, et nulle, quand un des événements est de probabilité 1 : il n'y a aucune incertitude, et il est inutile de coder des événements de probabilité nulle.
Dans les cas intermédiaires, entre 0 et , le rapport mesure le taux de compression idéal que l'on obtiendrait en ne codant que les messages << les plus fréquents >>, et mesure la redondance intrinsèque, en terme d'information, d'un code représentant tous les messages possibles. Cette redondance est utile car elle permet de décrypter des messages chiffrés alors que la clé de déchiffrement est inconnue, et de façon plus courante, de corriger des fautes d'orthographe. La compression de données, requise pour réduire le coût des supports de stockage et de transmission de l'information, cherche au contraire à diminuer cette redondance.
On peut montrer que la longueur moyenne minimale, , d'un codage
binaire de l'alphabet source vérifie :