Michel Zerbato

 

LA MEDIANE : DEFINITION ET CALCUL

 

 

Soit une population dont on connaît la distribution suivant un caractère : à chaque individu correspond une mesure du caractère qui définit la valeur de cet individu ; les valeurs possibles du caractère (ou de l’individu) en sont les modalités (rappel : une modalité est un réel dans le cas d’un caractère discret, un intervalle de réels fermé à gauche et ouvert à droite dans le cas d’un caractère continu).

La médiane est alors une valeur centrale de cette population, au sens où on peut résumer l'ensemble des individus par cette valeur. (On ne discutera pas de savoir si c'est la valeur normale des individus, les écarts à cette valeur étant accidentels, ou si cette valeur est une tendance pour des individus normalement différents.)

La détermination pratique de la médiane est généralement affaire de recettes plus ou moins approximatives. Quand on a bien compris ce qu'est la médiane, on peut les oublier et définir une démarche générale facilement adaptable à chaque cas particulier (nous en donnerons des exemples).

Nous devrons d'abord reprendre les notions d'effectifs cumulés et de fonction de répartition.

I. Effectifs cumulés et fonction de répartition

A- Définitions

1. La fonction de répartition est la fonction qui associe à tout nombre réel le nombre d’individus de la population étudiée qui ont une valeur inférieure audit réel.

Par inférieure, on entend en France strictement inférieur, alors que dans les pays anglo-saxons on entend inférieure ou égale.

Dans ce qui suit, donc, si F est la fonction de répartition, pour tout x de , l’image F(x) est l’effectif de la sous-population formée par les individus dont la valeur est strictement inférieure à x.

2. Cumuler les effectifs c’est indiquer pour chaque valeur affichée du caractère le nombre d’individus qui présentent une valeur de caractère " strictement inférieure " ou " inférieure ou égale " à ladite valeur.

De même qu’il y a deux manières de définir la fonction de répartition, il y a donc deux manières de cumuler les effectifs : " à la française " et " à l'anglo-saxonne " (ou " américaine ").

  1. Cumul " à la française " : on inscrit en face d'une modalité le nombre d'individus qui ont une valeur
  2. strictement inférieure à ladite modalité (on lit " moins de "), et on note ce nombre .

    Cette manière de cumuler correspond à la définition française de F.

  3. Cumul " à l'anglo-saxonne " : on inscrit en face d'une modalité le nombre d'individus dont la valeur est inférieure ou égale à cette modalité (on lit " au plus " ou " jusqu'à "). On note ce nombre

.

Cette manière de cumuler correspond à la définition anglo-saxonne de F.

3. La " fréquence " d’une modalité est l’effectif de la modalité rapporté à l’effectif total : .

De même la " fréquence cumulée " est : .

Nous distinguerons donc, suivant le mode de cumul : et .

Sauf indication contraire, on peut partout raisonner sur ou en lieu et place de ou .

B- Le tableau des effectifs cumulés

Il faut distinguer deux cas, suivant que la variable est discrète (les modalités sont des nombres) ou continue (les modalités sont des intervalles de valeurs).

1. Variable discrète

Il n’y a pas de difficulté particulière, comme on le voit sur l’exemple suivant.

1

2

3

4

5

6

10

15

18

12

8

7

0

10

25

43

55

63

10

25

43

55

63

70

Les effectifs sont décalés d’une colonne vers la droite par rapport aux effectifs (ou d'une ligne vers le bas dans le tableau transposé). On a, de façon générale, .

On peut déduire de ce qui précède que est le nombre d'individus qui ont une valeur du caractère supérieure ou égale à , tandis que le nombre de ceux qui ont une valeur du caractère supérieure (strictement) à .

Ainsi, cumuler les effectifs c’est, pour chaque valeur affichée du caractère, répartir la population totale en deux sous-populations situées de part et d’autre de cette valeur.

2. Variable continue

Rappel : par définition, (ou )est le nombre total d’individus ayant une valeur prise dans l’ensemble des i — 1 (ou i) premières modalités, la ième modalité étant notée .

Dans un cumul à la française (ou à l’anglo-saxonne), on inscrit donc à la ligne i, en face de , le nombre (ou ), c’est-à-dire le nombre d’individus dont la valeur est inférieure à (ou à ).

Insistons sur la manière de lire le tableau pour en extraire l’information disponible. Puisque à la ligne i, est le nombre d’individus qui ont une valeur prise dans les i -1 premiers intervalles, la plus grande valeur possible d’un individu pris dans ces individus est donc au plus égale à la plus grande valeur du (i — 1)ème intervalle, donc inférieure à sa borne droite, . Ainsi, la plus grande valeur possible des premiers individus (ligne i d'un cumul à la française) est donc inférieure à , qui est la borne droite de la (i — 1)ème modalité mais aussi la borne gauche de la ième.

De même est le nombre de ceux dont la valeur est au plus égale à la plus grande valeur du ième intervalle de valeurs, donc inférieure à sa borne droite, , qui est aussi la borne gauche du i +1ème.

Au total, les effectifs sont décalés comme précédemment, vers le bas ou vers la droite.

Exemple : soit le tableau de la distribution des DEFM femmes en Aquitaine au 31 août 1994

suivant leur ancienneté de demandeuses.

Ancienneté (mois)

Effectif

[0 ; 3[

21 463

[3 ; 12[

34 937

[12 ; 24[

20 199

[24 ; …[

13 437

Total

90 036

On construit ainsi le tableau des effectifs cumulés :

[0 ; 3[

21 463

21 463

0

[3 ; 12[

34 937

56 400

21 463

[12 ; 24[

20 199

76 599

56 400

[24 ; …[

13 437

90 036

76 599

Total

90 036

   

La lecture de la colonne nous indique à la 3ème ligne qu’il y a 56 400 chômeuses dont l’ancienneté dans l’état est inférieure ou égale à la valeur maximale de l’intervalle [3, 12[, c’est-à-dire qu’elles sont chômeuses depuis moins de 12 mois.

La lecture de la colonne nous indique à la 2ème ligne qu’il y a 56 400 chômeuses dont l’ancienneté dans l’état est inférieure (strictement) à la valeur minimale de l’intervalle [12, 24[, c’est-à-dire qu’elles sont chômeuses depuis moins de 12 mois.

Les deux manières de cumuler donnent bien exactement la même information.

C- Des effectifs cumulés au diagramme intégral (fonction de répartition)

De la définition des effectifs cumulés, il résulte que les effectifs cumulés permettent de passer à la fonction de répartition. Avec une définition " française " de la répartition et la notation précédente, on a :

dans le cas discret

ou dans le cas continu.

Mais attention : F est définie sur tout entier, tandis que les effectifs cumulés ne donnent les couples que pour les valeurs affichées des modalités du caractère. Cependant, on déduit de ces couples toute la fonction de répartition : la fonction exacte dans le cas discret ; une approximation dans le cas continu (sous l’hypothèse déjà vue d’homogénéité de répartition au sein des classes).

1. Si la variable est discrète, toutes les valeurs possibles du caractère sont affichées avec les effectifs correspondants et on peut calculer l’effectif cumulé exact pour toutes les valeurs possibles du caractère.

 

La représentation graphique (diagramme intégral) est alors un escalier, chaque marche étant ouverte à gauche et fermée à droite, la première étant de longueur infinie de à et la dernière de longueur infinie de à .

Dans la ligne i, en face de la modalité, on inscrit , la somme des effectifs des i -1 premières modalités (cumul français), ou , la somme des effectifs des i premières modalités (cumul anglo-saxon).

Les couples sont des points de la fonction de répartition. Hors de ces points, on sait aussi quelle est l’image de tout x de , puisque l’image de x par F est le nombre d’individus qui ont une valeur inférieure à  : ce nombre c’est .

On a donc tout le diagramme intégral : .

2. Si la variable est continue (ou traitée comme telle), on ne connaît les effectifs qu’aux bornes des intervalles de valeurs, pas pour chaque valeur possible. À la différence du cas discret l’information contenue dans l’effectif d’une classe est limitée au nombre d’individus qui ont une valeur supérieure ou égale à la borne de gauche de la classe et inférieure (strictement) à la borne de gauche de la classe suivante ; on ne sait pas quelle est la valeur précise de chaque individu de la classe.

Ainsi, si les couples ou ou sont les points de la fonction de répartition aux bornes des intervalles, on doit faire une hypothèse pour les valeurs dans l’intervalle pour tracer toute la fonction : on fait l'hypothèse d’équirépartition.

L’hypothèse d’équirépartition (ou d’homogénéité) au sein de la classe i consiste à dire que pour la classe i, la borne de gauche, , comprise dans l’intervalle, est la valeur du 1er des individus de cette classe et que les autres individus, tous de valeur différente, sont régulièrement espacés sur toute l’étendue de la classe. (Ainsi , borne supérieure exclue de la classe i, est la première valeur de la classe i + 1.)

Dans chaque classe, les individus sont donc séparés l’un de l’autre par un écart de valeur égal à l’amplitude de la classe divisée par le nombre d’individus.

Soit l’écart entre deux individus de la classe i (il peut évidemment varier d’une classe à l’autre). Alors, selon l’hypothèse d’équirépartition, le premier individu de ladite classe a exactement la valeur , le second exactement la valeur , le troisième la valeur , etc., et le dernier a la valeur , soit une valeur inférieure à .

Graphiquement, l’hypothèse d’équirépartition situe les points de l’intervalle sur les segments de droite joignant les points-bornes : le diagramme intégral est une ligne brisée et non une courbe arrondie.

Si on fixe (arbitrairement) la borne supérieure du dernier intervalle à 40, le diagramme intégral (qui représente la fonction de répartition) se présente alors ainsi :

Sur ce diagramme intégral, on lit, par exemple, que l’image de 12 est 56 400, ce qui signifie que 56 400 individus ont une valeur inférieure à 12, c’est-à-dire que 56 400 chômeuses sont chômeuses depuis moins de 12 mois.

Entre les bornes des intervalles, on suit l’hypothèse d’équirépartition : on procède à une interpolation linéaire, ce qui revient à appliquer le théorème de Thalès.

Par exemple, on dira que l’image de 15 est entre celle de 12 et celle de 24 comme 15 est entre 12 et 24.

Ainsi, on suppose que l’image de 15 est : F(15) = = 61 449,75.

Autrement dit, on suppose que 61 449 chômeuses le sont depuis moins de 15 mois.

Plus généralement, , .

 

II. La médiane

On peut maintenant aborder la médiane. On en donnera une définition précise puis on montrera comment il convient de procéder pour la déterminer correctement, en montrant ainsi en quoi quelques recettes couramment utilisées sont de plus ou moins de bonnes recettes.

A- Définition

 La médiane est la valeur de l’individu médian 

Il n’y a pas d’autre définition simple et exacte à la fois ! nous allons le voir.

(On peut toujours donner une définition mathématique d’une notion quelconque, mais ce n’est pas toujours " parlant " : ainsi, on peut en construire une pour la médiane, à partir de la fonction de répartition, mais sa compréhension suppose la maîtrise de la notion discutée ci-après… ce qui la rend inutile pour notre propos !)

1. Selon Littré, l’adjectif médian signifie " qui est au milieu ".

Ainsi, s’agissant d’anatomie, la " ligne médiane [est] la ligne verticale qu’on suppose partager longitudinalement le corps en deux parties égales et symétriques " ; s’agissant d’ancienne astronomie, la " planète médiane [est] celle des sept planètes que l’on croyait au milieu des autres, c’est-à-dire ayant autant de planètes au-dessus d’elle qu’au-dessous ".

Ces deux exemples illustrent bien que la notion de médiane renvoie fondamentalement à celle d’individu médian, d’individu qui est " au milieu ". De là, l’individu médian est généralement désigné comme celui qui partage une population en deux moitiés égales. Mais ces deux exemples illustrent bien la difficulté de s’en tenir à une fausse évidence car ils renvoient en réalité à deux niveaux d’abstraction pas toujours totalement cohérents entre eux : l’abstrait continu de la mathématique et le concret discret de la statistique descriptive.

En effet, la ligne médiane partage une surface en deux moitiés d’aires égales parce qu’une ligne n’a pas d’épaisseur (ladite ligne a autour d’elle autant de lignes d’un côté que de l’autre, si l’on peut dire). De même que le point médian d’un segment de droite le partage en deux segments égaux parce que le point dans la droite est un point abstrait, " sans épaisseur " grâce à l’hypothèse de continuité (il y a toujours une infinité de points entre deux points aussi proches que l’on veut).

Par contre, dans l’exemple de la planète médiane, on ne peut dire qu’elle est au milieu, avec 3 planètes de part et d’autre, que parce qu’il y a 7 planètes, un nombre impair. De plus, 3 planètes de part et d’autre cela ne fait pas deux moitiés de 7, mais de 6 (les sept planètes moins la planète médiane)

Dans la réalité concrète, l’effectif est en nombre fini, même s’il est très grand, et on ne peut plus dire en toute rigueur que l’individu médian partage l’effectif en deux sous-ensembles égaux situés de part et d’autre de lui. En effet, cet individu est " épais ", il faut donc le mettre hors de la population étudiée, sans oublier que les deux fausses moitiés de l’effectif qui reste ne peuvent être égales que si l’effectif total est impair.

En toute rigueur, l’individu médian ne peut à la fois être au milieu et partager le tout en deux parties égales que s’il n’est dans aucune des deux moitiés et dans les deux en même temps. L’individu médian mathématique le peut parce qu’on le suppose dans un espace continu, c’est-à-dire appartenant à une population d’effectif infini. L’individu statistique ne le peut pas, parce qu’il est un individu " concret ", parce qu’il appartient à une population d’effectif fini, même si cet effectif peut être très grand et traité comme infini.

La description statistique d’une situation concrète exige donc d’adapter la définition abstraite de la médiane, car on ne passe pas directement de l’abstrait au concret : un segment concret n’est pas une suite de points abstraits, et encore moins une suite de points concrets. Le passage à la limite permet certes de traiter " mathématiquement " le concret fini, mais on est là dans l’antichambre de la statistique mathématique.

Cela dit, il y a un autre problème : même si l’individu médian est pris dans un effectif quasi infini, on ne peut pas admettre " sans problème " qu’il partage cet ensemble en deux parties égales, ce qui est implicite quand on raisonne en fréquences. Car on a parlé jusqu’ici de l’individu médian, alors que ce qui intéresse le statisticien, qui cherche à résumer une population par ses caractéristiques centrales, c’est la valeur de l’individu médian, la valeur médiane, ou médiane tout court.

Or, si on dira tout naturellement que la médiane est la valeur qui partage la population en deux sous-populations d’effectif égal, ce n’est pas aussi simple : tant qu’il s’agit de lignes ou de planètes, c’est-à-dire d’individus, ils sont par nature individualisés ; mais s’agissant de leur valeur, il peut y avoir, pour certaines grandeurs, des individus de même valeur, des classes d’individus, et plusieurs individus peuvent être médians du point de vue du critère de valeur retenu. On peut alors être très très loin de l'idée d'une moitié de population de valeur inférieure à la médiane !

Nous allons voir, avec des exemples, que la médiane est en fait bien moins évidente que ne le laissent penser les définitions simplistes que l’on peut en donner. En fait, pour caractériser numériquement une population avec la notion de médiane, nul besoin de désigner l’individu médian autrement que par son rang parmi ses semblables : la connaissance de la position médiane, du rang médian, suffit à déterminer la valeur de l’individu médian. La médiane renvoie non à un individu précis mais à une valeur, tous les individus de valeur médiane pouvant être l'individu médian.

Illustrons cela par l'exemple ci-dessous où 7 individus sont rangés par taille croissante, l'individu médian est d, mais a, c, e et f ont tous quatre la même taille que lui et chacun d'eux aurait également pu être l'individu médian. Et on voit immédiatement qu'il n'y a pas une moitié de la population de taille inférieure (ou supérieure).

2. Les définitions de la médiane généralement proposées, très intuitives et semblant claires, manquent en

réalité de précision (quand elles ne sont pas carrément fausses).

Voyons deux manuels parmi les plus utilisés :

G. Calot : " La médiane est la valeur de la variable statistique qui partage en deux effectifs égaux les individus de la population supposés rangés par valeur croissante du caractère "… " D’une façon générale, la médiane M est la valeur de la variable statistique telle que l’ordonnée de la courbe cumulative soit égale à . " (Statistique descriptive, Dunod, p. 31).

B. Py : " La médiane est la valeur du caractère qui partage la série en deux sous-ensembles égaux. "… " Il y a autant d’observations supérieures à la médiane que d’observations inférieures à la médiane. " (Statistiques descriptives, Economica, p. 74)… " Et l’on peut écrire : F(Mé)= . " (Idem, p. 76).

Ces définitions sont tout à fait discutables.

• D’abord, elles ne peuvent valoir que pour une population où chaque valeur possible n’est observée qu’une fois (à l’exemple des planètes de Littré ou des points de la droite réelle).

Dans le cas d’une variable continue, l’hypothèse d’homogénéité au sein de chaque classe garantit par construction l’unicité de chaque observation. On verra plus loin comment cette hypothèse d’individualisation permet d'associer une valeur différente à chaque rang et de donner une valeur médiane théorique.

Par contre, dans le cas d’une variable discrète rien n'empêche que plusieurs individus présentent la même valeur de caractère que l’individu médian (notre illustration ci-dessus). Dès lors il n’existe pas de valeur telle qu’" il y a autant d’observations supérieures à la médiane que d’observations inférieures à la médiane ".

Il en est bien ainsi dans notre exemple discret précédent : sur un nombre total de 70 observations, 25 observations, soit moins de la moitié, ont donné une valeur inférieure à 3 et 43 observations, soit plus de la moitié, ont donné une valeur inférieure à 4 ; de même, on a observé 27 fois une valeur supérieure à 4 et 45 fois une valeur supérieure à 3.

En fait, il faut distinguer le rangement, qui donne, dans l’espace de rangement, une place individualisée, et le classement, qui tel la valeur donne, dans son, une place possiblement collective (celle de la classe). Une définition sur la valeur ne peut pas en être une, par défaut de généralité.

• Ensuite, même en supposant l’unicité d’observation de chaque valeur possible, il y a le problème de la parité de l’effectif total.

En effet, si N est impair (de la forme 2p+1), il existe bien un individu " au milieu ", le p+1ème, qui est tel que p observations sont faites avant et p après… mais p ce n’est pas la moitié ! (pas tout à fait).

Si N est pair (de la forme 2p), seuls deux individus pris ensemble sont " au milieu " : les p et p+1 èmes, mais s’ils ont bien le même nombre d’individus, p-1, de part et d’autre, c’est encore moins la moitié que précédemment. Néanmoins, dans ce cas, on décide, par convention, que le p+1ème est l’individu médian, et on a bien, alors, l’exacte moitié p avant, mais pas après, où il n’y en a que p-1.

Nota bene : l’individu médian, le p+1ème, peut avoir la même valeur que le pème. Attention à ne pas confondre le rang et le classement, car le rang est unique. S’il peut y avoir des ex-æquo quand on classe (opération abstraite, qui porte sur les valeurs, où les équivalents sont mis dans la même classe), cela ne se peut pas quand on range (opération physique, concrète, qui porte sur les individus eux-mêmes, que l’on met à la suite, en rang, qu’on dispose sur une ligne).

On constate donc qu’il n’est pas correct de dire généralement que la médiane partage la population en deux sous-populations d'effectifs égaux ou que la moitié de la population a une valeur inférieure à la valeur médiane et l’autre moitié une valeur supérieure (les deux propositions sont fausses, parce qu'elles ne pas nécessairement vérifiées – pour des raisons différentes). Rigoureusement parlant, les définitions discutées ne sont pas des définitions mais de simples approximations intuitives de la nature de la médiane.

• Enfin, il n’est pas davantage satisfaisant de se raccrocher à la fonction de répartition (ou courbe cumulative) en disant que la médiane est la valeur M du caractère dont l’image par F est F(M) = p (ou 0,5 ou 50 % en fréquence) : cela suppose que l’on connaisse N et que p (ou 0,5 ou 50 %) n’ait que un antécédent (il suffit pour cela que tous les individus aient une valeur différente, mais ce n’est pas nécessaire).

C’est toujours vrai dans le cas continu, on le verra, sous l’hypothèse d’équirépartition.

Par contre, dans le cas discret, ce n'est plus toujours vrai. Il suffit de regarder le diagramme en escalier pour constater que si l’ordonnée p (ou 0,5 ou 50 %) " tombe " entre deux marches, il y a bien un antécédent déterminé (qui sera la médiane), mais que si p tombe en face une marche de l'escalier correspondant à une observation multiple (), alors p a plusieurs antécédents.

Quid alors de la médiane ? On parle parfois d'intervalle médian (par exemple G. Calot et B. Py, op.cit.), ce qui n'est pas satisfaisant car la médiane n'est plus une modalité du caractère, c'est-à-dire une valeur observée portée par un individu de la population étudiée, mais un ensemble de valeurs dont un nombre infini de valeurs non observables. Dans ce cas, on peut certes déterminer la médiane à partir de l'image , comme valeur de l'individu médian (cf plus loin), mais comme plusieurs valeurs ont cette même image, on ne peut pas la définir de cette manière : on ne définit pas par le mode de détermination.

Au total, on ne peut définir la médiane que par référence à l’individu médian, qui est toujours bien défini, soit " physiquement ", soit par convention, et auquel on peut toujours associer une modalité.

B- Détermination

Pour déterminer la médiane, on n'a pas besoin de savoir qui est l'individu médian (de toute façon les données numériques dont on dispose ne le permettraient pas), mais seulement quelle modalité il présente. Il nous suffit pour cela de déterminer le rang médian, c’est-à-dire le rang de l’individu médian.

Pour ce faire, on range les individus par valeur croissante. C'est l'habitude, par rapport à la définition de F, mais on pourrait tout aussi bien classer par valeur décroissante, le principe de calcul de la médiane restant le même (il faudrait bien sûr modifier les conventions de calculs pour trouver le même résultat). Puis on procède en deux étapes : détermination du rang médian et " observation " de la valeur.

1. Détermination du rang médian

a) Données en valeur absolue

Dans le cas d'un effectif total N impair (de la forme 2p +1), l'individu médian est le +1ème : il est précédé par p  individus de valeur inférieure ou égale à la sienne et suivi par p  individus de valeur supérieure ou égale. (Rappel : plusieurs individus peuvent avoir une valeur égale à celle du +1ème.)

Par contre, si N est pair (de la forme 2p), il n'y a pas d'individu tel qu'un nombre égal d'individus le précèdent ou le suivent : le pème individu est précédé par p—1 individus et suivi par p ; le +1ème est précédé par p individus et suivi par +1. Parce que la médiane est la valeur d’un individu, il faut choisir un individu médian, et comme on l’a déjà indiqué, on choisit par convention le p +1ème (par cohérence avec la définition de la fonction de répartition).

Le rang de l'individu médian est donc +1, dans les deux cas, avec :

p +1 = si N est pair,

p +1 = si N est impair.

Dans les deux cas, p individus sont rangés avant l’individu médian et ont une valeur inférieure ou égale à celle de cet individu. Dans notre exemple, le rang médian est = 36 et 35 individus sont rangés avant l’individu médian.

b) Données en " fréquences "

 

Si les effectifs sont donnés en valeur relative (ou en %), généralement appelée fréquence, on a par définition et (ou = 100), et on raisonne sur les fréquences cumulées au lieu des effectifs cumulés.

Dans ce cas, le rang de l'individu médian n’est évidemment pas (où est considéré comme impair). Il n'est pas davantage % (où = 100 est considéré comme pair) : si les effectifs sont donnés en fréquence, il probable que c’est parce que N est grand et si N > 100 le rang de l'individu médian est supérieur à 50 et correspond à une fréquence comprise entre 50 % et 51 % (cependant, si = 100, l'individu médian, le 51ème, correspond bien exactement à la fréquence 51 %, tandis que si N < 100, le rang médian correspond à une fréquence supérieure à 51 %).

Il y a deux possibilités quant à N (que l'on ne connaît pas) :

• soit N est pair, alors 0,5 (ou 50 %) correspond exactement à p et l’individu médian est celui qui a la valeur qui vient immédiatement après la fréquence 50%, la moitié des individus étant rangés avant ;

• soit N est impair, alors 0,5 (ou 50 %) correspond à p+ et la première valeur venant après 50 % est celle de l’individu de rang p+1, d'où l'on conclut comme dans le cas précédent.

 

Au total, si on a des données en fréquences relatives, l’individu médian est celui dont la valeur apparaît immédiatement après la fréquence 50 %.

 

Remarque : une erreur fréquente des étudiants est de confondre N et et de chercher pour la médiane la valeur correspondant à , soit 51 en points de pourcentage (nombre qui n’a aucune raison particulière d’être égal ou de correspondre à p+1, cf. plus haut) ; comme ils arrivent néanmoins au résultat en suivant la même démarche de calcul qu'avec les effectifs, puisque 0,5 est bien dans tous les cas l’image de la médiane (cf. infra), ils comprennent mal la nécessité de bien raisonner quand ils peuvent trouver le résultat juste en raisonnant faux.

2. Détermination de la médiane

Il s’agit ici de fonder de façon parfois fastidieuse une pratique simple quand les fondements sont compris, ce qui peut paraître inutile quand des recettes paraissent efficaces. Mais ces recettes sont trop souvent des approximations, et les recettes n'ont de sens à l'Université que comme application d'une réflexion, d'une analyse.

  1. Lecture du tableau statistique

Les modalités étant rangées par ordre croissant, la colonne des effectifs cumulés donne pour chaque modalité le nombre d'individus qui présentent, selon le mode de cumul, une modalité strictement inférieure ou inférieure ou égale à ladite modalité : elle exprime un classement des individus, le rang de l'individu médian permettant alors de le situer dans ce classement et d’en déduire la valeur de la médiane.

a1. Variable discrète

• Cumul " à la française "

- Cas général : , c’est-à-dire que p tombe entre deux lignes du tableau.

À la ligne i on lit qu’il y a individus dont la valeur est inférieure à et à la ligne i+1 on lit que individus ont une valeur inférieure à . Or l’individu de rang p +1 ayant une valeur supérieure ou égale à celle du pème , a une valeur supérieure ou égale à celle du ème , mais aussi inférieure ou égale à celle du ème (puisque par hypothèse ).

L'individu médian a donc une valeur égale ou supérieure à et inférieure à . On a : image127.gif (832 octets) M < . Comme, par définition, il n'y pas de valeur possible du caractère comprise entre et , on en déduit que la médiane, valeur de l'individu médian, est .

D'où la recette : on lit la médiane dans la ligne au-dessus de p, c’est-à-dire dans la ligne de .

- Cas particulier : p = , c’est-à-dire tombe sur une ligne (la ligne i).

À la ligne i on lit qu'il y a p = individus dont la valeur est strictement inférieure à . Par conséquent, l'individu médian, de rang p+1, présente la modalité immédiatement supérieure à moins de. Sa modalité, qui est la médiane, est donc .

D'où la recette : on lit la médiane dans la ligne de p, c'est-à-dire de .

• Cumul " à l’américaine "

- Cas général : , c’est-à-dire que p tombe entre deux lignes du tableau.

À la ligne i on lit qu’il y a individus dont la valeur est inférieure ou égale à et à la ligne i+1 on lit que individus ont une valeur inférieure ou égale à . On en déduit comme précédemment que l’individu de rang p +1 ayant une valeur plus grande que le ème et au plus égale à celle du ème, a donc une valeur supérieure à et inférieure ou égale à . On a: < M image127.gif (832 octets)

Comme, par définition, il n'y pas de valeur possible du caractère comprise entre et , il résulte de ce qui précède que la médiane, valeur de l'individu médian, est .

D'où la recette : on lit la médiane dans la ligne en dessous de p, c’est-à-dire dans la ligne de .

- Cas particulier : p = , c’est-à-dire tombe sur une ligne

Cela signifie qu’il y a exactement p = individus de valeur inférieure ou égale  à .

Par conséquent, l'individu de rang p +1 présente la modalité immédiatement supérieure à .

La médiane est donc .

D'où la recette : on lit la médiane dans la ligne en dessous de p.

Exemple : reprenons l’exemple discret précédent, où p+1 = 36.

Lisons le tableau en regardant et : 25 observations sont inférieures à 3 et 43 sont inférieures à 4.

La 36ème observation est donc à la fois supérieure ou égale à 3 et inférieure à 4 : la médiane est 3.

Le rang médian 36 est compris entre 25 et 43, on lit bien la médiane dans la ligne au-dessus de 25.

On raisonne de même pour le cumul à l'américaine pour vérifier que la recette fonctionne.

a2. Variable continue

Dans ce cas, on ne peut généralement pas connaître la vraie valeur de la médiane : la partition en sous-populations étant faite selon des classes de valeurs du caractère, le rang médian détermine de façon certaine la classe à laquelle appartient la médiane, mais pas sa valeur précise.

Rappel : si la variable est continue, est la borne de gauche (incluse) de l’intervalle inscrit à la ligne i

et en est la borne droite (exclue).

 

• Cumul " à la française "

- Cas général : , c’est-à-dire que p tombe entre les lignes i et i+1 du tableau.

À la ligne i on lit qu’il y a individus dont la valeur est inférieure à et à la ligne i+1 on lit que individus ont une valeur inférieure à . En raisonnant comme dans le cas discret, on en déduit que : image127.gif (832 octets) M < .

On ne peut pas en dire plus car il peut y avoir ici une infinité de valeurs possibles pour les individus dont la valeur est dans l'intervalle . Pour aller au delà de cette seule information certaine, on reprend l'hypothèse d'équirépartition que l'on a faite plus haut (p. 4) pour tracer les diagrammes différentiel (histogramme) et intégral (fonction de répartition).

Rappelons que sous cette hypothèse, le premier individu d'une classe présente une valeur de caractère exactement égale à la borne inférieure de l'intervalle tandis que le dernier présente une valeur de caractère exactement égale à la borne supérieure moins un écart . Ainsi, " moins de " signifie précisément et " moins de " signifie précisément .

Par construction du tableau " à la française ", on inscrit à la ligne i la modalité et le nombre (noté ) d'individus qui ont une valeur inférieure à . Ainsi, l'individu de rang +1 a la valeur et l'individu de rang la valeur . Dès lors, selon l'hypothèse d'équirépartition l'individu de rang a la valeur .

Soit m le rang de l’individu médian au sein de sa classe : la valeur médiane est M = .

Mais m est la différence de rang entre l'individu médian et le dernier de la classe précédente,

soit :

dont on déduit : .

Se rappelant que : ,

on a :

ce qui fait apparaître que M est entre et comme p est entre Ni et Ni+1 (cela traduit l’hypothèse d’équirépartition).

En effet, on peut écrire :

ce qui revient bien à la règle de proportionnalité suivante :

D'où la recette : quand p tombe entre deux lignes, on obtient la valeur médiane en faisant une interpolation

linéaire sur p entre les bornes de gauche des deux classes qui " encadrent " p.

- Cas particulier : p =

Cela signifie qu’il y a exactement p = individus de valeur inférieure à . Par conséquent, l'individu de rang p +1 a la valeur immédiatement supérieure à moins de. La médiane est donc .

D'où la recette : quand p tombe sur une ligne, la médiane est la borne de gauche de la classe

correspondante.

(On remarque qu'il s'agit aussi de la borne de droite de la ligne au-dessus de p.)

On notera qu'il s'agit bien d'un cas particulier du cas général vu auparavant, car le résultat de l'interpolation avec p = donne effectivement M = , c'est-à-dire la borne de gauche de la modalité de la ligne de p.

• Cumul " à l'anglo-saxonne "

- Cas général : , c’est-à-dire que p tombe entre les lignes i et i+1 du tableau.

À la ligne i on lit qu’il y a individus dont la valeur est inférieure à et à la ligne i+1 on lit que individus ont une valeur inférieure à . Comme précédemment, on en déduit : image127.gif (832 octets) M < .

Comme précédemment, il faut faire une interpolation linéaire sur l'intervalle , mais comme le cumul américain décale simplement les valeurs d’une ligne vers le haut, la borne n’est autre que la borne du cumul français : on a exactement les mêmes nombres dans le calcul et donc, bien évidemment, le même résultat. Le résultat ne dépend pas du mode de cumul, seule la recette change, puisque l'interpolation porte sur les bornes non plus de gauche mais de droite.

Recette : pour trouver la valeur médiane, on fait une interpolation linéaire sur p entre les bornes

de droite des deux classes qui " encadrent " p.

- Cas particulier : p =

Cela signifie qu’il y a exactement p = individus de valeur inférieure à . Par conséquent, l'individu de rang p +1 a la valeur immédiatement supérieure à moins de. La médiane est donc M =.

D'où la recette : la médiane est la borne de droite de la modalité lue dans la ligne de p.

(On remarque qu'il s'agit aussi de la borne de gauche de la ligne en dessous de p.)

 

Exemple :

Ancienneté (mois)

Fréquences

Fréquences cumulées

[0 ; 3[

0,24

0,24

[3 ; 12[

0,39

0,63

[12 ; 24[

0,22

0,85

[24 ; …[

0,15

1

Total :

1

 

On a ici un cumul " américain " : à la première ligne on lit que 24 % des individus ont une ancienneté inférieure à 3 mois ; à la deuxième ligne on lit que 63 % des individus ont une ancienneté inférieure à 12 mois. L'ancienneté médiane est obtenue en interpolant ainsi : . On trouve M = 9.

 

En résumé, rappel des recettes (avec image127.gif (832 octets) p < )

----------------------------------------------------------------------------------------------------------------------------------

• Variable discrète

- cumul " français " : M = (ligne au-dessus de p ou ligne de p)

- cumul " anglo-saxon " : M = (ligne en dessous de p).

• Variable continue :

- cumul " français " : interpolation sur les bornes de gauche (M = , borne de gauche si p = )

- cumul " anglo-saxon " : interpolation sur les bornes de droite (M = , borne de droite si p = ).

(La valeur de la médiane est bien la même dans les deux modes de cumul, car un cumul " à la française " décale les d'une ligne vers le bas par rapport aux d'un cumul " à l'anglo-saxonne ", ce qui revient dans le cas continu à faire de la borne de droite " américaine " la borne de gauche " française ".)

b) Détermination graphique

Il s'agit plutôt ici de montrer les propriétés graphiques de la médiane. On peut cependant les utiliser pour déterminer la médiane quand on n'a pas les données numériques, mais uniquement une représentation graphique de la distribution.

La médiane étant la valeur du p+1ème individu, on peut la lire comme image graphique de cet individu dans le diagrammes représentatifs de la distribution. On peut le faire à partir du diagramme différentiel, mais cela se fait bien plus directement en utilisant le diagramme intégral, par nature même de ce diagramme qui représente la distribution à partir des effectifs cumulés en associant à tout point de la droite réelle une longueur cumulée de bâtons (cas discret) ou une aire cumulée de rectangles (cas continu).

b1. À partir du diagramme différentiel

Caractère discret

Le diagramme différentiel représente les effectifs d'une valeur par un bâton. Le p+1ème individu (médian) a donc "avant lui" la moitié de la longueur totale des bâtons. La médiane est alors l'abscisse du bâton dans lequel il se trouve.


Dans l'exemple ci-dessous, on a : . La médiane est égale à 4.


 

(En s'aidant d'un instrument de mesure de la longueur tel un décimètre, le lecteur pourra utilement reconstituer le tableau de la distribution " en fréquences " représentée par ce diagramme et vérifier que la médiane de cette distribution est bien 4.)

Caractère continu

L'histogramme représente les effectifs des classes de valeurs par des surfaces d'aires proportionnelles aux effectifs. La médiane est alors la valeur qui partage la surface totale en deux surfaces de même aire, une moitié des effectifs étant de chaque côté de cette valeur. Pour trouver la médiane, on calcule la surface totale, puis on cherche pour quelle valeur de x on a atteint la moitié de cette surface.

graph5.jpg (17713 octets)

b2. À partir du diagramme intégral

Comme le diagramme intégral est la représentation graphique de F définie " à la française ", on est de facto dans le cas d'un cumul à la française : les dont on parle ci-après sont des . (Si on avait défini F " à l'américaine ", comme cela commence à se faire, sans que ce soit dit, dans les manuels, il faudrait transposer le raisonnement sur des , et on obtiendrait évidemment les mêmes résultats numériques.)

Rappel : si le +1ème individu vaut la médiane, le pème individu vaut strictement moins que la médiane. Ainsi, par définition de F, l'image par F de la médiane est p (et non +1, erreur fréquente de l'étudiant).

En fréquences, l’image par F de la médiane est pour la même raison 0,5 (ou 50, en points de pourcentage) et non 0,51 ou 51 comme on le voit trop souvent.

Caractère discret

La fonction de répartition est en escalier et il faut distinguer deux cas :

* p (ou 0,5) est en face d’une marche

Dans ce cas, p est l’image d’un segment de la droite réelle, par exemple , que l’on appelle parfois intervalle médian. Cela signifie que p individus valent moins que et que le p+1ème vaut .

Quand p tombe sur une marche, la médiane, valeur possible dont p est l’image, est donc la borne de droite de l’intervalle médian (cette borne est certes exclue de l'intervalle, mais on se rappelle que F associe à tout réel le nombre d'individus dont la valeur est inférieure à ce réel).

D’où la recette : quand p est en face d'une marche, la médiane est la borne droite (exclue) de la marche.

* p tombe entre deux marches

Dans ce cas, p n’a pas d’antécédent. Néanmoins, on peut trouver la médiane en " descendant " entre les deux marches. En effet, si p est entre et , cela veut dire que la médiane est supérieure ou égale à et inférieure à . Donc la médiane est .

D’où la recette : quand p est entre deux marches, la médiane est la borne de gauche (incluse) de la

marche supérieure (c'est aussi la borne de droite, exclue, de la marche inférieure).

Caractère continu

Dans ce cas, la détermination de la médiane ne pose aucune difficulté, puisque le diagramme est une ligne brisée continue : toute valeur de F a un antécédent unique. Il suffit alors de chercher l'antécédent de p (ou de 0,5).

graph6.jpg (12651 octets)

 

Nota bene : il apparaît clairement qu'on n'a pas de manière générale F(M) = 0,5. Dans le cas continu c'est toujours vrai, certes, par hypothèse d'équirépartition, mais ce n'est pas vrai dans le cas discret. En effet, dans ce cas, si p tombe sur une marche, 0,5 a d'autres antécédents par F que la médiane (tout l'" intervalle médian "), tandis que si p tombe entre deux marches l'image par F de la médiane est non pas 0,5 mais l'ordonnée de la marche supérieure.

 

Retour en haut de la page                                              Retour à l'accueil