Variable aléatoire à densité

Pour les articles homonymes, voir Densité (homonymie).

En théorie des probabilités, une variable aléatoire à densité est une variable aléatoire réelle, scalaire ou vectorielle, pour laquelle la probabilité d'appartenance à un domaine se calcule à l'aide d'une intégrale sur ce domaine.

\mathbb {P} (a\leqslant X\leqslant b)=\int _{a}^{b}f(x)\,\mathrm {d} x.

Calcul de la probabilité d’un intervalle [a,b]
pour une variable X de densité f.

La fonction à intégrer est alors appelée « fonction de densité » ou « densité de probabilité », égale^[1] (dans le cas réel) à la dérivée de la fonction de répartition.

Les densités de probabilité sont les fonctions essentiellement positives et intégrables d'intégrale 1 sur $\mathbb {R}$ .

Informellement, une densité de probabilité peut être vue comme la limite d'un histogramme : si on dispose d'un échantillon suffisamment important de valeurs d'une variable aléatoire à densité, représenté par un histogramme des fréquences relatives des différentes classes de valeurs, alors cet histogramme va ressembler à la densité de probabilité de la variable aléatoire, pourvu que les classes de valeurs soient suffisamment étroites.

Variable aléatoire réelle

Lien entre la densité, f et la fonction de répartition (haut), et, plus généralement, les probabilités (bas).

Une variable aléatoire réelle X est dite à densité s'il existe une fonction f positive et intégrable sur $\mathbb {R}$ , appelée fonction de densité, telle que pour tout $(a,b)\in \mathbb {R} ^{2}$ on ait $\mathbb {P} (a\leqslant X\leqslant b)=\int _{a}^{b}f(t)\,\mathrm {d} t$ .

Dans ce cas, pour tout réel a on trouve $\mathbb {P} (X=a)=0$ . En outre, la fonction de répartition $F:x\mapsto \int _{-\infty }^{x}f(t)\,\mathrm {d} t$ est continue et même presque partout dérivable, et sa dérivée est alors presque partout égale à la fonction de densité.

On obtient aussi $\int _{-\infty }^{+\infty }f(t)\,\mathrm {d} t=1$ , ce qui correspond à la somme des probabilités élémentaires pour une variable aléatoire discrète, mais la fonction de densité peut très bien avoir des valeurs strictement supérieures à 1.

Le support d'une variable aléatoire à densité est l'adhérence de l'ensemble des réels pour lesquels la fonction de densité est essentiellement non nulle, c'est-à-dire le complémentaire de la réunion des intervalles ouverts sur lesquels la fonction de répartition est constante.

En traçant la représentation graphique de la densité de probabilité, la probabilité $\,\mathbb {P} (a<X\leqslant b)\$ se lit comme l'aire sous la courbe sur l'intervalle [a , b].

Exemples

On peut classer les lois à densité selon leur type de support : borné, semi-infini ou infini. Chacune d'elles représente en général une famille de lois dépendant d'un ou plusieurs paramètres.

Parmi les lois à densité à support borné, on trouve notamment les lois uniforme, triangulaire, ou la loi bêta.

Beaucoup de lois à densité ont pour support l'ensemble $\mathbb {R} ^{+}$ , comme la loi exponentielle, le χ² (« khi-deux »), la loi Gamma ou la loi de Pareto.

D'autres ont pour support l'ensemble $\mathbb {R}$ comme la loi normale et la loi de Cauchy.

Critères d'existence d'une densité

En vertu d'un théorème dû à Lebesgue^[2], la fonction de répartition d'une variable aléatoire réelle X étant croissante, elle est dérivable presque partout sur $\mathbb {R}$ , et la dérivée ainsi obtenue est positive et intégrable sur $\mathbb {R}$ , d'intégrale inférieure ou égale à 1.

Une variable aléatoire réelle est à densité si et seulement si l'un des critères équivalents suivants est satisfait :

Sa fonction de répartition est absolument continue ;
L'intégrale sur $\mathbb {R}$ de la dérivée de sa fonction de répartition vaut 1.

La continuité de la fonction de répartition exclut les variables aléatoires discrètes mais ne suffit pas pour définir une fonction de densité, comme dans le cas d'une variable aléatoire dont la fonction de répartition est l'escalier de Cantor. Une telle loi est dite diffuse, mais la dérivée de la fonction de répartition est presque partout nulle.

On dispose également d'une condition suffisante souvent utilisée dans les cas pratiques : une variable aléatoire réelle dont la fonction de répartition est continue et de classe $\,{\mathcal {C}}^{1}$ par morceaux sur $\mathbb {R}$ est une variable à densité.

Espérance, variance et moments

Soit X une variable aléatoire réelle ayant une densité de probabilité f. D'après le théorème de transfert, X possède un moment d'ordre k si et seulement si l'intégrale

\int _{-\infty }^{\infty }~|t|^{k}\,f(t)~\mathrm {d} t

est finie. On a dans ce cas

\mathbb {E} \left(X^{k}\right)=\int _{-\infty }^{\infty }~t^{k}\,f(t)~\mathrm {d} t.

En particulier, lorsque le moment d'ordre 2 existe :

\mathbb {E} \left(X\right)=\int _{-\infty }^{\infty }~t\,f(t)~\mathrm {d} t,\quad \mathbb {E} \left(X^{2}\right)=\int _{-\infty }^{\infty }~t^{2}\,f(t)~\mathrm {d} t,

et, d'après le théorème de König-Huyghens,

\mathbb {V} \left(X\right)=\int _{-\infty }^{\infty }~t^{2}\,f(t)~\mathrm {d} t-\left(\int _{-\infty }^{\infty }~t\,f(t)~\mathrm {d} t\right)^{2}.

Définition informelle de la densité de probabilité

La définition qui suit est une reformulation de la définition intégrale proposée en début d'article. C'est la définition utilisée en général par les physiciens, en particulier ceux issus du domaine de la physique statistique.

Si dt est un nombre réel positif infiniment petit, alors la probabilité que X soit inclus dans l'intervalle [t , t + dt] est égale à f (t) dt soit :

\mathbb {P} \left(t<X<t+\mathrm {d} t\right)=f(t)\,\mathrm {d} t.

Cette « définition » est très utile pour comprendre intuitivement à quoi correspond une densité de probabilité, et elle est correcte dans beaucoup de cas importants. On peut tracer une analogie avec la notion de densité de masse, ou encore avec la notion de densité de population. Une formulation plus mathématique serait

\mathbb {P} \left(t<X<t+h\right)=f\left(t\right)\,h+o(h),

ce qui permet de comprendre en quoi la définition donnée en physique n'est pas complètement rigoureuse :

\mathbb {P} \left(t<X<t+h\right)=\int _{t}^{t+h}\ f\left(u\right)\,\mathrm {d} u,

et il est alors facile de vérifier que si f possède une limite à droite en t, qu'on note f(t₊), on a alors :

\int _{t}^{t+h}\ f(u)\,\mathrm {d} u=f(t_{+})\,h+o(h),

ce qui corrobore la définition physique lorsque f est continue à droite en t, mais la met en défaut quand f(t) ≠ f(t₊). Bien sûr, les densités de probabilités usuelles sont continues à droite sauf éventuellement en un nombre fini (et en un petit nombre) de points.

Ce genre d'interprétation infinitésimale (ou issue de la physique) s'étend aux dimensions d ≥ 2 (voir la section suivante).

Densité de la médiane de 9 variables i.i.d. :

Soit $\,(X_{i})_{1\leq i\leq 9}\$ une suite de 9 v.a.r. i.i.d. de même densité f et de même fonction de répartition F. Notons M la médiane de cette suite. Alors :

\mathbb {P} \left(t<M<t+dt\right)=\mathbb {P} \left({\text{parmi les 9 v.a.r., 4 exactement sont}}\leq t{\text{ et 4 sont}}\geq t+dt\right).

On peut voir cela comme une suite de 9 expériences aléatoires indépendantes faites dans les mêmes conditions, avec à chaque fois trois issues : « X_i ≤ t », « t < X_i < t + dt » et « t + dt ≤ X_i », de probabilités respectives F(t), f(t) dt et 1 – F(t + dt), donc la probabilité ci-dessus est donnée par la loi multinomiale de paramètres 3, 9 et (F(t) , f(t) dt , 1 – F(t + dt)). Ainsi :

\mathbb {P} \left(t<M<t+dt\right)={9 \choose 4,1,4}F(t)^{4}\left(f(t)\mathrm {d} t\right)^{1}\left(1-F(t+\mathrm {d} t)\right)^{4},

et la densité de M est

{f}_{M}(t)={9 \choose 4,1,4}F(t)^{4}\left(1-F(t)\right)^{4}f(t)=630\,F(t)^{4}\left(1-F(t)\right)^{4}f(t).

Cette méthode est détaillée dans le livre de David^[3]. Un résultat plus général se trouve dans Statistique d'ordre.

Densité de la médiane de 9 variables i.i.d. (bis) :

Pour le calcul de la densité de la médiane de 9 variables i.i.d., une solution plus rigoureuse que celle de la section précédente, mais plus lourde, est de calculer la fonction de répartition de la médiane, puis de la dériver. On reconnait un schéma de Bernoulli : le nombre d'indices i tels que {X_i ≤ t } suit une loi binomiale de paramètres 9 et F(t).

{\begin{array}{rl}\mathbb {P} \left(M\leq t\right)&=F_{M}(t)=\mathbb {P} \left({\text{au moins 5 des 9 }}X_{i}{\text{ sont }}\leq t\right)\\[5pt]&={\displaystyle \sum _{j=5}^{9}{9 \choose j}F(t)^{j}(1-F(t))^{9-j}.}\end{array}}

En dérivant, on trouve :

f_{M}(t)={dF_{M} \over dt}(t)=\sum _{j=5}^{9}{9 \choose j}\left(jF(t)^{j-1}f(t)(1-F(t))^{9-j}+F(t)^{j}(9-j)(1-F(t))^{9-j-1}(-f(t))\right)

Après quelques manipulations sur les coefficients binomiaux, tous les termes de cette somme se télescopent, sauf une partie du premier terme, ce qui donne :

f_{M}(t)={9! \over {4!\cdot 4!}}F(t)^{4}(1-F(t))^{4}f(t)\ =\ {9 \choose 4,1,4}F(t)^{4}(1-F(t))^{4}f(t),

puis

\int _{\mathbb {R} }F(t)^{4}(1-F(t))^{4}f(t)\,\mathrm {d} t=\int _{0}^{1}x^{4}(1-x)^{4}\,\mathrm {d} x={\frac {\Gamma (5)^{2}}{\Gamma (10)}}={\frac {4!\cdot 4!}{9!}}.

Pour les deux dernières égalités, se référer aux pages sur la fonction bêta et sur la fonction gamma. Il en découle que f_M satisfait le critère 1. CQFD.

On pourra consulter le livre de David^[3] (pages 8-13) pour plus de détails.

Densité de probabilité d'un vecteur aléatoire

Définition — On appelle densité de probabilité d'une variable aléatoire X à valeur dans $\,\mathbb {R} ^{d}$ une fonction f telle que pour toute partie borélienne $\,A\subset \mathbb {R} ^{d},$

\mathbb {P} (X\in A)=\int _{\mathbb {R} ^{d}}\ 1_{A}(u)\,f(u)\,\mathrm {d} u=\int _{A}\ f(u)\,\mathrm {d} u.

Cette définition est en particulier valable pour d = 1 et est donc équivalente à la première définition, dans le cas particulier d = 1. Il existe une définition (équivalente) en termes d'espérance mathématique :

Théorème — Soit une variable aléatoire X à valeur dans $\,\mathbb {R} ^{d}$ , de densité f, et soit φ une fonction borélienne de $\,\mathbb {R} ^{d}\$ dans $\,\mathbb {R} .$ Alors, dès qu'un des deux termes de l'égalite suivante

\mathbb {E} \left[\varphi (X)\right]=\int _{\mathbb {R} ^{d}}\ \varphi (u)\,f(u)\,\mathrm {d} u

a un sens, alors l'autre aussi, et l'égalité a lieu. Réciproquement, si l'égalité ci-dessus a lieu pour tout φ borélien borné, alors f est une densité de X.

Si une fonction f est la densité de probabilité d'une variable aléatoire à valeur dans $\,\mathbb {R} ^{d}$ , cette fonction vérifie les propriétés suivantes :

f est intégrable sur $\,\mathbb {R} ^{d}$ ;
$\int _{\mathbb {R} ^{d}}f(t)\,\mathrm {d} t=1$ ;
f est presque partout positive ou nulle sur $\,\mathbb {R} ^{d}$ .

Réciproquement, si une fonction f vérifie les 3 propriétés ci-dessus, on peut construire une variable aléatoire X à valeur dans $\,\mathbb {R} ^{d}$ ayant f pour densité de probabilité. Les variables aléatoires qui possèdent une densité de probabilité sont appelées parfois variables à densité, parfois variables continues.

Existence

En vertu du théorème de Radon-Nikodym, le vecteur aléatoire Z possède une densité si et seulement si, pour chaque borélien A de $\,\mathbb {R} ^{d}\$ dont la mesure de Lebesgue est nulle, on a

\mathbb {P} \left(Z\in A\right)=0.

Ce critère est rarement employé dans la pratique pour démontrer que Z possède une densité, mais il est en revanche utile pour démontrer que certaines probabilités sont nulles. Par exemple, si le vecteur aléatoire Z = (X , Y) possède une densité, alors

$\mathbb {P} \left(X=Y\right)=0$ ,
$\mathbb {P} \left(X^{2}+Y^{2}-1=0\right)=0$ ,

ou bien encore, plus généralement,

$\mathbb {P} \left(Y=\varphi (X)\right)=0$ ,
$\mathbb {P} \left(\psi (X,Y)=0\right)=0$ ,

pour des fonctions φ et ψ suffisamment régulières^[4], parce que la mesure de Lebesgue (c'est-à-dire la surface) de la 1^re bissectrice (resp. du cercle unité, du graphe de la fonction φ, ou de la courbe d'équation ψ = 0) sont nulles.

Le critère de Radon-Nikodym peut aussi être utilisé pour démontrer qu'un vecteur aléatoire ne possède pas de densité : par exemple, si

Z=\left(\cos \Theta ,\sin \Theta \right),

où Θ désigne une variable aléatoire à valeur dans [0 , 2π] (par exemple, si Z est tiré au hasard uniformément sur le cercle unité, c'est-à-dire si Θ suit la loi uniforme sur [0 , 2π]), alors Z ne possède pas de densité car

\mathbb {P} \left(X^{2}+Y^{2}=1\right)=1.

Cas des variables aléatoires réelles à densité

En spécialisant à d = 1, on note que, parmi les boréliens A de $\,\mathbb {R} \$ dont la mesure de Lebesgue est nulle, figurent en particulier les parties finies de $\,\mathbb {R} .\$ Donc une variable aléatoire réelle X à densité vérifie, en particulier :

\mathbb {P} \left(X=x\right)=0,

pour tout nombre réel x, et, par conséquent,

\mathbb {P} \left(a\leqslant X\leqslant b\right)=\mathbb {P} \left(a\leqslant X<b\right)=\mathbb {P} \left(a<X\leqslant b\right)=\mathbb {P} \left(a<X<b\right).

Il s'ensuit que les variables aléatoires réelles à densité ont nécessairement une fonction de répartition continue sur $\,\mathbb {R} .\$ La continuité de la fonction de répartition n'est pas, toutefois, une propriété caractéristique des variables aléatoires réelles à densité, comme le montre l'exemple de la loi de Cantor, dont la fonction de répartition est l'escalier de Cantor.

Non-unicité de la densité de probabilité

Si f et g sont deux densités de probabilités de la même variable aléatoire X alors f et g sont égales presque partout. Réciproquement, si g est presque partout égale à une densité de probabilité de X, alors g est une densité de probabilité de X. Ainsi une variable aléatoire à densité possède-t-elle toujours une infinité de densités de probabilité : par exemple, en perturbant l'une des densités de X de manière arbitraire en un nombre fini de points, on obtient encore une densité de X.

En revanche, la densité de probabilité est par conséquent unique modulo l'égalité presque partout.

Densité jointe de plusieurs variables aléatoires réelles

La fonction g définie de $\,\mathbb {R} ^{d}\$ dans $\,\mathbb {R} \$ est une densité jointe de la suite de variables aléatoires réelles (Z₁, Z₂, ... , Z_d) si g est une densité de probabilité du vecteur aléatoire Z à valeurs dans $\,\mathbb {R} ^{d},$ défini par

Z=\left(Z_{1},Z_{2},\dots ,Z_{d}\right).

On peut alors calculer la probabilité d'événements concernant les variables aléatoires réelles (Z₁, Z₂, ... , Z_d) de la manière suivante :

Exemple :

Si d = 2, $\,\mathbb {P} (Z_{2}\leqslant Z_{1})\$ s'écrit $\,\mathbb {P} (Z\in A),$ où A désigne le demi-plan sous la première bissectrice $\,A=\{(x,y)\in \mathbb {R} ^{2}\,|\,y\leq x\}.$ On a alors, par définition de la densité,

{\begin{array}{rl}\mathbb {P} (Z_{2}\leqslant Z_{1})&=\int _{A}\,g(z_{1},z_{2})\,\mathrm {d} z_{1}\,\mathrm {d} z_{2},\\&=\int _{\mathbb {R} ^{2}}\,1_{A}(z_{1},z_{2})g(z_{1},z_{2})\,\mathrm {d} z_{1}\,\mathrm {d} z_{2},\\&=\int _{\mathbb {R} ^{2}}\,1_{z_{2}\leq z_{1}}g(z_{1},z_{2})\,\mathrm {d} z_{1}\,\mathrm {d} z_{2}.\end{array}}

Si par exemple Z₁ et Z₂ sont indépendants et ont même densité de probabilité f, alors une densité de Z est g = f ⊗ f, c'est-à-dire une densité de Z est g défini par g(z₁, z₂) = f(z₁)f(z₂). En ce cas,

{\begin{array}{rl}\mathbb {P} (Z_{2}\leqslant Z_{1})&=\int _{\mathbb {R} ^{2}}\,1_{z_{2}\leqslant z_{1}}f(z_{1})f(z_{2})\,\mathrm {d} z_{1}\,\mathrm {d} z_{2},\\&=\int _{\mathbb {R} }\,\left(\int _{-\infty }^{z_{1}}f(z_{2})\,\mathrm {d} z_{2}\right)f(z_{1})\,\mathrm {d} z_{1},\\&=\int _{\mathbb {R} }F(z_{1})f(z_{1})\,\mathrm {d} z_{1}\\&={\frac {1}{2}}\left[F^{2}\right]_{-\infty }^{+\infty }={\frac {1}{2}}.\end{array}}

Si par contre Z₂ = Z₁ p.s., le vecteur (Z₁,Z₂) a les mêmes lois marginales (Z₁ et Z₂ ont f pour densité de probabilité), mais n'a pas la même loi jointe, puisqu'alors $\,\mathbb {P} (Z_{2}\leq Z_{1})=1.$ Ainsi la donnée des densités marginales de Z₁ et Z₂, seules, ne permet pas de calculer la probabilité d'événements faisant intervenir à la fois Z₁ et Z₂, comme l'évènement {Z₂ ≤ Z₁ }. Pour effectuer le calcul, on utilise ordinairement la loi jointe de Z₁ et Z₂, définie dans le cas ci-dessus par leur densité jointe.

Densité marginale

Soit Z un vecteur aléatoire à valeurs dans $\,\mathbb {R} ^{2}\$ de densité f_Z et pour ω ∈ Ω soit X(ω) et Y(ω) les deux coordonnées de Z(ω). On notera

\ Z=(X,Y).

Alors

Propriété — Les variables aléatoires réelles X et Y possèdent toutes deux des densités, notons-les respectivement f_X et f_Y, et ces densités sont données par

f_{X}(x)=\int _{\mathbb {R} }f_{Z}(x,y)\,\mathrm {d} y,\quad f_{Y}(y)=\int _{\mathbb {R} }\ f_{Z}(x,y)\,\mathrm {d} x.

Les densités de probabilités f_X et f_Y sont appelées les densités marginales de f_Z.

Démonstration

Calculons $\,\mathbb {E} \left[\varphi (X)\right],$ où φ est une fonction borélienne bornée. Pour cela on peut voir φ(X) comme une fonction de Z, qu'on notera ψ(Z), où ψ = ϕ ∘ pr₁ et pr₁ désigne la projection sur la première coordonnée. Alors

{\begin{array}{rl}\mathbb {E} \left[\varphi (X)\right]&=\mathbb {E} \left[\psi (Z)\right]\\[5pt]&=\displaystyle \int _{\mathbb {R} ^{2}}\ \psi (z)\,f_{Z}(z)\,\mathrm {d} z\\[5pt]&=\displaystyle \int _{\mathbb {R} ^{2}}\ \psi (x,y)\,f_{Z}(x,y)\,\mathrm {d} x\,\mathrm {d} y\\[5pt]&=\displaystyle \int _{\mathbb {R} }\left(\int _{\mathbb {R} }\ \psi (x,y)\,f_{Z}(x,y)\,\mathrm {d} y\right)\,\mathrm {d} x\\[5pt]&=\displaystyle \int _{\mathbb {R} }\left(\int _{\mathbb {R} }\ \varphi (x)\,f_{Z}(x,y)\,\mathrm {d} y\right)\,\mathrm {d} x\\[5pt]&=\displaystyle \int _{\mathbb {R} }\varphi (x)\,\left(\int _{\mathbb {R} }\ f_{Z}(x,y)\,\mathrm {d} y\right)\,\mathrm {d} x.\end{array}}

Cela a lieu pour tout φ borélien borné, car ψ(Z)=φ(X) est borné donc intégrable, et $\,\mathbb {E} \left[\psi (Z)\right]\$ est donc bien définie. En comparant le premier et le dernier terme de la série d'égalités ci-dessus, on voit que la marginale $\,\int _{\mathbb {R} }\ f_{Z}(x,y)\,\mathrm {d} y\$ satisfait la condition requise pour être une densité de probabilité de X. CQFD.

Le cas de Y peut être traité de la même manière.

Plus généralement, si f définie de $\,\mathbb {R} ^{d}\$ dans $\,\mathbb {R} \$ est une densité jointe de :

Z=\left(Z_{1},Z_{2},\dots ,Z_{d}\right),

on peut calculer une densité g de (par exemple) Y=(Z₂, Z₅, Z₆) de la manière suivante (si d = 8 par exemple) :

g(x_{2},x_{5},x_{6})=\int _{\mathbb {R} ^{5}}\ f(x_{1},x_{2},\dots ,x_{8})\,\mathrm {d} x_{1}\,\mathrm {d} x_{3}\,\mathrm {d} x_{4}\,\mathrm {d} x_{7}\,\mathrm {d} x_{8},

c'est-à-dire en intégrant par rapport à toutes les coordonnées qui ne figurent pas dans le triplet Y. La fonction g est elle aussi appelée « densité marginale » ou « marginale » de f. Une formulation générale serait lourde. La démonstration générale est calquée sur la démonstration de la propriété ci-dessus.

Densité de la médiane de 9 variables i.i.d. (ter) :

La densité jointe des 9 statistiques d'ordre^[5], notées ici (Z_i)_{{1 ≤ i ≤ 9}} de l'échantillon (X_i)_{{1 ≤ i ≤ 9}} est donnée par :

g(z)=9!\ \prod _{i=1}^{9}f(z_{i})\ 1_{z_{1}<z_{2}<z_{3}<\dots <z_{9}}.

Par définition des statistiques d'ordre, la médiane M est aussi la 5^e statistique d'ordre, Z₅ On a donc :

{f}_{M}(z_{5})=\int _{\mathbb {R} ^{8}}g(z)\,\mathrm {d} z_{1}\,\mathrm {d} z_{2}\,\mathrm {d} z_{3}\,\mathrm {d} z_{4}\,\mathrm {d} z_{6}\,\mathrm {d} z_{7}\,\mathrm {d} z_{8}\,\mathrm {d} z_{9}.

Ainsi, de proche en proche,

{\begin{array}{rl}\displaystyle \int _{\mathbb {R} }g(z)\,\mathrm {d} z_{1}&=\displaystyle 9!\ F(z_{2})\ \prod _{i=2}^{9}f(z_{i})\ 1_{z_{2}<z_{3}<\dots <z_{9}},\\[5pt]\displaystyle \int _{\mathbb {R} ^{2}}g(z)\,\mathrm {d} z_{1}\,\mathrm {d} z_{2}&=\displaystyle {\frac {9!}{2!}}\ F(z_{3})^{2}\ \prod _{i=3}^{9}f(z_{i})\ 1_{z_{3}<\dots <z_{9}},\\[5pt]\displaystyle \int _{\mathbb {R} ^{4}}g(z)\,\mathrm {d} z_{1}\,\mathrm {d} z_{2}\,\mathrm {d} z_{3}\,\mathrm {d} z_{4}&=\displaystyle {\frac {9!}{4!}}\ F(z_{5})^{4}\ \prod _{i=5}^{9}f(z_{i})\ 1_{z_{5}<\dots <z_{9}},\\[5pt]\displaystyle \int _{\mathbb {R} ^{4}}g(z)\,\mathrm {d} z_{1}\,\mathrm {d} z_{2}\,\mathrm {d} z_{3}\,\mathrm {d} z_{4}\,\mathrm {d} z_{9}&=\displaystyle {\frac {9!}{4!\times 1!}}\ F(z_{5})^{4}\ \left(1-F(z_{8})\right)\ \prod _{i=5}^{8}f(z_{i})\ 1_{z_{5}<\dots <z_{8}},\\&\dots \\{f}_{M}(z_{5})&=\displaystyle {\frac {9!}{4!\times 4!}}F(z_{5})^{4}\left(1-F(z_{5})\right)^{4}f(z_{5}).\end{array}}

Indépendance des variables aléatoires à densité

Soit une suite X = (X₁, X₂, ... ,X_n) de variables aléatoires réelles définies sur le même espace de probabilité $\,(\Omega ,{\mathcal {A}},\mathbb {P} ).\$

Théorème —

Si X possède une densité de probabilité $\,f:\mathbb {R} ^{n}\rightarrow [0,+\infty [\$ qui s'écrit sous forme « produit » :

\forall x=(x_{1},\dots ,x_{n})\in \mathbb {R} ^{n},\qquad f(x)\ =\ \prod _{i=1}^{n}g_{i}(x_{i}),

où les fonctions g_i sont boréliennes et positives ou nulles, alors X est une suite de variables indépendantes. De plus, la fonction f_i définie par

f_{i}(x)\ =\ {\frac {g_{i}(x)}{\int _{\mathbb {R} }g_{i}(u)\,\mathrm {d} u}}

est une densité de la composante X_i.

Réciproquement, si X est une suite de variables aléatoires réelles indépendantes de densités de probabilité respectives f_i alors X possède une densité de probabilité, et la fonction f définie par

\forall (x_{1},\dots ,x_{n})\in \mathbb {R} ^{n},\qquad f(x_{1},\dots ,x_{n})\ =\ \prod _{i=1}^{n}f_{i}(x_{i}),

est une densité de probabilité de X.

Démonstration dans le cas de deux variables

Sens direct

Comme la densité f est sous forme produit, on a

1=\int _{\mathbb {R} ^{2}}f(x_{1},x_{2})\,\mathrm {d} x_{1}\,\mathrm {d} x_{2}=\left(\int g_{1}(x_{1})\,\mathrm {d} x_{1}\right)\,\left(\int g_{2}(x_{2})\,\mathrm {d} x_{2}\right)

et par suite

{\begin{array}{rl}f(x_{1},x_{2})&=g_{1}(x_{1})\,g_{2}(x_{2})\\[3pt]&=\displaystyle {\frac {g_{1}(x_{1})}{\int _{\mathbb {R} }g_{1}(u)\,\mathrm {d} u}}\ {\frac {g_{2}(x_{2})}{\int _{\mathbb {R} }g_{2}(v)\,\mathrm {d} v}}\\&=f_{1}(x_{1})\,f_{2}(x_{2}).\end{array}}

Par construction les fonctions f_i sont d'intégrale 1, donc

\int _{\mathbb {R} }f(x_{1},x_{2})\,\mathrm {d} x_{2}=f_{1}(x_{1}),\ \int _{\mathbb {R} }f(x_{1},x_{2})\,\mathrm {d} x_{1}=f_{2}(x_{2}).

Ainsi les fonctions f_i sont les densités de probabilités marginales des deux composantes de X. Par suite, pour tout couple de fonctions φ et ψ tel que le premier terme ci-dessous ait un sens, on a

{\begin{array}{rl}\mathbb {E} [\varphi (X_{1})\psi (X_{2})]&=\displaystyle \int \int \varphi (x_{1})\psi (x_{2})f(x_{1},x_{2})\,\mathrm {d} x_{1}\,\mathrm {d} x_{2}\\[3pt]&=\displaystyle \int \int \varphi (x_{1})f_{1}(x_{1})\psi (x_{2})f_{2}(x_{2})\,\mathrm {d} x_{1}\,\mathrm {d} x_{2}\\[3pt]&=\displaystyle \int \varphi (x_{1})f_{1}(x_{1})\,\mathrm {d} x_{1}\int \psi (x_{2})f_{2}(x_{2})\,\mathrm {d} x_{2}\\[3pt]&=\displaystyle \mathbb {E} [\varphi (X_{1})]\mathbb {E} [\psi (X_{2})]\end{array}}

ce qui entraine l'indépendance des variables X₁ et X₂.

Sens réciproque

Il suffit de montrer que

\forall A\in {\mathcal {B}}(\mathbb {R} ^{2}),\quad \mathbb {P} _{X}(A)=\mu (A),

où $\,\mathbb {P} _{X}\$ est la loi de X et où μ est la mesure ayant pour densité (x₁, x₂) → f₁(x₁) f₂(x₂). Or

\forall A\in {\mathcal {C}},\quad \mathbb {P} _{X}(A)=\mu (A),

où $\,{\mathcal {C}}\$ est la classe des pavés boréliens :

{\mathcal {C}}\ =\ \{A_{1}\times A_{2}\ |\ A_{i}\in {\mathcal {B}}(\mathbb {R} ),i\in \{1,2\}\}.

En effet

{\begin{array}{rl}\mathbb {P} _{X}(A_{1}\times A_{2})&=\mathbb {P} (X_{1}\in A_{1}{\text{ et }}X_{2}\in A_{2})\\&=\mathbb {P} (X_{1}\in A_{1})\mathbb {P} (X_{2}\in A_{2})\\[3pt]&=\displaystyle \left(\int _{\mathbb {R} }1_{A_{1}}(x_{1})f_{1}(x_{1})\,\mathrm {d} x_{1}\right)\left(\int _{\mathbb {R} }1_{A_{2}}(x_{2})f_{2}(x_{2})\,\mathrm {d} x_{2}\right)\\[3pt]&=\displaystyle \int _{\mathbb {R} ^{2}}1_{A_{1}\times A_{2}}(x_{1},x_{2})f_{1}(x_{1})f_{2}(x_{2})\,\mathrm {d} x_{1}\,\mathrm {d} x_{2}\\&=\mu (A_{1}\times A_{2})\end{array}}.

On remarque alors que $\,{\mathcal {C}}\$ est un π-système et que la tribu engendrée par $\,{\mathcal {C}}\$ est $\,{\mathcal {B}}(\mathbb {R} ^{2}),\$ donc, en vertu du lemme d'unicité des mesures de probabilités,

\forall A\in {\mathcal {B}}(\mathbb {R} ^{2}),\quad \mathbb {P} _{X}(A)=\mu (A).

Fonction de variables aléatoires à densité

Dans cette section, on considère la question suivante : étant donné une variable aléatoire X de densité f_X et une fonction g, quelle est la loi de la variable aléatoire Y = g(X) ? En particulier, sous quelles conditions Y possède-t-elle aussi une densité de probabilité f_Y ? Et comment peut-on la calculer ? Une réponse rapide est que, localement, on doit pouvoir appliquer à la fonction g le théorème d'inversion locale sauf sur un ensemble de points de mesure de Lebesgue nulle). Le calcul de f_Y se résume alors à un changement de variable dans une intégrale simple ou multiple, comme cela est illustré dans les quelques exemples ci-dessous.

Somme de variables aléatoires indépendantes

La densité de probabilité de la somme de deux variables aléatoires indépendantes U et V, chacune ayant une densité f_U et f_V, est donnée par une convolution de ces densités :

f_{U+V}(x)=\int _{-\infty }^{\infty }f_{U}(y)f_{V}(x-y)\,\mathrm {d} y=\left(f_{U}\ast f_{V}\right)(x).

Démonstration

Dans cet exemple, X =(U , V), f_X(u,v) = f_U(u)f_V(v), g(u,v) = u + v, et Y = g(X) = U + V. Alors, pour toute fonction φ mesurable bornée,

{\begin{array}{rl}\mathbb {E} [\varphi (Y)]&=\mathbb {E} [\varphi (U+V)]=\int _{\mathbb {R} ^{2}}\varphi (u+v)f_{X}(u,v)dudv\\&=\int _{\mathbb {R} ^{2}}\varphi (y)f_{X}(t,y-t)\ |J(y,t)|\ dydt,\end{array}}

où J(y,t) désigne le déterminant jacobien correspondant au changement de variable

{\begin{matrix}y&=&u+v,\\t&=&u,\end{matrix}}

c'est-à-dire

J(y,t)={\begin{vmatrix}{\frac {\partial u}{\partial y}}&{\frac {\partial u}{\partial t}}\\{\frac {\partial v}{\partial y}}&{\frac {\partial v}{\partial t}}\end{vmatrix}}={\begin{vmatrix}0&1\\1&-1\end{vmatrix}}=-1.

Donc, pour toute fonction φ mesurable bornée,

{\begin{array}{rl}\mathbb {E} [\varphi (Y)]&=\int _{\mathbb {R} }\varphi (y)\left(\int _{\mathbb {R} }f_{X}(t,y-t)dt\right)\ dy\\&=\int _{\mathbb {R} }\varphi (y)\left(\int _{\mathbb {R} }f_{U}(t)f_{V}(y-t)dt\right)\ dy\\&=\int _{\mathbb {R} }\varphi (y)\ (f_{U}\ast f_{V})(y)\ dy.\end{array}}

CQFD

Pour déterminer la loi de la somme de variables indépendantes, on peut aussi passer par la fonction génératrice des moments ou par la fonction caractéristique d'une variable aléatoire^[6]. C'est ainsi qu'est démontré le théorème central limite.

La densité de probabilité de la moyenne de deux variables aléatoires indépendantes U et V, chacune ayant une densité f_U et f_V, s'obtient alors en utilisant la fonction suivante :

f_{\frac {U+V}{2}}(x)=2.f_{U+V}(2x)

Fonction d'une variable aléatoire réelle à densité

Notons f_X la densité de la variable aléatoire réelle X. Il est possible de considérer un changement de variable, dépendant de x. La transformation est la suivante : Y = g(X) où la fonction g est strictement monotone et dérivable, de dérivée qui ne s'annule nulle part. La densité f_Y(y) de la transformée est

Théorème —

f_{Y}(y)=\left|{\frac {1}{g'(g^{-1}(y))}}\right|\cdot f_{X}(g^{-1}(y)).

où g⁻¹ représente la fonction réciproque de g et g' la dérivée de g.

Démonstration

Ce résultat découle du fait que les probabilités sont invariantes par changement de variable. Supposons par exemple que g est décroissante :

F_{Y}(y)=\mathbb {P} (Y\leq y)=\mathbb {P} (g(X)\leq y)=\mathbb {P} (X\geq g^{-1}(y))=1-F_{X}(g^{-1}(y)).

En différenciant, on obtient

f_{Y}(y)=-{\frac {dx}{dy}}\ f_{X}(x)=-{\frac {1}{g'(x)}}\ f_{X}(x)=\left|{\frac {1}{g'(g^{-1}(y))}}\right|\ f_{X}(g^{-1}(y)),

qui s'écrit encore

\left|f_{Y}(y)\,\mathrm {d} y\right|=\left|f_{X}(x)\,\mathrm {d} x\right|.

Le cas où g est croissante se traite de manière analogue.

Pour une transformation g non monotone, la densité de probabilité de Y est

f_{Y}(y)=\sum _{k}^{n(y)}\left|{\frac {1}{g'(g_{k}^{-1}(y))}}\right|\cdot f_{X}(g_{k}^{-1}(y))

où n(y) est le nombre de solutions en x de l'équation g(x) = y, et g-1
k(y) sont les solutions. La fonction g doit vérifier certaines hypothèses, toutefois : essentiellement on doit pouvoir lui appliquer le théorème d'inversion locale sauf sur un ensemble de points de mesure de Lebesgue nulle. Par exemple un ensemble d'hypothèses peu limitatif mais simple à vérifier serait : g est de classe C¹ et l'ensemble des zéros de la dérivée g' est localement fini. Il s'agit d'exclure entre autres (mais pas seulement) le cas où g est constante sur un ensemble de mesure non nulle pour la loi de X, cas où g(X) n'a pas une loi à densité, car la loi de g(X) peut alors avoir une partie discrète.

Exemples :

Prenons l'exemple d'une fonction affine ; si Y = aX + b, a ≠ 0 alors :

f_{Y}(y)={\frac {1}{|a|}}\ f_{X}\left({\tfrac {y-b}{a}}\right).

En effet, si, par exemple, a est strictement négatif, on obtient, via le changement de variable u = ax + b

{\begin{array}{cl}\mathbb {E} [\varphi (Y)]&=\displaystyle \mathbb {E} [\varphi (aX+b)]=\int _{\mathbb {R} }\varphi (ax+b)f_{X}(x)\,\mathrm {d} x\\[7pt]&=\displaystyle \int _{+\infty }^{-\infty }\varphi (u)f_{X}\left({\frac {u-b}{a}}\right)\ {\frac {\mathrm {d} u}{a}}\\[7pt]&=\displaystyle \int _{-\infty }^{+\infty }\varphi (u)\ \left({\frac {1}{-a}}\ f_{X}\left({\frac {u-b}{a}}\right)\right)\,\mathrm {d} u,\end{array}}

ceci pour toute fonction φ mesurable bornée. CQFD.

Prenons l'exemple du carré d'une variable aléatoire ; on sait que, si Y = X²

{\begin{array}{rl}\mathbb {E} [\varphi (Y)]&=\displaystyle \mathbb {E} [\varphi (X^{2})]=\int _{\mathbb {R} }\varphi (x^{2})f_{X}(x)\,\mathrm {d} x\\[7pt]&=\displaystyle \int _{-\infty }^{0}\varphi (x^{2})f_{X}(x)\,\mathrm {d} x+\int _{0}^{+\infty }\varphi (x^{2})f_{X}(x)\,\mathrm {d} x\\[7pt]&=\displaystyle \int _{+\infty }^{0}\varphi (u)f_{X}(-{\sqrt {u}})\ \left(-{\frac {\mathrm {d} u}{2{\sqrt {u}}}}\right)+\int _{0}^{+\infty }\varphi (u)f_{X}({\sqrt {u}})\ \left({\frac {\mathrm {d} u}{2{\sqrt {u}}}}\right)\\[7pt]&=\displaystyle \int _{\mathbb {R} }\varphi (u)\ {\frac {1}{2{\sqrt {u}}}}\left[f_{X}({\sqrt {u}})+f_{X}(-{\sqrt {u}})\right]1_{\mathbb {R} _{+}}(u)\,\mathrm {d} u,\end{array}}

ceci pour toute fonction φ mesurable bornée. Ainsi, on trouve que

f_{Y}(y)={\frac {1}{2{\sqrt {y}}}}\left[f_{X}({\sqrt {y}})+f_{X}(-{\sqrt {y}})\right]1_{\mathbb {R} _{+}}(y)

ce qui est conforme à la formule.

Autre solution : on sait que,
- si y ≥ 0 :

F_{Y}(y)=\mathbb {P} (Y\leq y)=\mathbb {P} (X^{2}\leq y)=\mathbb {P} (-{\sqrt {y}}\leq X\leq {\sqrt {y}})=F_{X}({\sqrt {y}})-F_{X}(-{\sqrt {y}})

- si y ≤ 0, alors

F_{Y}(y)=0.

En dérivant, on trouve à nouveau

f_{Y}(y)={\frac {1}{2{\sqrt {y}}}}\left[f_{X}({\sqrt {y}})+f_{X}(-{\sqrt {y}})\right]1_{\mathbb {R} _{+}}(y).

Contre-exemple :

Prenons X uniforme sur [0 ; 2] et g(x) = min (x,1). Alors

\mathbb {P} _{Y}(\mathrm {d} y)={\tfrac {1}{2}}\ 1_{[0;1]}(y)\,\mathrm {d} y\ +\ {\tfrac {1}{2}}\ \delta _{1}(\mathrm {d} y).

Autrement dit, la loi de Y a une partie à densité, mais aussi un atome en 1.

Notes et références

↑ L’égalité s’entend ici au sens des fonctions presque partout définies.
↑ E. Hewitt et K. Stromberg, Real and Abstract Analysis [détail des éditions], Théorème 17.12, p. 264 et Théorème 18.16, p. 285.
↑ ^{a et b} Herbert Aron David, Order Statistics [détail des éditions], pages 8-13.
↑ Il suffit que φ soit mesurable, ce qui est une forme de régularité minimale. Pour ψ, c'est plus compliqué, en effet il faut éviter des phénomènes de type « courbe de Peano », mais il faut aussi exclure le cas où ψ est identiquement nulle. Il faut donc que ψ soit suffisamment régulière, par exemple au sens où on peut lui appliquer le théorème des fonctions implicites, de sorte que la courbe d'équation ψ(x,y) = 0 soit de mesure nulle.
↑ Herbert Aron David, Order Statistics [détail des éditions], Ch. 1.
↑ Que ces variables aléatoires ait une densité de probabilité, ou qu'elles n'en aient pas. Notons que, si une variable aléatoire possède une densité de probabilité, alors sa fonction caractéristique est la transformée de Fourier de cette densité.