Chapitre : Fonctions de plusieurs variables
Précédent : Dérivées d'ordre supérieur
Suivant : Changements de variables

Extrema

Le but de cette section est d'étudier les variations d'une fonction $ f$ de $ \mathbb {R}^d$ dans $ \mathbb {R}$, et en particulier de déterminer les points de l'espace où elle atteint son maximum et son minimum. Afin de mieux visualiser les notions introduites, nous nous plaçons en dimension $ 2$. La fonction $ f\,:\;(x,y)\mapsto f(x,y)$ se représente par la surface d'équation $ z=f(x,y)$ dans l'espace. Nous commençons par la notion de dérivée directionnelle.

Définition 18.4.1   Soit $ D$ un domaine ouvert de $ \mathbb {R}^2$ et $ f$ une fonction continûment différentiable sur $ D$. Soit $ (a,b)$ un point de $ D$ et $ (u,v)$ un vecteur non nul de $ \mathbb {R}^2$. On appelle dérivée directionnelle de $ f$ en $ (a,b)$ dans la direction de $ (u,v)$ la quantité :

$\displaystyle \frac{\partial f}{\partial x}(a,b)\,u+
\frac{\partial f}{\partial y}(a,b)\,v\;.
$

Pour comprendre cette définition, considérons la fonction de $ \mathbb {R}$ dans $ \mathbb {R}$, qui à $ t$ associe :

$\displaystyle f(a+tu,b+tv)\;.
$

Elle définit une courbe sur la surface d'équation $ z=f(x,y)$, au-dessus de la droite $ \{(a+tu,b+tv)\,,\;t\in\mathbb {R}\}$. On dérive cette fonction par rapport à $ t$ comme une fonction composée :

$\displaystyle \frac{d}{dt}f(a+tu,b+tv) =
\frac{\partial f}{\partial x}(a,b)\, ...
...frac{\partial f}{\partial x}(a,b)\,u+
\frac{\partial f}{\partial y}(a,b)\,v\;.
$

La dérivée directionnelle décrit donc les variations de $ f(a+tu,b+tv)$ autour de $ (a,b)$, dans la direction du vecteur $ (u,v)$.


Dérivée directionnelle.


La direction selon laquelle la croissance de la surface est la plus forte est celle du gradient de la fonction. A titre d'exemple, nous avons représenté sur la figure ci-après quelques valeurs du gradient de la fonction $ \sin(xy)$. Pour comparaison, nous avons mis à côté une représentation de la fonction par niveaux de gris : au lieu de la surface $ z=\sin(xy)$, les valeurs de la fonction sont symbolisées par des niveaux de gris, d'autant plus clairs que les valeurs sont plus fortes. Les points blancs sont des maxima de la fonction, et les points noirs des minima. On constate que le gradient, s'il est non nul, est toujours orienté vers le haut, dans la direction de la ``ligne de plus grande pente''.


Représentation par niveaux de gris de z=sin(xy) et champ de gradient correspondant.


Sur cette figure, on observe que le gradient est nul pour les maxima et les minima. Définissons d'abord la notion de maximum et minimum local.

Définition 18.4.2   Soit $ D$ un domaine ouvert de $ \mathbb {R}^2$, $ f$ une fonction définie sur $ D$, et $ (a,b)$ un point de $ D$. On dit que $ f$ admet un maximum (respectivement un minimum) local en $ (a,b)$, s'il existe $ \epsilon>0$ tel que $ f(a,b)\geq
f(x,y)$ (resp. : $ f(a,b)\leq f(x,y)$), pour tout $ (x,y)$ tel que $ \vert x-a\vert<\epsilon$ et $ \vert y-b\vert<\epsilon$.

Théorème 18.4.3   Soit $ D$ un domaine ouvert de $ \mathbb {R}^d$ et $ f$ une fonction continûment différentiable sur $ D$. Soit $ (a,b)$ un point de $ D$. Si $ f$ admet un maximum local ou un minimum local en $ (a,b)$ alors le gradient de $ f$ au point $ (a,b)$ est nul :

$\displaystyle \frac{\partial f}{\partial x}(a,b) = \frac{\partial f}{\partial y}(a,b)=0\;.
$

Démonstration : Si $ f$ admet un extremum (maximum ou minimum) local en $ (a,b)$ alors il en est de même si on restreint $ f$ à la direction $ (u,v)$ autour de $ (a,b)$. La dérivée de la fonction (de $ t$) $ f(a+tu,b+tv)$ doit donc être nulle en $ t=0$. Donc :

$\displaystyle \frac{d}{dt}f(a+tu,b+tv)=
\frac{\partial f}{\partial x}(a,b)\,u+
\frac{\partial f}{\partial y}(a,b)\,v=0\;.
$

Mais les dérivées directionnelles ne peuvent être nulles dans toutes les directions que si le gradient lui même est nul.$ \square$

Malheureusement la nullité du gradient n'est qu'une condition nécessaire pour qu'un point soit un extremum. Rappelons tout d'abord quelle est la situation pour les fonctions d'une variable. Si la fonction $ t\mapsto g(t)$ admet un maximum ou un minimum en $ t=0$ alors $ g'(0)=0$. Réciproquement :

$ \bullet$ Si $ g'(0)=0$ et si $ g''(0)<0$, alors 0 est un maximum local pour $ g$.

$ \bullet$ Si $ g'(0)=0$ et si $ g''(0)>0$, alors 0 est un minimum local pour $ g$.

Revenons alors à une fonction de $ 2$ variables, et examinons cette fonction dans la direction $ (u,v)$ autour de $ (a,b)$.

$\displaystyle g(t)= f(a+tu,b+tv)\;.
$

Le point $ (a,b)$ sera un maximum de $ f$ si 0 est un maximum pour $ g$, quelle que soit la direction $ (u,v)$. Calculons la dérivée seconde de $ g$ en 0

\begin{displaymath}
\begin{array}{lcl}
\displaystyle{
\frac{d^2}{dt^2}f(a+tu,b+t...
...+
\frac{\partial^2 f}{\partial y^2}(a,b)\,v^2} \;.
\end{array}\end{displaymath}

Cette expression peut s'écrire sous la forme matricielle suivante, qui fait intervenir la matrice hessienne de $ f$.

\begin{displaymath}
(u,v)
\left(
\begin{array}{cc}
\frac{\partial^2 f}{\partial...
...ht)
\left(
\begin{array}{c}
u\\  [2ex]
v
\end{array}\right)\;.
\end{displaymath}

Nous avons vu au chapitre Diagonalisation des matrices qu'une matrice symétrique réelle est toujours diagonalisable dans $ \mathbb {R}$ (théorème 12.3.4). Ecrivons donc :

\begin{displaymath}
\left(
\begin{array}{cc}
\frac{\partial^2 f}{\partial x^2}(a...
...ray}{cc}
\lambda&0\\  [2ex]
0&\mu
\end{array}\right)
P^{-1}\;.
\end{displaymath}

$ P$ est une matrice de passage telle que $ P^{-1} = {^tP}$, et $ \lambda,\mu$ sont les deux valeurs propres (réelles) de la matrice hessienne. Posons alors

\begin{displaymath}
\left(
\begin{array}{c}
u'\\  [2ex]
v'
\end{array}\right)
=
...
...v
\end{array}\right)
\;\Longleftrightarrow
(u',v') = (u,v)P\;.
\end{displaymath}

La dérivée seconde de $ g$ en 0 s'écrit :

\begin{displaymath}
g''(0) = (u',v')
\left(
\begin{array}{cc}
\lambda&0\\  [2ex]...
...\\  [2ex]
v'
\end{array}\right)
= \lambda (u')^2+\mu (v')^2\;.
\end{displaymath}

Le signe de $ g''(0)$ dépend donc des signes de $ \lambda$ et $ \mu$.

$ \bullet$ Si $ \lambda<0$ et $ \mu<0$, alors $ g''(0)<0$ quelle que soit la direction $ (u,v)$, donc le point $ (a,b)$ est un maximum local pour $ f$.

$ \bullet$ Si $ \lambda>0$ et $ \mu>0$, alors $ g''(0)>0$ quelle que soit la direction $ (u,v)$, donc le point $ (a,b)$ est un minimum local pour $ f$.

$ \bullet$ Si $ \lambda>0$ et $ \mu<0$, alors $ g''(0)<0$ dans la direction $ (u',0)P$, et $ g''(0)>0$ dans la direction $ (0,v')P$. Dans ce cas on dit que le point $ (a,b)$ est un point selle pour $ f$.

Les trois cas sont illustrés sur la figure suivante.


Maximum, minimum et point selle.


L'étude précédente se généralise aux fonctions de $ \mathbb {R}^d$ dans $ \mathbb {R}$.

Théorème 18.4.4   Soit $ D$ un domaine ouvert de $ \mathbb {R}^d$, $ f$ une fonction deux fois continûment différentiable sur $ D$ et $ (a,b)$ un point de $ D$. On note $ \nabla f$ le gradient et $ H f$ la matrice hessienne de $ f$ au point $ (a,b)$.
  1. Si $ \nabla f=0$ et si $ H f$ a toutes ses valeurs propres strictement négatives, alors $ (a,b)$ est un maximum local pour $ f$.
  2. Si $ \nabla f=0$ et si $ H f$ a toutes ses valeurs propres strictement positives, alors $ (a,b)$ est un minimum local pour $ f$.

Voici un exemple.

$\displaystyle f(x,y) = x^3+3xy^2-15x-12y\;.
$

Voici le gradient et la matrice hessienne.

\begin{displaymath}
\nabla f = \left(
\begin{array}{c}
3x^2+3y^2-15\\
6xy -12
...
...\left(
\begin{array}{cc}
6x&6y\\
6y&6x
\end{array}\right)\;.
\end{displaymath}

Le gradient s'annule en 4 points dans le plan. Nous les donnons avec les valeurs propres de la matrice hessienne et la nature du point.

\begin{displaymath}
\begin{array}{lll}
(2,1)&\lambda=6\,,\;\mu=18&\mbox{minimum}...
...-1,-2)&\lambda=6\,,\;\mu=-18&\mbox{point selle}\\
\end{array}\end{displaymath}

Nous passons maintenant à un problème un peu différent : la recherche d'extrema liés, aussi appelés extrema sous contrainte. Commençons par un exemple simple. Parmi les parallélépipèdes de surface $ S$ fixée, lesquels ont un volume maximal ? Si $ x,y,z$ désignent les longueurs des côtés du parallélépipède, la surface est $ 2(xy+yz+xz)$ et le volume $ xyz$. Le problème est de trouver le maximum atteint par le volume $ xyz$, non pas parmi tous les points de $ \mathbb {R}^3$, mais seulement parmi ceux vérifiant la contrainte $ 2(xy+yz+xz)=S$, où $ S$ est fixé. Bien sûr, on peut utiliser la contrainte pour calculer une des variables en fonction des deux autres. Par exemple pour $ z$ :

$\displaystyle 2(xy+yz+xz)=S\;\Longrightarrow\;
z = \frac{\frac{S}{2}-xy}{x+y}\;.
$

En reportant cette valeur de $ z$ dans l'expression du volume, on obtient :

$\displaystyle V_S(x,y) = xy\,\frac{\frac{S}{2}-xy}{x+y}\;.
$

On peut calculer le maximum de cette fonction avec la technique du gradient. Le lecteur vérifiera que le maximum de $ V_S(x,y)$ est atteint pour :

$\displaystyle x = y =\sqrt{\frac{S}{6}}\;,
$

ce qui entraîne aussi $ z=\sqrt{\frac{S}{6}}$ : à surface fixée, le parallélépipède de volume maximal est le cube.

Il est rare que l'on puisse effectivement appliquer cette technique de substitution, s'il y a non pas une, mais plusieurs contraintes. On utilise alors le théorème des multiplicateurs de Lagrange, qui dit que si un problème d'optimisation sous contrainte a une solution en un point, alors les gradients de la fonction et des contraintes sont des vecteurs linéairement dépendants.

Théorème 18.4.5   Soit $ D$ un domaine ouvert de $ \mathbb {R}^d$ et $ f,g_1,\ldots,g_k$ des applications continûment différentiables de $ D$ dans $ \mathbb {R}$. Notons :

$\displaystyle A = \{ \mathbf{x}\in D\,,\;g_1(\mathbf{x}) = \cdots =
g_k(\mathbf{x})=0\}\;.
$

Si la restriction de $ f$ à $ A$ présente un extremum au point $ \mathbf{a}$ de $ A$, et si les vecteurs $ \nabla
g_1(\mathbf{a}),\ldots,\nabla g_k(\mathbf{a})$ sont linéairement indépendants, alors il existe $ k$ réels $ \lambda_1,\ldots,\lambda_k$ tels que :

$\displaystyle \nabla f(\mathbf{a}) = \lambda_1\nabla g_1(\mathbf{a})
+\cdots+\lambda_k\nabla g_k(\mathbf{a})\;.
$

Dans ce théorème, $ f$ est la fonction dont on cherche un maximum ou un minimum, et $ g_1,\ldots, g_k$ sont les contraintes. Remarquons qu'il y a au plus $ d$ contraintes, car leurs gradients doivent être linéairement indépendants. En fait pour que le théorème ait un intérêt, il ne peut pas y avoir plus de $ d-1$ contraintes. Les coefficients $ \lambda_1,\ldots,\lambda_k$ s'appellent les multiplicateurs de Lagrange, d'où le nom du théorème. Appliquons-le au problème du volume sous contrainte de surface.

$\displaystyle f(x,y,z) = xyz\quad,\quad g_1(x,y,z) = 2(xy+yz+xz)-S\;.
$

\begin{displaymath}
\nabla f = \left(
\begin{array}{c}
yz\\
xz\\
xy
\end{arr...
...{array}{c}
2(y+z)\\
2(x+z)\\
2(x+y)
\end{array}\right) \;.
\end{displaymath}

Si un point $ (x,y,z)$ est solution, alors il existe un multiplicateur $ \lambda_1$ tel que $ \nabla f = \lambda_1 \nabla g_1$. On doit donc avoir :

\begin{displaymath}
\left\{
\begin{array}{lcl}
yz &=& 2\lambda_1(y+z)\\
xz &=& 2\lambda_1(x+z)\\
xy &=& 2\lambda_1(x+y)
\end{array}\right.
\end{displaymath}

En soustrayant ces équations deux à deux, on obtient :

\begin{displaymath}
\left\{
\begin{array}{lcl}
(x-y)z &=& 2\lambda_1(x-y)\\
(y...
...ambda_1(y-z)\\
(z-x)y &=& 2\lambda_1(z-x)
\end{array}\right.
\end{displaymath}

qui implique que $ x=y=z$. On retrouve donc la solution précédente.

Voici maintenant un exemple similaire, mais avec deux contraintes.

$\displaystyle f(x,y,z) = xyz\;,\; g_1(x,y,z) = x^2+y^2+z^2-1\;,\;
g_2(x,y,z)=x+y+z-1\;.
$

\begin{displaymath}
\nabla f = \left(
\begin{array}{c}
yz\\
xz\\
xy
\end{arr...
...= \left(
\begin{array}{c}
1\\
1\\
1
\end{array}\right)\;.
\end{displaymath}

La contrainte $ g_1(x,y,z)=0$ est l'équation de la sphère de centre $ (0,0,0)$ et de rayon $ 1$ ; la contrainte $ g_2(x,y,z)=0$ est l'équation d'un plan. On cherche donc les extrema de $ f$ sur l'intersection de la sphère unité et d'un plan, à savoir sur un cercle dans l'espace. Si un point $ (x,y,z)$ est solution, alors il existe deux multiplicateurs $ \lambda_1,\lambda_2$ tels que $ \nabla f = \lambda_1 \nabla
g_1+\lambda_2 \nabla g_2$. On doit donc avoir :

\begin{displaymath}
\left\{
\begin{array}{lcl}
yz &=& 2\lambda_1x+\lambda_2\\
...
...ambda_2\\
xy &=& 2\lambda_1z+\lambda_2
\end{array}\right.\;.
\end{displaymath}

On obtient donc un système de $ 5$ équations (les $ 3$ précédentes et les $ 2$ contraintes), et $ 5$ inconnues : $ x,y,z,\lambda_1,\lambda_2$. L'étude de ce système montre qu'il a $ 6$ solutions, données dans le tableau ci-dessous.

\begin{displaymath}
\begin{array}{\vert rrrrr\vert}
\hline
x&y&z&\lambda_1&\lamb...
...frac{1}{3}&-\frac{1}{3}&\frac{2}{9}\\  [1ex]
\hline
\end{array}\end{displaymath}

Observons que ces points ont été obtenus par une condition nécessaire. Rien dans le théorème 18.4.5 ne permet de savoir si ce sont des maxima, des minima ou ni l'un ni l'autre.



Chapitre : Fonctions de plusieurs variables
Précédent : Dérivées d'ordre supérieur
Suivant : Changements de variables