Le but de cette section est d'étudier les variations d'une fonction
de
dans
, et en particulier de déterminer les
points de l'espace où elle atteint son maximum et son minimum. Afin
de mieux visualiser les notions introduites, nous nous plaçons en
dimension
. La fonction
se représente par
la surface d'équation
dans l'espace. Nous commençons
par la notion de dérivée directionnelle.
Pour comprendre cette définition, considérons la fonction de
dans
, qui à
associe :
Elle définit une courbe sur la surface d'équation
,
au-dessus de la droite
.
On dérive cette fonction par rapport à
comme une fonction composée :
La dérivée directionnelle décrit donc les variations de
autour de
,
dans la direction du vecteur
.
La direction selon laquelle la croissance de la surface est la plus
forte est celle du gradient de la fonction. A titre d'exemple, nous
avons représenté sur la figure ci-après quelques
valeurs du gradient de la fonction
. Pour comparaison, nous
avons mis à côté une représentation de la fonction par niveaux
de gris : au lieu de la surface
,
les valeurs de la fonction sont symbolisées par des niveaux de gris,
d'autant plus clairs que les valeurs sont plus fortes. Les points blancs
sont des maxima de la fonction, et les points noirs des minima. On
constate que le gradient, s'il est non nul,
est toujours orienté vers le haut, dans la
direction de la ``ligne de plus grande pente''.
|
|
Sur cette figure, on observe que le gradient est nul pour les maxima et les minima. Définissons d'abord la notion de maximum et minimum local.
Démonstration : Si
admet un extremum (maximum ou minimum) local en
alors
il en est de même si on restreint
à la direction
autour de
. La dérivée de la fonction (de
)
doit donc être nulle en
. Donc :
Mais les dérivées directionnelles ne peuvent être nulles dans
toutes les directions que si le gradient lui même est nul.![]()
Malheureusement la nullité du gradient n'est qu'une
condition nécessaire pour qu'un point soit un extremum. Rappelons
tout d'abord quelle est la situation pour les fonctions d'une
variable. Si la fonction
admet un maximum ou un minimum
en
alors
. Réciproquement :
Si
et si
, alors 0 est un maximum local pour
.
Si
et si
, alors 0 est un minimum local pour
.
Revenons alors à une fonction de
variables, et examinons cette
fonction dans la direction
autour de
.
Le point
sera un maximum de
si 0 est un maximum pour
, quelle que soit la direction
.
Calculons la dérivée seconde de
en 0
Cette expression peut s'écrire sous la forme matricielle suivante,
qui fait intervenir la matrice hessienne de
.
Nous avons vu au chapitre Diagonalisation des matrices
qu'une matrice
symétrique réelle est toujours diagonalisable dans
(théorème 12.3.4). Ecrivons donc :
où
est une matrice de passage telle que
,
et
sont les deux valeurs propres
(réelles) de la matrice hessienne. Posons alors
La dérivée seconde de
en 0 s'écrit :
Le signe de
dépend donc des signes de
et
.
Si
et
, alors
quelle que soit la
direction
, donc le point
est un maximum local pour
.
Si
et
, alors
quelle que soit la
direction
, donc le point
est un minimum local pour
.
Si
et
, alors
dans la direction
, et
dans la direction
. Dans ce cas
on dit que le point
est un point selle pour
.
Les trois cas sont illustrés sur la figure suivante.
|
|
|
L'étude précédente se généralise aux fonctions de
dans
.
Le gradient s'annule en 4 points dans le plan. Nous les donnons avec les valeurs propres de la matrice hessienne et la nature du point.
Nous passons maintenant à un problème un peu différent : la
recherche d'extrema liés, aussi appelés extrema sous
contrainte. Commençons par un exemple simple. Parmi les
parallélépipèdes de surface
fixée, lesquels ont un volume
maximal ? Si
désignent les longueurs des côtés du
parallélépipède, la surface est
et le volume
. Le problème est de trouver le maximum atteint par le volume
, non pas parmi tous les points de
, mais seulement
parmi ceux vérifiant la contrainte
, où
est
fixé. Bien sûr, on peut utiliser la contrainte pour calculer une
des variables en fonction des deux autres. Par exemple pour
:
En reportant cette valeur de
dans l'expression du volume, on
obtient :
On peut calculer le maximum de cette fonction avec la technique du
gradient. Le lecteur vérifiera que le maximum de
est
atteint pour :
: à surface fixée,
le parallélépipède de volume maximal est le cube.
Il est rare que l'on puisse effectivement appliquer cette technique de substitution, s'il y a non pas une, mais plusieurs contraintes. On utilise alors le théorème des multiplicateurs de Lagrange, qui dit que si un problème d'optimisation sous contrainte a une solution en un point, alors les gradients de la fonction et des contraintes sont des vecteurs linéairement dépendants.
Si la restriction de
à
présente un extremum au point
de
, et si les vecteurs
sont linéairement
indépendants, alors il existe
réels
tels que :
Dans ce théorème,
est la fonction dont on cherche un maximum
ou un minimum, et
sont les contraintes. Remarquons
qu'il y a au plus
contraintes, car leurs gradients doivent
être linéairement
indépendants. En fait pour que le
théorème ait un intérêt, il ne peut pas y avoir plus de
contraintes. Les
coefficients
s'appellent les
multiplicateurs de Lagrange, d'où le nom du
théorème. Appliquons-le au problème du volume sous contrainte de
surface.
Si un point
est solution, alors il existe un multiplicateur
tel que
. On doit donc
avoir :
En soustrayant ces équations deux à deux, on obtient :
qui implique que
. On retrouve donc la solution
précédente.
Voici maintenant un exemple similaire, mais avec deux contraintes.
La contrainte
est l'équation de la sphère de centre
et de rayon
; la contrainte
est l'équation d'un
plan. On cherche donc les extrema de
sur l'intersection de la
sphère unité et d'un plan, à savoir sur un cercle dans l'espace.
Si un point
est solution, alors il existe deux multiplicateurs
tels que
. On doit donc avoir :
On obtient donc un système de
équations (les
précédentes et les
contraintes), et
inconnues :
. L'étude de ce système montre
qu'il a
solutions, données dans le tableau ci-dessous.
Observons que ces points ont été obtenus par une condition nécessaire. Rien dans le théorème 18.4.5 ne permet de savoir si ce sont des maxima, des minima ou ni l'un ni l'autre.