Funzione convessa

In matematica , una funzione reale di una variabile reale si dice convessa se:

qualunque siano i due punti A e B del grafico della funzione , il segmento [ AB ] si trova interamente al di sopra del grafico, vale a dire che la curva che rappresenta la funzione si trova sempre al di sotto delle sue stringhe , oppure
l' epigrafe della funzione (l'insieme dei punti che sono al di sopra del suo grafico) è un insieme convesso , o
visto dal basso , il grafico della funzione è irregolare.

Specificando mediante i valori della funzione quali sono i punti A e B di cui sopra, si ottiene una definizione equivalente data spesso della convessità di una funzione: una funzione definita su un intervallo reale $I$ è convessa quando, per ogni $x$ e $y$ di $I$ e tutti $t$ in $[0; 1]$ abbiamo:

f\left(tx+(1-t)y\right)\leq t\,f(x)+(1-t)\,f(y).

Quando la disuguaglianza è stretta (con $x$ diverso da $y$ e $t$ in $] 0; 1 [$ ), si parla di funzione strettamente convessa .

La funzione quadrato e la funzione esponenziale sono esempi di funzioni strettamente convesse oltre ℝ .

Queste definizioni sono generalizzate a funzioni definite su uno spazio vettoriale arbitrario (o affine ) e con valori nella linea reale completata . ${\overline {\mathbb {R} }}=\mathbb {R} \cup \{-\infty ,+\infty \}$

Viceversa, una funzione di cui lo stesso segmento [ AB ] si trova al di sotto del grafico, o di cui l' ipografo (l'insieme dei punti che stanno al di sotto del grafico della funzione) è un insieme convesso, o di cui, vista dal basso, il grafico è cavo, si dice concavo . In altre parole, una funzione $f$ è concava se il suo opposto $-f$ è convesso. Pertanto, le funzioni affini sono sia convesse che concave.

Le funzioni convesse sono, insieme agli insiemi convessi, gli oggetti costitutivi dell'analisi convessa , una disciplina "intermedia" tra l'algebra lineare e l' analisi non lineare . Consentono di dimostrare un gran numero di notevoli disuguaglianze, chiamate disuguaglianze di convessità. Svolgono anche un ruolo singolare nell'ottimizzazione , rimuovendo la distinzione tra minimi locali e globali (qualsiasi minimo locale di una funzione convessa è un minimo globale).

Funzione convessa di una variabile reale

In questa prima sezione, si assumerà che l'insieme di partenza sia un intervallo reale $I$ . Questa restrizione permette di fornire un primo avvio alle funzioni convesse in un primo momento più facile e perché la possibilità di disegnare rappresentazioni grafiche piatte facilita sicuramente il compito, poi e soprattutto perché i concetti di continuità o differenziabilità sono significativamente più gestibili per le funzioni. una singola variabile. Questo approccio mostra rapidamente i suoi limiti, in particolare perché è poco rilevante per applicare la teoria delle funzioni convesse all'ottimizzazione, che è senza dubbio la sua motivazione principale.

Definizioni

Definizione - Una funzione $f$ da un intervallo reale $I$ a ℝ si dice convessa quando, per tutti $x 1$ e $x 2$ di $I$ e tutti $t$ in $[0; 1]$ abbiamo:

f(t\, x_1+(1-t)\, x_2) \le t\, f(x_1)+(1-t)\, f(x_2).

Ciò significa che per tutti $x 1$ e $x 2$ di $I$ , il segmento $[ A 1 , A 2 ]$ di ℝ 2 , dove $A 1 = ( x 1 , f ( x 1 ))$ e $A 2 = ( x 2 , f ( x 2 ))$ , si trova sopra la curva rappresentativa di $f$ .

Una funzione concava è una funzione la cui funzione opposta è convessa.

Verifichiamo subito quanto segue, collegando le nozioni di insieme convesso e funzione convessa:

Nota - La funzione $f$ è convessa su $I$ se e solo se la sua epigrafe è un sottoinsieme convesso di ℝ 2 . $\operatorname {epi} \,f:=\{(x,\,y)\in I\times \mathbb {R} \mid y\geq f(x)\}$

Esempio La funzione

x | x |

è convessa, perché la sua epigrafe è un quarto di piano (a sua volta convessa come intersezione di due semipiani). Spesso è scomodo verificare dalla sola definizione la convessità di una funzione definita da una formula concreta, quindi aspetteremo qualche paragrafo per fare altri esempi, quando avremo un criterio di convessità più utilizzabile in pratica. .

Possibilità di utilizzare solo i media

La definizione di convessità rivela baricentri dove i coefficienti sono reali arbitrari di $[0; 1]$ . Quando l'ipotesi è fatta solo sui media , si estende agli isobaricentri :

Lemma - Se $f$ soddisfa la seguente condizione per $p = 2$ , allora la soddisfa per ogni intero $p \geq 2$ :

\forall x_1,\cdots,x_p\in I\quad f\left(\frac{x_1+\cdots+x_p}p\right)\le\frac{f(x_1)+\cdots+f(x_p)}p.

Dimostrazione

Il seguente “ principio di ricorrenza alternativo ” dimostra questo lemma.

Se la condizione è vera per $p$ allora è vera per $2 p$ perché

\begin{align}f\left(\frac{x_1+\cdots+x_{2p}}{2p}\right)&=f\left(\frac{\frac{x_1+\cdots+x_p}p+\frac{x_{p+1}+\cdots+x_{2p}}p}2\right)\\&\le\frac{f\left(\frac{x_1+\cdots+x_p}p\right)+f\left(\frac{x_{p+1}+\cdots+x_{2p}}p\right)}2\\&\le\frac{\frac{f(x_1)+\cdots+f(x_p)}p+\frac{f(x_{p+1})+\cdots+f(x_{2p})}p}2\\&=\frac{f(x_1)+\cdots+f(x_{2p})}{2p}.\end{align}

Se è per p + 1 allora è per p perché impostando

x_{p+1}=\frac{x_1+\cdots+x_p}p,

otteniamo

f(x_{p+1})=f\left(\frac{x_1+\cdots+x_{p+1}}{p+1}\right)\le\frac{f(x_1)+\cdots+f(x_{p+1})}{p+1},

cioè

f(x_{p+1})\le\frac{f(x_1)+\cdots+f(x_p)}p.

Aggiungendo un'ulteriore ipotesi di regolarità di $f$ , si ottiene:

Proposizione - Una funzione continua $f$ su $I$ è convessa su $I$ se (e solo se) qualunque siano gli elementi $x$ $1$ e $x$ $2$ di $I$ :

f\left(\frac{x_1+x_2}2\right)\le\frac{f(x_1)+f(x_2)}2.

Dimostrazione

Grazie al lemma, abbiamo

\forall x,y\in I\quad f\left(t x+(1-t)y\right) \leq t f(x)+(1-t)f(y)

per ogni razionale $t$ in $[0; 1]$ quindi (per densità ) per ogni $t$ in $[0; 1]$ .

Estensione ai baricentri di più di due punti

La disuguaglianza della definizione si estende come segue (possiamo dimostrarla per induzione sull'intero p o con lo stesso argomento della proposizione precedente. Questa versione è talvolta chiamata disuguaglianza di Jensen :

Proposizione - Se $f$ è convesso su $I$ e se $x 1 ,\dots, x p$ sono punti di $I$ e $t 1 ,\dots, t p$ positivi o nulli reali tali che $t 1 +\dots + t p = 1$ , allora:

f(t_1\, x_1 + \cdots +t_p\, x_p) \le t_1\, f(x_1) + \cdots +t_p\, f(x_p).

Geometria del grafico di una funzione convessa

Il seguente risultato è talvolta chiamato "lemma a tre stringhe" o "disuguaglianza delle pendenze" o anche "disuguaglianza delle tre pendenze":

Proposizione - Se $f$ è convessa su $I$ per tutti i punti $x 1$ , $x 2$ e $x 3$ di $I$ con $x 1 < x 2 < x 3$

\frac{f(x_2)-f(x_1)}{x_2-x_1}\leq \frac{f(x_3)-f(x_1)}{x_3-x_1}\leq \frac{f(x_3)-f(x_2)}{x_3-x_2}.

Viceversa, se una delle due disuguaglianze vale per tutti $x 1$ , $x 2$ e $x 3$ di $I$ con $x 1 < x 2 < x 3$ , allora $f$ è convessa.

Regolarità delle funzioni convesse

Il “lemma delle tre stringhe” ci permette di mostrare che:

Teorema - Se $I$ è un intervallo aperto e se $f : I \to ℝ$ è convesso allora:

$f$ è differenziabile a sinistra ea destra (quindi continua) e $f g ' \leq f d '$ ;
le funzioni $f g '$ , $f d '$ sono crescenti ;
l'insieme dei punti $x$ dove $f$ non è derivabile (cioè tale che $f g ' ( x ) \neq f d ' ( x )$ ) è al più numerabile .

Dimostrazione

O $un \in I$ . Definiamo il $I \ { a }$ il tasso di aumento in $un$ by . Questa funzione è crescente secondo il lemma a tre stringhe applicato ai tre casi: $a$ $<$ $x$ $<$ $y$ , $x$ $<$ $a$ $<$ $y$ e $x$ $<$ $y$ $<$ $a$ . Essa pertanto $ha$ un limite sinistro $f$ $g$ $'$ $($ $un$ $)> -\infty$ e un limite destro $f$ $d$ $'$ $($ $un$ $) <+ \infty$ tale che $f$ $g$ $'$ $($ $un$ $) \leq$ $f$ $d$ $'$ $($ $un$ $)$ . $\tau _{a}:x\mapsto {\frac {f(x)-f(a)}{x-a}}$
Sia $x , y \in I$ tale che $x < y$ . Per ogni $s , t \in I$ tale che $x \neq s < y$ e $x < t \neq y$ , $τ x ( s ) \leq τ x ( y ) = τ y ( x ) \leq τ y ( t )$ . Facendo $s$ tendono verso $x \pm$ e $t$ verso $y \pm$ , si deduce: $f g ' ( x ), f d ' ( x ) \leq f g ' ( y ), f d ' ( y )$ . In particolare, le funzioni $f g '$ e $f d '$ sono crescenti.
Essendo la funzione $f d '$ crescente, per il teorema di Froda , l'insieme dei suoi punti di discontinuità è al più numerabile. Dimostriamo che in ogni punto $x$ dove è continua, coincide con $f g '$ , in altre parole: $f$ è differenziabile in $x$ . Secondo le disuguaglianze precedenti, per ogni $s \in I$ tale che $s < x$ , si ha $f d ' ( s ) \leq f g ' ( x ) \leq f d ' ( x )$ . Allora, per continuità di $f d '$ in $x$ e per il teorema dei gendarmi, facendo tendere $s$ verso $x$ , segue che $f g ' ( x ) = f d ' ( x )$ .

Dimostriamo anche ( vedi sotto ) che $f$ è anche localmente Lipschitziano .

Caso di funzioni derivabili

Abbiamo due caratterizzazioni:

Proposta - Sia $f$ una funzione derivabile su un intervallo $I$ .

$f$ è convessa se e solo se la sua curva rappresentativa è al di sopra di ciascuna delle sue tangenti ;
$f$ è convessa se e solo se la sua derivata è crescente su $I$ .

Dalla seconda caratterizzazione deduciamo:

che ogni funzione convessa e differenziabile (su un intervallo reale) è di classe C 1 ;
il seguente corollario, molto pratico per controllare facilmente la convessità di esempi specifici:

Corollario - Sia $f$ una funzione differenziabile due volte su un intervallo $I$ .

$f$ è convessa se e solo se la sua derivata seconda $f ''$ ha valori positivi o nulli.

Pertanto, ora possiamo facilmente aggiungere alla nostra raccolta di funzioni convesse (o concave) i seguenti esempi:

la funzione potenza è concava se $0 <$ $a$ $<1$ e convessa altrimenti; $\mathbb {R} _{+}^{*}\to \mathbb {R} ,\,x\mapsto x^{a}$
per ogni intero positivo $n$ , la funzione è convessa se $n$ è pari (se $n$ è dispari, è convessa su ℝ + e concava su ℝ - ); $\mathbb {R} \to \mathbb {R} ,\,x\mapsto x^{n}$
la funzione $ℝ \to ℝ, x \mapsto exp ( x )$ è convessa;
la funzione $ℝ * + \to ℝ, x \mapsto ln ( x )$ è concavo.

Convessità rigorosa

Usando le disuguaglianze strette, abbiamo una variante della convessità: la convessità stretta.

Definizione - Una funzione $f$ di un intervallo $I$ da a ℝ si dice strettamente convessa quando, per tutti $x 1$ e $x 2$ distinti in $I$ e tutti $t$ in $] 0; 1 [$ , abbiamo:

f(t\, x_1+(1-t)\, x_2)<t\, f(x_1)+(1-t)\, f(x_2).

I risultati sopra indicati per le funzioni convesse generalmente si adattano facilmente a funzioni strettamente convesse.

Proprio come le funzioni derivabili convesse sono quelle che hanno una derivata crescente, le funzioni derivabili strettamente convesse sono quelle che hanno una derivata strettamente crescente.

Secondo il legame tra monotonia e segno della derivata , una funzione $f$ doppiamente differenziabile è quindi strettamente convessa se e solo se $f''$ è positiva e si annulla solo su un insieme interno vuoto.

Esempio

x \mapsto x 4

è strettamente convesso (la sua seconda derivata è positiva e si annulla solo in

0

Funzione convessa definita su uno spazio vettoriale

Definizioni

Convessità

Possiamo dare almeno due definizioni leggermente diverse di una funzione convessa di più variabili reali (o più in generale: di una variabile vettoriale ), che sostanzialmente equivalgono ma non forniscono tuttavia esattamente le stesse funzioni. Ci occuperemo quindi del contesto nell'invocare una di queste definizioni per capire se si tratta o meno di funzioni suscettibili di assumere infiniti valori.

Definizione 1 - Sia $E$ uno spazio vettoriale (o affine) reale e $C$ un convesso $E$ . Diciamo che una funzione

f:C\to \mathbb {R}

è convesso quando

per tutti

x 1

x 2

C

e tutto

t

[0; 1]

, abbiamo: .

f(tx_{1}+(1-t)x_{2})\leq tf(x_{1})+(1-t)f(x_{2})

In altre parole: $f$ è convessa se la sua “restrizione” $t \mapsto f ( tA + (1 - t ) B )$ a qualsiasi segmento è una funzione convessa della variabile reale $t$ $\in [0;$ $1]$ ( vedi sopra ). $[A,B]\subset C$

Definizione 2 - Sia

E

uno spazio vettoriale reale (o affine). Diciamo che una funzione

f:E\to\R\cup\{+\infty\}

è convesso quandoper tutti

x 1

x 2

dom f

:=\{x\in E\mid f(x)<+\infty \}

e tutto

t

[0; 1]

, abbiamo: .

f(tx_{1}+(1-t)x_{2})\leq tf(x_{1})+(1-t)f(x_{2})

Data una funzione convessa ai sensi della definizione 1, possiamo associarla ad una funzione convessa ai sensi della definizione 2 estendendola da $C$ per il valore $+ \infty$ ; viceversa, data una funzione convessa ai sensi della definizione 2, l'insieme $C$ $: = dom$ $f$ è un convesso e la restrizione da $f$ a $C$ è una funzione convessa ai sensi della definizione 1. Le due trasformazioni sono reciproche l' uno su l'altro: le due definizioni, sebbene tecnicamente distinte, descrivono la stessa nozione. $f:E\to\R\cup\{+\infty\}$

Alcune fonti richiedono inoltre che $C$ sia non vuoto (nella definizione 1) o che $f$ non sia la costante $+$ (nella definizione 2) per evitare spiacevoli eccezioni in alcune affermazioni. Una tale funzione di $E$ in si dice propria . $\R\cup\{+\infty\}$

La definizione 2 è più recente della definizione 1 ed è stata introdotta indipendentemente da Rockafellar e Moreau . Permette di definire una funzione convessa come un singolo "oggetto" (una funzione definita su uno spazio vettoriale avente una proprietà molto particolare) e non come una coppia formata da un insieme convesso di uno spazio vettoriale e una funzione con valori valori reali definito su questo insieme convesso. La definizione 2 è quella più utilizzata nell'analisi convessa , per i seguenti motivi: da un lato, alleggerisce spesso l'espressione dei risultati e, dall'altro, permette di non dover specificare il convesso su cui si definisce un convesso funzione ottenuta da una delle costruzioni standard dell'analisi convessa, come il guscio superiore , la funzione di supporto , la funzione marginale , la funzione coniugata , l' ottimizzazione della doppia funzione , ecc.

Convessità rigorosa

Sia $E$ uno spazio vettoriale reale (o affine). Diciamo che una funzione è strettamente convessa se, per tutti $x$ $1$ e $x$ $2$ distinti in $dom$ $f$ e tutti $t$ in $] 0;$ $1 [$ , abbiamo: $f:E\to\R\cup\{+\infty\}$

f(t\, x_1+(1-t)\, x_2)<t\, f(x_1)+(1-t)\, f(x_2).

Forte convessità

Sia $( E , ║ ∙ ║)$ uno spazio normato . Diciamo che una funzione è fortemente convessa , di modulo $α> 0$ se, per tutti $x$ $1$ e $x$ $2$ in $dom$ $f$ e tutti $t$ in $[0;$ $1]$ , abbiamo: $f:E\to\R\cup\{+\infty\}$

$f(t\, x_1+(1-t)\, x_2)\le t\, f(x_1)+(1-t)\, f(x_2)-\frac{\alpha}2\,t(1-t)\|x_1-x_2\|^2.$

Troviamo la nozione di funzione convessa quando $α = 0$ .

Esempi di funzioni convesse

Ecco alcuni esempi di costruzioni di funzioni convesse:

prodotto di una funzione convessa per un reale positivo;
somma di due funzioni convesse (inoltre, se $f$ è strettamente convessa e $g$ è convessa allora $f + g$ è strettamente convessa);
esponenziale di una funzione convessa o più in generale una funzione composta da una funzione convessa reale che aumenta $g$ di una funzione convessa $f$ ; $g\circ f$
funzione poliedrica convessa ;
funzione di supporto di un assieme e più in generale:
- funzione sublineare ,
- funzione coniugata di una funzione da E a ℝ;
funzione indicatrice di un insieme convesso;
funzione marginale i cui valori sono ottenuti minimizzando una seconda funzione parametrizzata dai suoi argomenti.

Ecco alcuni esempi concreti di funzioni convesse o concave:

sia le mappature convesse che quelle concave sono mappature affini ;
una forma quadratica $x \mapsto B ( x , x )$ , associata a una forma bilineare simmetrica $B$ , è convessa se e solo se $B$ è positiva . È strettamente convessa se, e solo se $B$ è definita positiva ;
la funzione log - det : $X \mapsto ln det X$ sul convesso di matrici definite positive (nello spazio di matrici reali simmetriche di ordine $n$ ) è concava.

Proprietà elementari

Per ogni spazio vettoriale topologico E di dimensione infinita, esistono funzioni convesse di dominio E che non sono continue: per esempio forme lineari non continue su E .

Tuttavia, una proporzione significativa di risultati validi per funzioni convesse di una variabile sono riprodotti identicamente per funzioni convesse su una parte di uno spazio vettoriale, vale a dire che si riduce per dimostrarli per considerare la restrizione della funzione unifilare, oppure la dimostrazione è una semplice revisione della versione a una variabile. Eccone alcuni:

Una funzione convessa è una funzione la cui epigrafe è convessa.
In uno spazio vettoriale topologico, una funzione che soddisfa la disuguaglianza convessa solo per i punti medi e che è continua è convessa.
Una funzione convessa soddisfa la disuguaglianza di Jensen .

affine minore

La tecnica di minimizzazione delle funzioni convesse mediante funzioni affini è una variante adatta all'analisi dell'uso di iperpiani di supporto in geometria convessa. La forma analitica del teorema di Hahn-Banach permetterebbe di abbassare direttamente una funzione convessa definita (e con valori finiti) sulla totalità del suo spazio di partenza. D'altra parte, non appena la funzione non è definita ovunque, è necessario porre alcune restrizioni tecniche.

Moto - Sia $E$ uno spazio vettoriale topologico, $f$ una funzione convessa e continua definita su un convesso aperto $U$ non vuoto di $E$ e $x 0$ un punto $U$ .

Esiste allora una funzione affine continua che meno $f$ e che coincide con essa in $x 0$ .

Vedremo un po' più avanti che l'assunzione di continuità è superflua in dimensione finita (è una conseguenza della convessità). Essenziale, invece, la condizione topologica su $U$ , anche in una sola variabile: per la funzione convessa su $[-1;$ $1]$ (il cui grafico è un semicerchio) e $x$ $0$ $= 1$ , non possiamo trovare una funzione affine di limite inferiore ai sensi della proposizione precedente. $f(x) = -\sqrt{1-x^2}$

Dimostrazione

Si consideri da un lato l'epigrafe rigorosa di $f$ : è convessa per convessità di $f$ , aperta in perché $U$ è aperta e $f$ continua, e dall'altro il singleton $L$ $= {($ $x$ $0$ $,$ $f$ $($ $x$ $0$ $) )}$ . Utilizzando la prima forma geometrica del teorema di Hahn-Banach , abbiamo la garanzia che esiste un iperpiano portante in $C$ passante per $($ $x$ $0$ $,$ $f$ $($ $x$ $0$ $))$ , che è chiuso. Questo iperpiano non può contenere la linea perché non contiene $($ $x$ $0$ $,$ $f$ $($ $x$ $0$ $) + 1)$ per esempio. Concludiamo che è il grafico di una mappa affine che minimizza $f$ , e che è continua perché $H$ è chiusa. $C=\{(x,y)\in U\times \mathbb{R} \,\mid \,f(x)<y\}$ $E\times \R$ $\{x_0\} \times \R$

Riconoscere una funzione convessa dalle sue derivate

Uso dei derivati primi

Ecco un primo risultato che permette di riconoscere la convessità di una funzione mediante le sue prime derivate. Indichiamo la forma lineare continua che è il differenziale di $f$ nel punto $x$ . Il punto 2 sotto significa che l' approssimazione affine di $f$ in qualsiasi punto $x$ è un limite inferiore di $f$ ; il punto 3 esprime la monotonia della derivata. $f'(x)\in {\mathcal {L}}(E,\mathbb {R} )$

Convessità e derivate prime - Sia $E$ uno spazio normato, $Ω$ un convesso aperto di $E$ e una funzione differenziabile. Quindi le seguenti proprietà sono equivalenti: $f: \Omega \to \R$

$f$ è convessa su $Ω$ ;
$\forall \,x,y\in \Omega ,\ f(y)\geq f(x)+f'(x)\cdot (y-x)$ ;
$\forall \,x,y\in \Omega ,\ (f'(y)-f'(x))\cdot (y-x)\geq 0$ .

Un risultato simile permette di caratterizzare la stretta convessità di una funzione. È sufficiente sostituire le disuguaglianze di cui sopra con disuguaglianze strette e assumere che i punti di valutazione $x$ e $y$ differiscono.

Convessità stretta e derivata prima I - Sia $E$ uno spazio normato, $Ω$ un convesso aperto di $E$ e una funzione differenziabile. Quindi le seguenti proprietà sono equivalenti: $f: \Omega \to \R$

$f$ è strettamente convessa su $Ω$ ;
$\forall \,x,y\in \Omega ,\ x\neq y\ :\ f(y)>f(x)+f'(x)\cdot (y-x)$ ;
$\forall \,x,y\in \Omega ,\ x\neq y\ :\ (f'(y)-f'(x))\cdot (y-x)>0$ .

In dimensione finita, le disuguaglianze di cui sopra possono essere rinforzate.

Convessità stretta e derivate prime II - Sia $E$ uno spazio vettoriale a dimensione finita, funzione di classe C 1 e $t$ $\in] 0;$ $1 [$ . Allora le seguenti proprietà sono equivalenti: $f:E\to \mathbb {R}$

$f$ è strettamente convessa;
per ogni $β > 0$ , esiste una funzione continua , strettamente crescente, soddisfacente e $g_\beta:[0,2\beta]\to\R_+$ $g_\beta(0)=0$

\forall x,y\in \Omega ,\ \|x\|,\|y\|\leq \beta \ :\ f(y)-f(x)\geq f'(x)\cdot (y-x)+(1-t)g_{\beta }(t\|y-x\|)

;

per ogni $β > 0$ , esiste una funzione continua , strettamente crescente, soddisfacente e $g_\beta:[0,2\beta]\to\R_+$ $g_\beta(0)=0$ $\forall x,y\in \Omega ,\ \|x\|,\|y\|\leq \beta \ :\ (f'(y)-f'(x))\cdot (y-x)\geq g_{\beta }(\|y-x\|)$ .

Infine, possiamo caratterizzare la convessità forte mediante le derivate prime.

Convessità e derivate prime forti - Sia $E essere$ uno spazio euclideo, $Ω$ un aperto convesso di $E$ e una funzione differenziabile. Quindi le seguenti proprietà sono equivalenti: $f: \Omega \to \R$

$f$ è fortemente convesso sopra $Ω$ ;
$\exists \alpha >0,\forall x,y\in \Omega \ :\ f(y)\geq f(x)+f'(x)\cdot (y-x)+{\frac {\alpha }{2}}\|y-x\|^{2}$ ;
$\exists \alpha >0,\forall \,x,y\in \Omega \ :\ (f'(y)-f'(x))\cdot (y-x)\geq \alpha \|y-x\|^{2}$ .

Usando le derivate seconde

Indichiamo la forma bilineare continua e simmetrica che è il secondo differenziale di $f$ nel punto $x$ . $f''(x)\in {\mathcal {L}}_{2}(E,\mathbb {R} )$

Convessità e derivate seconde - Sia $Ω$ uno spazio aperto di uno spazio normalizzato e una funzione differenziabile due volte. $f:\Omega \to \mathbb {R}$

$f$ è convessa se, e solo se, per ogni punto $x \in Ω$ , la forma bilineare $f '' ( x )$ è positiva.
Se, per ogni punto $x \in Ω$ , è definita positiva, allora $f$ è strettamente convessa. $f''(x)$

Ricordiamo che il viceversa del secondo punto è falso ( vedi sopra ).

Funzioni convesse in dimensione finita

Problemi di continuità

Continuità su un open

Come nella dimensione 1, una funzione convessa definita su un aperto di ℝ n è necessariamente continua in qualsiasi punto dell'aperto. La dimostrazione ci darà informazioni più precise:

Teorema - Una funzione convessa definita (e di valore finito) su un aperto di ℝ n è localmente Lipschitziana , quindi continua e derivabile quasi ovunque .

Dimostrazione

Sia $f$ una funzione convessa sull'apertura convessa $C$ , e sia $x 0$ un punto $C$ .

Mostreremo prima che $f$ è localmente limitato. La dimensione finita è qui usata in modo essenziale.

Per vincolare localmente $f$ , prendiamo un simplesso contenente $x 0$ al suo interno, e indichiamo con $M$ il valore più grande assunto da $f$ sugli n + 1 vertici di questo simplesso. La disuguaglianza di convessità permette di estendere questo incremento all'intero simplesso, quindi ad un intorno di $x 0$ .

Passando al markdown locale, valido su qualsiasi pallina $B$ centrata in $x 0$ sulla quale sappiamo già aumentare $f$ di un $milione$ . Per ogni punto $x 1$ di questa palla, introducendo la simmetrica $x 1 '$ di $x 1$ rispetto a $x 0$ e scrivendo la disuguaglianza di convessità per $x 0$ come punto medio di $[ x 1 , x 1 ']$ e tracciando y la limite superiore di $f ( x 1 ')$ , otteniamo il limite inferiore . $2f(x_0)-M\leq f(x_1)$

Lasciare $δ$ poi essere strettamente positivo vero abbastanza piccolo per $f per$ prendere valori inferiori a $M$ (e quindi maggiore di $2 f ( x 0 ) - M$ sulla sfera aperta $B 2$ con il centro $x 0$ e raggio $2 δ$ . Poi verifica abbastanza facilmente che $f$ è $L$ -lipschitziano sulla palla aperta $B 1$ di centro $x 0$ e raggio $δ$ , dove poniamo:

L={2(M-f(x_0))\over\delta}.

Per questa verifica, siano $x 1$ e $x 2$ distinti in $B 1$ . Introduciamo i punti ausiliari $x 1 '$ e $x 2 '$ definiti da:

x_1'=x_1-\delta{{x_2-x_1}\over{\|x_2-x_1\|}}

e .

x_2'=x_2+\delta{{x_2-x_1}\over{\|x_2-x_1\|}}

Notare che questi punti ausiliari sono in $B 2$ . Se poi scriviamo successivamente le disequazioni di convessità corrispondenti alla rappresentazione di $x 1$ come punto del segmento e alla rappresentazione di $x$ $2$ come punto del segmento $[$ $x$ $1$ $,$ $x$ $2$ $']$ , allora vi inseriamo gli incrementi e diminuzioni disponibili per i valori di $f$ su $B$ $2$ , otteniamo rapidamente l'aumento desiderato: $[x'_1,x_2]$

\left| f(x_2)-f(x_1)\right|\leq L\|x_2-x_1\|.

In dimensione > 1, l' insieme trascurabile di punti dove $f$ non è differenziabile può avere la potenza del continuo : si consideri ad esempio la mappa convessa . $\mathbb {R} ^{2}\to \mathbb {R} ,\ (x,y)\mapsto \max(x,0)$

Discontinuità ai margini

Con una variabile, su un intervallo non aperto, abbiamo visto che una funzione convessa non era necessariamente continua.

Tuttavia è possibile renderlo continuo con un semplice processo: se $f$ è convesso su un intervallo $[ a , b ]$ , allora necessariamente il limite destro $f + ( a )$ di $f$ in $a$ esiste ed è minore o uguale al valore $f ( a )$ . La discontinuità di $f$ al limite $a$ si verifica allora nel caso in cui $f + ( a ) < f ( a )$ . Possiamo districarlo semplicemente modificando il valore di $f$ a questo punto: basta diminuirlo e sostituirlo con $f + ( a )$ .

Dalla dimensione 2, le cose non sono così comode, come mostra il seguente esempio:

Sia $C$ il disco unitario chiuso di 2 ; si consideri la funzione $f$ definita su $C$ da:

\left\{\begin{matrix}f(x,y)&=&\displaystyle{x^2\over{y+1}}&\mbox{si }(x,y)\not=(0,-1)\\ f(0,-1)&=&0.&\\ \end{matrix}\right.

Questa funzione $f$ è convessa. È però discontinua nel punto $(0, -1)$ ma qui la discontinuità non può essere rimossa con una semplice modifica del valore $f (0, -1)$ . Si nota infatti che se si tende radialmente verso questo punto, essendo la funzione nulla sul raggio, $f (0, y )$ tende a 0; ma un facile calcolo mostra che, se tendiamo a $f (0, -1)$ lungo il cerchio di confine di C , $f ( x , y )$ tende a 2. Tutti i valori tra 0 e 2 sono anche valori di adesione di $f$ nel punto $(0, -1)$ ed è decisamente illusorio sperare di rendere continua questa $f$ modificandone i valori sul bordo.

Tuttavia, se l'insieme di definizione è un politopo , le cose accadono come sugli intervalli di , come possiamo vedere applicando il seguente teorema:

Teorema - Una funzione convessa limitata definita all'interno di un politopo ammette un'estensione convessa continua al politopo.

Chiusura di una funzione convessa

Una volta compreso che è inutile voler modificare una funzione convessa $f$ sulla frontiera del suo dominio di definizione fino a renderla continua, si può tuttavia scegliere un insieme di valori su questa frontiera più notevole degli altri, richiedendo che l'estensione sia allo stesso tempo semi-continua inferiore (che richiede di scegliere valori deboli) e convessa (che richiede di prenderli forti).

Per scrivere l'enunciato in modo abbastanza comodo, è qui particolarmente appropriato utilizzare funzioni definite su tutto and n ed eventualmente assumendo il valore $+ \infty$ .

Teorema - Sia $f$ una funzione convessa di dominio effettivo . Indichiamo con $f$ la funzione definita da: $\operatorname {dom} f\subset \mathbb {R} ^{n}$ $x\in \mathbb {R} ^{n}$

$\overline f(x):=\liminf_{y\to x} f(y).$

La funzione $f$ è quindi caratterizzata da una delle seguenti tre proprietà:

$f$ coincide con $f$ nei punti che non sono sul bordo relativo della $cupola$ convessa $f$ ; è convesso e semicontinuo in basso;
$f$ coincide con $f$ nei punti che non sono sulla frontiera relativa di $dom f$ e, per ogni punto $x$ della frontiera relativa di $dom f$ e ogni segmento semiaperto $] x , z ]$ compreso nell'interno relativo di $dom f$ , ; $f(x)=\lim_{\stackrel{y\to x}{y\in]x,z]}}f(y)$
$f$ ha per epigrafe l'adesione dell'epigrafe di $f$ .

Dimostrazione

Il fatto che $f$ è semicontinuo inferiormente e la proprietà (3) sono vere senza usare l'assunzione di convessità di $f$ , e sono semplici esercizi di topologia elementare.

È anche evidente il fatto che $f$ coincide con $f$ al di fuori dell'adesione di $dom f$ , cioè assume il valore $+$ in qualsiasi punto di questa parte di spazio.

Il fatto che $f$ coincida con $f$ sull'interno relativo di $dom f$ deriva dalla continuità della restrizione di $f$ a questo interno relativo, come funzione convessa su un convesso aperto (relativamente al suo inviluppo affine).

La convessità di $f$ può sembrare chiara, poiché la sua epigrafe è convessa come l'adesione di una convessa, ma qui c'è un problema! Non dobbiamo dimenticare di controllare che $f$ tenga i suoi valori in ( in altre parole, che il $liminf$ usato per definire $f$ non valga da nessuna parte $-\infty$ ) il che non è ovvio. Per fare ciò, è desiderabile porsi temporaneamente nell'involucro affine di $dom$ $f$ . Per la proposizione di esistenza delle funzioni affini minimizzanti, costruiamo su questo sottospazio una forma affine che meno $f$ sull'interno relativo di $dom$ $f$ ; la riduzione è ancora vera sul relativo bordo (si nota punto per punto restringendo lo spazio di partenza ad una linea passante per questo punto), si prolunga infine arbitrariamente questa forma affine a ℝ n interamente in forma affine , continua poiché siamo in dimensione finita, e che meno ovunque $f$ . Questa forma poi $abbassa$ anche i $limiti$ che costruiscono $f$ dimostrando che non possono valere $-\infty$ . $\R\cup\{+\infty\}$

Una volta $nota$ la convessità di $f$ , quindi la sua restrizione a qualsiasi segmento, l'affermazione (2) deriva dal seguente facile lemma: una funzione di una singola variabile che è sia convessa che semicontinua inferiore è infatti continua .

È chiaro che (2) e (3) caratterizzano $f$ . Per (1), questo segue dal paragrafo precedente della dimostrazione, in cui abbiamo mostrato che (1) implica (2).

La funzione $f$ è detta chiusura di $f$ . Le funzioni convesse uguali alla loro chiusura sono dette funzioni convesse chiuse ; in altre parole sono le funzioni convesse la cui epigrafe è chiusa, ovvero sono le funzioni convesse semicontinue inferiori.

Funzione a valori vettoriali

Possiamo anche introdurre una nozione di convessità per funzioni con valori vettoriali , purché ci diamo un cono nello spazio di arrivo della funzione.

Più specificamente, si assume dati due spazi vettoriali $E$ ed $F$ , un convesso da $C$ a $E$ , un cono appuntito convesso $K$ di $F$ e una funzione $f$ di $C$ in $F$ . Diciamo che $f$ è $K$ -convesso se, per tutti $x 1$ e $x 2$ di $C$ e tutti $t$ in $[0; 1]$ , abbiamo

$f(tx_1+(1-t)x_2)\in tf(x_1)+(1-t)f(x_2)-K.$

Per le proprietà assunte di $K$ , l'insieme delle funzioni $K$ -convesse è un cono convesso dell'insieme delle funzioni da $E$ a $F$ (perché $K$ è un cono convesso), contenente le funzioni affini (perché $K$ è puntato).

Se il cono $K$ è anche saliente , induce su $f$ un ordine parziale , denotato $\leq K$ e definito da

$y_{1}\leq _{K}y_{2}\qquad \Longleftrightarrow \qquad y_{2}-y_{1}\in K.$

Quindi, si scrive anche l'espressione sopra della $K$ -convessità di $f$

$f(tx_{1}+(1-t)x_{2})\leq _{K}tf(x_{1})+(1-t)f(x_{2}),$

che richiama la familiare disuguaglianza di convessità.

Applicazioni fisiche Physi

L'analisi convessa trova un gran numero di applicazioni in fisica, quando i potenziali energetici sono localmente convessi (esistenza di soluzioni stabili, cambiamenti di fase ). In omogeneizzazione , ad esempio, di tipo teorie variazionali permettono di stimare le soluzioni di ellittiche parziali equazioni differenziali grazie alla rappresentazione delle potenzialità energetiche da Legendre trasformare. La trasformata di Legendre , una formulazione matematica che rappresenta una funzione convessa per tutte le sue tangenti, permette lo sviluppo di metodi di linearizzazione.

Note e riferimenti

Dimostrato pag. 179 di JLWV Jensen , " Su funzioni convesse e disuguaglianze tra valori medi ", Acta Mathematica , vol. 30,1906, pag. 175-193 ( DOI 10.1007 / BF02418571 , leggi in linea ).
(in) Emil Artin , La funzione gamma , Dover ,2015( 1 ° ed. 1964), 48 p. ( leggi in linea ) , p. 5.
Un presupposto di questo tipo è essenziale, poiché tutte le soluzioni $f$ della equazione funzionale di Cauchy soddisfare . $f\left({\frac {x_{1}+x_{2}}{2}}\right)={\frac {f(x_{1})+f(x_{2})}{2}}$
Questo è stato assegnato da Jensen (in) Constantin Nicolescu e Lars-Erik Persson (in) , Funzioni convesse e loro applicazioni: un approccio contemporaneo , Springer al. "Libri di matematica della Canadian Mathematical Society" ( n o 23)2006( ISBN 978-0-387-24300-9 , leggi in linea ) , p. 10. Si riferiscono a Jensen 1906 , che dimostra direttamente una disuguaglianza più generale ( vedi sotto ).
Artin 2015 , p. 6. Per un altro metodo, vedere Nicolescu e Persson 2006 o la proprietà 11 della lezione "Funzioni convesse" su Wikiversità .
Dimostrazione della disuguaglianza di Jensen nella lezione "Funzioni convesse" su Wikiversità .
Jensen 1906 , p. 180, ripreso in Artin 2015 , p. 6.
Questo risultato è citato da Nicolescu e Persson 2006 , p. 20-21, che lo attribuiscono a L. Galvani, riferendosi al suo articolo “Sulle funzioni convesse di una o due variabili, definite in un aggregato qualunque”, Rend. Circ. Albero. Palermo , vol. 41, 1916, pag. 103-134 DOI : 10.1007 / BF03018290 .
Una dimostrazione si trova in Artin 2015 , p. 1 e 6, oppure nel capitolo "Convessità" della lezione sulle funzioni di una variabile reale su Wikiversità .
Cfr Nicolescu e Persson 2006 , p. 21, che attribuiscono i primi due punti a Otto Stolz , riferendosi al suo trattato Grundzüge der Differential und Integralrechnung , vol. 1, Teubner, Lipsia, 1893.
Cfr. Proprietà 13 e Teorema 1 della lezione "Funzioni convesse" su Wikiversità .
Affermazione in Jacques Douchet, Analisi: raccolta di esercizi e aiuti alla memoria , vol. 1, PPUR ,2010, 3 e ed. ( 1 ° ed. 2003) ( leggere online ) , p. 77(prop. 5.44) e dimostrato in questo esercizio corretto dalla lezione sulle funzioni di una variabile reale su Wikiversità . Per una generalizzazione alle funzioni convesse di una variabile vettoriale, vedere (in) John Paul Penot Calculus Without Derivatives , al. " GTM " ( n ° 266)2012( leggi in linea ) , p. 202-203.
Cfr. Teorema 2 della lezione "Funzioni convesse" su Wikiversità .
(in) Stephen Boyd e Lieven Vandenberghe, Ottimizzazione convessa , Cambridge University Press,2004( leggi in linea ) , p. 110.
Per tutta questa sottosezione, vedere (in) Jean-Baptiste Hiriart-Urruty e Claude Lemaréchal, Fundamentals of Convex Analysis , Springer , al. "Edizioni di testo Grundlehren",2004( 1 ° ed. 2001 ), 259 p. ( ISBN 978-3-540-42205-1 , leggi in linea ) , p. 74-76.
Secondo RT Rockafellar nel Bollettino CIM .
Vedi Proprietà 8 e 9 della lezione "Funzioni convesse" su Wikiversità .
(in) Werner Fenchel , Coni, insiemi e funzioni convessi , Princeton University Press ,1951( leggi in linea ) , p. 57.
La seguente proposizione è affermata in Nicolescu e Persson 2006 , p. 114 (nell'ipotesi di uno spazio normalizzato $E$ , che non gioca un ruolo essenziale nella dimostrazione).
R. Glowinski , J.-L. Lions e R. Trémolières, Analisi numerica delle disuguaglianze variazionali , t. 1: Teoria generale, prime applicazioni , Parigi, Dunod - Bordas ,1976, pag. 61 e 63, Lemmi 1.1 e 1.2.
Hiriart-Urruty e Lemaréchal 2004 , p. 102-104, adattata la riduzione della funzione convessa alla luce di Nicolescu e Persson 2006 , p. 119.
Nicolescu e Persson 2006 , p. 137.
Queste osservazioni sono disponibili, con le loro prove e alcuni dettagli, in Nicolescu e Persson 2006 , p. 22.
L'esempio appare in Hiriart-Urruty e Lemaréchal 2004 , p. 105, con la spiegazione della convessità di $f$ .
Questo teorema è citato senza dimostrazione da Nicolescu e Persson 2006 , p. 123, che si riferiscono a (in) D. Gale, V. Klee e RT Rockafellar, "Le funzioni convesse sono politopi convessi " , Proc. Amaro. Matematica. Soc. , vol. 19,1968, pag. 867-873.
Per l'intera sottosezione, cfr. Hiriart-Urruty e Lemaréchal 2004 , p. 79-80. Nicolescu e Persson 2006 , p. 122, menzionano anche questi risultati attribuendoli a Fenchel 1951 .
Vedere per una panoramica (in) Ivar Ekeland e Roger Temam , Analisi convessa e problemi variazionali , SIAM ,1999, 402 pag. ( ISBN 978-0-89871-450-0 , leggi in linea ) , cap. IV.

Vedi anche

Bibliografia

(it) R. Tyrrell Rockafellar , Analisi convessa , Princeton, Princeton University Press ,1970, 451 pag. ( ISBN 978-0-691-01586-6 , leggi online )

Funzione convessa

Funzione convessa di una variabile reale

Definizioni

Possibilità di utilizzare solo i media

Estensione ai baricentri di più di due punti

Geometria del grafico di una funzione convessa

Regolarità delle funzioni convesse

Caso di funzioni derivabili

Convessità rigorosa

Funzione convessa definita su uno spazio vettoriale

Definizioni

Esempi di funzioni convesse

Proprietà elementari

affine minore

Riconoscere una funzione convessa dalle sue derivate

Funzioni convesse in dimensione finita

Problemi di continuità

Funzione a valori vettoriali

Applicazioni fisiche Physi

Note e riferimenti

Vedi anche

Articoli Correlati

Bibliografia