Théorie de l'approximation

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources ().

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article concernant les mathématiques doit être recyclé ().

Une réorganisation et une clarification du contenu paraissent nécessaires. Améliorez-le, discutez des points à améliorer ou précisez les sections à recycler en utilisant {{section à recycler}}.

En mathématiques, la théorie de l'approximation concerne la façon dont les fonctions peuvent être approchées par de plus simples fonctions, en donnant une caractérisation quantitative des erreurs introduites par ces approximations.

Problématique

Le problème de l'approximation s'est posé très tôt en géométrie, pour les fonctions trigonométriques : ce sont des fonctions dont on connaît les propriétés (parité, dérivabilité, valeurs en des points particuliers) mais qui ne s'expriment pas à partir d'opérations réalisables à la main (les quatre opérations). Cela a conduit à la notion de développement en série. On a pu ainsi constituer des tables trigonométriques, puis, avec une démarche similaire, des tables logarithmiques, et de manière générale des tables pour les fonctions couramment utilisées en sciences comme la racine carrée.

Un problème particulièrement intéressant est celui de l'approximation de fonctions par d'autres définies uniquement à partir d'opérations de base d'un ordinateur, comme l'addition et la multiplication, afin de créer des bibliothèques de fonctions mathématiques qui à l'exécution produisent des valeurs les plus proches possibles des valeurs théoriques. C'est ce qui s'appelle l'approximation polynomiale ou rationnelle (c'est-à-dire par des fonctions rationnelles).

L'objectif est de donner une approximation aussi précise que possible d'une fonction réelle donnée, de façon à fournir des valeurs les plus exactes possibles, à la précision près de l'arithmétique en virgule flottante d'un ordinateur. Ce but est atteint en employant un polynôme de degré élevé, et/ou en rapetissant le domaine sur lequel le polynôme doit approcher la fonction. Le rapetissement du domaine peut souvent être effectué, bien que cela nécessite la composition par d'autres fonctions affines, de la fonction à approcher. Les bibliothèques mathématiques modernes réduisent souvent le domaine en le divisant en de multiples minuscules segments et emploient un polynôme de bas degré sur chaque segment.

Une fois le domaine et le degré du polynôme choisis, le polynôme lui-même est choisi de façon à minimiser l'erreur dans le pire des cas. Autrement dit, si f est la fonction réelle et P le polynôme devant approcher f, il faut minimiser la borne supérieure de la fonction | P f | {\displaystyle |P-f|} sur le domaine. Pour une fonction « convenable », un polynôme optimum de degré N est caractérisé par une courbe d'erreur dont la valeur oscille entre +ε et -ε et qui change de signe N + 1 fois, donnant une erreur dans les pires cas de ε. Il est possible de construire des fonctions f pour lesquelles cette propriété ne tient pas, mais dans la pratique elle est généralement vraie.

  • Erreur entre le polynôme optimal de degré 4 et le logarithme népérien ln (en rouge), et entre l'approximation de Tchebychev de ln (en bleu) sur l'intervalle [2, 4]. Le pas vertical est de 10−5. L'erreur maximale pour le polynôme optimal est de 6,07 × 10−5.
    Erreur entre le polynôme optimal de degré 4 et le logarithme népérien ln (en rouge), et entre l'approximation de Tchebychev de ln (en bleu) sur l'intervalle [2, 4]. Le pas vertical est de 10−5. L'erreur maximale pour le polynôme optimal est de 6,07 × 10−5.
  • Erreur entre le polynôme optimal de degré 4 et l'exponentielle e (en rouge), et entre l'approximation de Tchebychev et exp (en bleu) sur l'intervalle [−1, 1]. Le pas vertical est de 10−4. L'erreur maximale pour le polynôme optimal est de 5,47 × 10−4.
    Erreur entre le polynôme optimal de degré 4 et l'exponentielle e (en rouge), et entre l'approximation de Tchebychev et exp (en bleu) sur l'intervalle [−1, 1]. Le pas vertical est de 10−4. L'erreur maximale pour le polynôme optimal est de 5,47 × 10−4.

Dans chaque cas, le nombre d'extrema est de N + 2 c'est-à-dire 6. Deux des extrema sont les extrémités du segment. Les courbes en rouge, pour le polynôme optimal, sont de « niveau » c'est-à-dire qu'elles oscillent entre +ε et -ε exactement. Si un polynôme de degré N mène à une fonction d'erreur qui oscille entre les extrema N + 2 fois, alors ce polynôme est optimal.

Approximation par des polynômes

Énoncé

Soit f une fonction continue sur un intervalle réel fermé [a , b]. Soit P un polynôme de degré n.

On note ε = P f {\displaystyle \varepsilon =P-f} l'erreur d'approximation entre P et f.

S'il existe a x 0 < x 1 < < x n + 1 b {\displaystyle a\leq x_{0}<x_{1}<\cdots <x_{n+1}\leq b} et s { 1 , 1 } {\displaystyle s\in \{-1,\;1\}} tels que

i { 0 , , n + 1 } , ε ( x i ) = ( 1 ) i s P f {\displaystyle \forall i\in \{0,\ldots ,n+1\},\varepsilon (x_{i})=(-1)^{i}s\|P-f\|_{\infty }} ,

alors P est un polynôme d'approximation optimal de f parmi les polynômes de degré inférieur ou égal à n au sens de la norme sup sur [a , b] :

P = arg min Q R n [ X ] f S , [ a , b ] {\displaystyle P=\operatorname {arg} \min _{Q\in \mathbb {R} _{n}[X]}\|f-S\|_{\infty ,[a,b]}}
Démonstration

Commençons par le montrer sur un graphique. Posons N = 4 {\displaystyle N=4} . Supposons que P {\displaystyle P} soit un polynôme de degré n {\displaystyle n} possédant les propriétés ci-dessus, dans le sens que P f {\displaystyle P-f} oscille entre n + 2 {\displaystyle n+2} extrema de signes alternés, de + ε {\displaystyle +\varepsilon } à ε {\displaystyle -\varepsilon } .

La fonction erreur P f {\displaystyle P-f} pourrait ressembler au graphique rouge :
L'erreur P f {\displaystyle P-f} pour le polynôme de niveau est représentée en rouge, et l'erreur pour le prétendu meilleur polynôme est représentée en bleu.

P f {\displaystyle P-f} atteint n + 2 {\displaystyle n+2} extrema (dont deux se trouvent aux extrémités), qui ont la même grandeur en valeur absolue situés dans 6 intervalles sur le graphique ci-dessus.

Soit à présent Q {\displaystyle Q} , un polynôme d'approximation de degré n {\displaystyle n} optimal. Cela signifie que les extrema de sa fonction erreur doivent tous avoir en valeur absolue une valeur strictement plus petite que ε {\displaystyle \varepsilon } , de sorte qu'ils sont localisés strictement à l'intérieur du graphique d'erreur pour P {\displaystyle P} .

La fonction erreur pour Q {\displaystyle Q} pourrait avoir une représentation graphique ressemblant au graphique bleu ci-dessus. Cela signifie que ( P f ) ( Q f ) {\displaystyle (P-f)-(Q-f)} doit osciller entre des nombres non nuls strictement positifs et strictement négatifs, un nombre total de N + 2 {\displaystyle N+2} fois. Mais ( P f ) ( Q f ) {\displaystyle (P-f)-(Q-f)} est égale à P Q {\displaystyle P-Q} qui est un polynôme de degré n {\displaystyle n} . Il doit avoir au moins les n + 1 {\displaystyle n+1} racines situées entre différents points en lesquels la fonction polynomiale prend des valeurs non nulles. Or, dans un anneau intègre, un polynôme non nul de degré n {\displaystyle n} ne peut avoir plus de n {\displaystyle n} racines. Donc P Q {\displaystyle P-Q} est identiquement nul, c'est-à-dire que P = Q {\displaystyle P=Q} .

Approximation de Tchebychev

Il est possible d'obtenir des polynômes très proches d'un polynôme optimal en développant une fonction donnée avec des polynômes de Tchebychev puis en coupant le développement à un certain degré. Ce procédé est semblable au développement en séries de Fourier d'une fonction, en analyse de Fourier, mais en utilisant les polynômes de Tchebychev au lieu des fonctions trigonométriques habituelles.

On calcule les coefficients dans le développement de Tchebychev d'une fonction f :

f ( x ) n = 0 c n T n ( x ) {\displaystyle f(x)\simeq \sum _{n=0}^{\infty }c_{n}T_{n}(x)}

dont on ne garde que les N premiers termes de la série, ce qui donne un polynôme de degré N approchant la fonction f.

La raison pour laquelle ce polynôme est presque optimal est que, pour des fonctions admettant un développement en série entière, dont la série a une convergence rapide, l'erreur commise sur le développement au bout de N termes est approximativement égale au terme suivant immédiatement la coupure. C'est-à-dire que, le premier terme juste après la coupure domine la somme de toutes les termes suivants appelée reste de la série. Ce résultat subsiste si le développement se fait avec des polynômes de Tchebychev. Si un développement de Tchebychev est interrompu après TN, alors l'erreur sera proche du terme en TN + 1. Les polynômes de Tchebychev possèdent la propriété d'avoir une courbe représentative « au niveau », oscillant entre +1 et −1 dans l'intervalle [−1, 1]. Tn + 1 a n + 2 extrema. Cela signifie que l'erreur entre f et son approximation de Tchebychev jusqu'à un terme en Tn est une fonction ayant n + 2 extrema, dont les maxima (respectivement les minima) sont égaux, et est ainsi proche du polynôme optimal de degré n.

Dans les exemples graphiques ci-dessus, on peut voir que la fonction d'erreur représentée en bleu est parfois meilleure (lorsqu'elle reste en dessous) que la fonction représentée en rouge, mais plus mauvaise sur certains intervalles, ce qui signifie que ce n'est pas tout à fait le polynôme optimal. Cette différence est relativement moins importante pour la fonction exponentielle, dont la série entière est très rapidement convergente, que pour la fonction logarithme.

Systèmes de Tchebychev

Cette partie et les suivantes reposent principalement sur les ouvrages de Cheney[1] et de Powell[2].

Il est possible de généraliser la caractérisation de «meilleure approximation» avec des espaces de fonctions d'approximations qui ne sont pas des polynômes mais des fonctions standard. Cependant, de telles familles de fonctions se doivent d'avoir certaines bonnes propriétés qu'ont les polynômes. On parle alors de « polynômes généralisés ». Ces « polynômes » auront pour monômes des fonctions de base (que l'on considère agréables) qui satisfont les conditions de Haar.

Conditions de Haar

Une famille de fonctions { g 1 , , g n } {\displaystyle \{g_{1},\dots ,g_{n}\}} d'un intervalle [ a , b ] {\displaystyle [a,b]} dans R {\displaystyle \mathbb {R} } satisfait les conditions de Haar si et seulement si

  1. Toutes les fonctions g i {\displaystyle g_{i}} sont continues.
  2. Les fonctions g 1 , , g n {\displaystyle g_{1},\dots ,g_{n}} satisfont les conditions équivalentes suivantes :
    1. Pour tous x 1 , , x n [ a , b ] {\displaystyle x_{1},\dots ,x_{n}\in [a,b]} distincts | g 1 ( x 1 ) g n ( x 1 ) g 1 ( x n ) g n ( x n ) | 0 {\displaystyle \left|{\begin{matrix}g_{1}(x_{1})&\cdots &g_{n}(x_{1})\\\vdots &&\vdots \\g_{1}(x_{n})&\cdots &g_{n}(x_{n})\end{matrix}}\right|\neq 0}
    2. Pour tous x 1 , , x n [ a , b ] {\displaystyle x_{1},\dots ,x_{n}\in [a,b]} distincts, pour tous y 1 , , y n {\displaystyle y_{1},\dots ,y_{n}} , il existe un unique tuple ( α 1 , , α n ) {\displaystyle (\alpha _{1},\dots ,\alpha _{n})} tel que la fonction f = i = 1 n α i g i {\displaystyle f=\sum _{i=1}^{n}\alpha _{i}g_{i}} satisfasse i { 1 , , n } f ( x i ) = y i {\displaystyle \forall i\in \{1,\dots ,n\}\quad f(x_{i})=y_{i}}
    3. Les fonctions g 1 , , g n {\displaystyle g_{1},\dots ,g_{n}} sont linéairement indépendantes et x 0 {\displaystyle x\mapsto 0} est l'unique fonction de la forme x i = 1 n α i g i ( x ) {\displaystyle x\mapsto \sum _{i=1}^{n}\alpha _{i}g_{i}(x)} ayant strictement plus n 1 {\displaystyle n-1} racines [ a , b ] {\displaystyle [a,b]}

Une famille finie de fonctions g 1 , , g n C ( [ a , b ] ) {\displaystyle g_{1},\dots ,g_{n}\in {\mathcal {C}}([a,b])} satisfaisant les conditions de Haar est appelée un système de Tchebychev. Bien évidemment les monômes de degré échelonnés { 1 , X , X n 1 } {\displaystyle \{1,X,\dots X^{n-1}\}} forment un système de Tchebychev : les polynômes sont continus, la condition 2.1 est le déterminant de Vandermonde, la condition 2.2 est la caractérisation du polynôme d'interpolation et la condition 2.3 est le fait qu'un polynôme de degré fixé ne peut avoir plus de racine que son degré.

On peut aussi dire d'un sous-espace vectoriel E {\displaystyle E} de C ( [ a , b ] ) {\displaystyle {\mathcal {C}}([a,b])} de dimension n {\displaystyle n} satisfait les conditions de Haar si et seulement si ses bases sont des systèmes de Tchebychev.

Équivalence des caractérisations

La démonstration de l'équivalence des points 2.1, 2.2 et 2.3 se fera par implications circulaires.

2.1 ⇒ 2.2 Considérons x 1 , , x n [ a , b ] {\displaystyle x_{1},\dots ,x_{n}\in [a,b]} distincts et y 1 , , y n R {\displaystyle y_{1},\dots ,y_{n}\in \mathbb {R} } . Par l'hypothèse 2.1, on remarque en particulier que la matrice

M := ( g 1 ( x 1 ) g n ( x 1 ) g 1 ( x n ) g n ( x n ) ) {\displaystyle M:=\left({\begin{matrix}g_{1}(x_{1})&\cdots &g_{n}(x_{1})\\\vdots &&\vdots \\g_{1}(x_{n})&\cdots &g_{n}(x_{n})\end{matrix}}\right)} 7

est inversible. Il existe donc une unique solution à l'équation M ( a 1 , , a n ) T = ( y 1 , , y n ) T {\displaystyle M\cdot (a_{1},\dots ,a_{n})^{T}=(y_{1},\dots ,y_{n})^{T}} Or, cette dernière équation est équivalente à i { 1 , , n } j = 1 n a j g j ( x i ) = y i {\displaystyle \forall i\in \{1,\dots ,n\}\quad \sum _{j=1}^{n}a_{j}g_{j}(x_{i})=y_{i}} . Il vient ainsi l'existence et l'unicité d'un tuple ( α 1 , , α n ) {\displaystyle (\alpha _{1},\dots ,\alpha _{n})} tel que la f = i = 1 n α i g i {\displaystyle f=\sum _{i=1}^{n}\alpha _{i}g_{i}} interpole les yi en les xi.

2.2 ⇒ 2.3 La fonction nulle x 0 {\displaystyle x\mapsto 0} a clairement strictement plus de n - 1 racines entre a et b, car elle en a une infinité. Soit maintenant f = i = 1 n α i g i {\displaystyle f=\sum _{i=1}^{n}\alpha _{i}g_{i}} ayant n racines distinctes, notées x 1 , , x n {\displaystyle x_{1},\dots ,x_{n}} . La fonction nulle et f coïncident en ces points. Par la propriété 2.2, on a donc f = 0. Cela entraîne de plus que les gi sont linéairement indépendantes sinon on aurait duplicité de l'écriture de la fonction nulle, ce qui est interdit par l'hypothèse 2.2.

2.3 ⇒ 2.1 Soient x 1 , , x n [ a , b ] {\displaystyle x_{1},\dots ,x_{n}\in [a,b]} distincts. Supposons que la matrice M := ( g 1 ( x 1 ) g n ( x 1 ) g 1 ( x n ) g n ( x n ) ) {\displaystyle M:=\left({\begin{matrix}g_{1}(x_{1})&\cdots &g_{n}(x_{1})\\\vdots &&\vdots \\g_{1}(x_{n})&\cdots &g_{n}(x_{n})\end{matrix}}\right)} ne soit pas inversible. Alors ses colonnes sont linéairement dépendantes et donc il existe α 1 , , α n {\displaystyle \alpha _{1},\dots ,\alpha _{n}} tels que j { 1 , , n } i = 1 n α i g i ( x j ) = 0 {\displaystyle \forall j\in \{1,\dots ,n\}\quad \sum _{i=1}^{n}\alpha _{i}g_{i}(x_{j})=0} . Alors x 1 , , x n {\displaystyle x_{1},\dots ,x_{n}} sont racines de i = 1 n α i g i {\displaystyle \sum _{i=1}^{n}\alpha _{i}g_{i}} qui est donc nulle par la propriété 2.3. Toujours par cette propriété, il suit par indépendance des gi que i { 1 , , n } α i = 0 {\displaystyle \forall i\in \{1,\dots ,n\}\quad \alpha _{i}=0} ce qui est absurde. La matrice est donc inversible et son déterminant est donc non nul.

Exemples

On peut citer deux exemples de systèmes de Tchebychev :

  • Si λ 1 , , λ n {\displaystyle \lambda _{1},\dots ,\lambda _{n}} sont deux-à-deux distincts alors { e λ 1 x , , e λ n x } {\displaystyle \{\mathrm {e} ^{\lambda _{1}x},\dots ,\mathrm {e} ^{\lambda _{n}x}\}} forme un système de Tchebychev sur pour tout intervalle compact de R {\displaystyle \mathbb {R} } .
  • Si λ 1 , , λ n {\displaystyle \lambda _{1},\dots ,\lambda _{n}} sont deux-à-deux distincts et positifs alors { x λ 1 , , x λ n } {\displaystyle \{x^{\lambda _{1}},\dots ,x^{\lambda _{n}}\}} forme un système de Tchebychev sur pour intervalle compact de R {\displaystyle \mathbb {R} } .

Théorème d'alternance

Les systèmes de Tchebychev permettent de caractériser les meilleures approximations de fonctions continues étant des polynômes généralisés construites à partir des fonctions du-dit système.

Énoncé

Soit { g 1 , , g n } C ( [ a , b ] ) {\displaystyle \{g_{1},\dots ,g_{n}\}\subseteq {\mathcal {C}}([a,b])} un système de Tchebychev. Soit f C ( [ a , b ] ) {\displaystyle f\in {\mathcal {C}}([a,b])} une fonction continue. Soient p = i = 1 n α i g i {\displaystyle p^{*}=\sum _{i=1}^{n}\alpha _{i}^{*}g_{i}} un polynôme généralisé sur le système de Tchebychev et r = f p {\displaystyle r^{*}=f-p^{*}} l'erreur d'approximation. Alors p {\displaystyle p^{*}} est une meilleure approximation uniforme de f {\displaystyle f} , c'est-à-dire r = min p Vect ( g 1 , , g n ) f p {\displaystyle \|r^{*}\|_{\infty }=\min _{p\in {\textrm {Vect}}(g_{1},\dots ,g_{n})}{\|f-p\|_{\infty }}} , ssi il existe a x 0 < < x n b {\displaystyle a\leq x_{0}<\cdots <x_{n}\leq b} tels que r ( x i ) = ( 1 ) i r ( x 0 ) {\displaystyle r(x_{i})=(-1)^{i}r(x_{0})} et r ( x 0 ) = ± r {\displaystyle r(x_{0})=\pm \|r\|_{\infty }}

Remarque

Il est intéressant de noter que si le système de Tchebychev considéré est la base canonique de R n 1 [ X ] {\displaystyle \mathbb {R} _{n-1}[X]} alors cet énoncé est exactement celui du théorème dans le cas des polynômes.

Démonstration du théorème d'alternance

Théorème de caractérisation

La première chose à faire est de caractériser les meilleures approximations par des polynômes généralisés. On peut commencer par montrer qu'il suffit que l'origine de l'espace soit dans une certaine enveloppe convexe. Pour { g 1 , , g n } {\displaystyle \{g_{1},\dots ,g_{n}\}} un système de Tchebychev, On note x ^ = ( g 1 ( x ) , , g n ( x ) ) T {\displaystyle {\hat {x}}=(g_{1}(x),\dots ,g_{n}(x))^{T}} .

Soit { g 1 , , g n } C ( [ a , b ] ) {\displaystyle \{g_{1},\dots ,g_{n}\}\subseteq {\mathcal {C}}([a,b])} un système de Tchebychev. Soit f C ( [ a , b ] ) {\displaystyle f\in {\mathcal {C}}([a,b])} une fonction continue. Soient p = i = 1 n α i g i {\displaystyle p=\sum _{i=1}^{n}\alpha _{i}^{*}g_{i}} un polynôme généralisé sur le système de Tchebychev et r = f p {\displaystyle r=f-p} l'erreur d'approximation. Alors r est de norme minimale si et seulement si 0 est dans l'enveloppe convexe de { r ( x ) x ^   |   r ( x ) = r } {\displaystyle \{r(x){\hat {x}}\ |\ r(x)=\|r\|_{\infty }\}} .

Démonstration
Condition suffisante

Procédons par contraposée et supposons que r {\displaystyle \|r\|_{\infty }} ne soit pas minimale. Alors il est possible de trouver un polynôme généralisé satisfaisant une meilleure erreur d'approximation. Autrement dit, il existe d = ( d 1 , , d n ) {\displaystyle d=(d_{1},\dots ,d_{n})} tels que i = 1 n ( α i d i ) g i < r {\displaystyle \left\|\sum _{i=1}^{n}(\alpha _{i}^{*}-d_{i})g_{i}\right\|_{\infty }<\|r\|_{\infty }} .

Posons X = { x [ a , b ]   |   | r ( x ) | = r } {\displaystyle X=\{x\in [a,b]\ |\ |r(x)|=\|r\|_{\infty }\}} . Alors pour tout x X {\displaystyle x\in X} nous avons

| r ( x ) i = 1 n d i g i ( x ) | r i = 1 n d i g i = i = 1 n ( α i d i ) g i < r = | r ( x ) | {\displaystyle \left|r(x)-\sum _{i=1}^{n}d_{i}g_{i}(x)\right|\leq \left\|r-\sum _{i=1}^{n}d_{i}g_{i}\right\|_{\infty }=\left\|\sum _{i=1}^{n}(\alpha _{i}^{*}-d_{i})g_{i}\right\|_{\infty }<\|r\|_{\infty }=|r(x)|}

En passant les membres de l'inégalité au carré,

( r ( x ) i = 1 n d i g i ( x ) ) 2 < r ( x ) 2 {\displaystyle \left(r(x)-\sum _{i=1}^{n}d_{i}g_{i}(x)\right)^{2}<r(x)^{2}}

Puis, par développement

2 r ( x ) i = 1 n d i g i ( x ) > ( i = 1 n d i g i ( x ) ) 2 {\displaystyle 2r(x)\sum _{i=1}^{n}d_{i}g_{i}(x)>\left(\sum _{i=1}^{n}d_{i}g_{i}(x)\right)^{2}}

et

d , r ( x ) x ^ = r ( x ) i = 1 n d i g i ( x ) > 0 {\displaystyle \langle d,r(x){\hat {x}}\rangle =r(x)\sum _{i=1}^{n}d_{i}g_{i}(x)>0}

Il s'agit donc maintenant de montrer que 0 n'est pas dans l'enveloppe convexe de { r ( x ) x ^   |   x X } {\displaystyle \{r(x){\hat {x}}\ |\ x\in X\}} , qui est un sous-ensemble de R n {\displaystyle \mathbb {R} ^{n}} , et nous aurons alors démontré la contraposée. Supposons donc le contraire. Il existe x 1 , , x n X {\displaystyle x_{1},\dots ,x_{n}\in X} et a 1 , a n [ 0 , 1 ] {\displaystyle a_{1},\dots a_{n}\in [0,1]} tels que i = 1 n a i r ( x i ) x i ^ = 0 {\displaystyle \sum _{i=1}^{n}a_{i}r(x_{i}){\hat {x_{i}}}=0} et i = 1 n a i = 1 {\displaystyle \sum _{i=1}^{n}a_{i}=1} . Alors

0 = d , 0 = d , i = 1 n a i r ( x i ) x i ^ = i = 1 n a i d , r ( x i ) x i ^ > 0 {\displaystyle 0=\left\langle {d,0}\right\rangle =\left\langle {d,\sum _{i=1}^{n}a_{i}r(x_{i}){\hat {x_{i}}}}\right\rangle =\sum _{i=1}^{n}a_{i}\langle {d,r(x_{i}){\hat {x_{i}}}}\rangle >0}

Ceci est bien entendu absurde, CQFD.

Condition nécessaire

On procède également par contraposition. Supposons donc que 0 n'est pas dans l'enveloppe convexe C de l'ensemble { r ( x ) x ^   |   r ( x ) = r } = { r ( x ) x ^   |   x X } {\displaystyle \{r(x){\hat {x}}\ |\ r(x)=\|r\|_{\infty }\}=\{r(x){\hat {x}}\ |\ x\in X\}} . C est fermé car c'est une enveloppe convexe. Il est borné car { r ( x ) x ^   |   r ( x ) = r } {\displaystyle \{r(x){\hat {x}}\ |\ r(x)=\|r\|_{\infty }\}} 'est. En effet r et les gi sont continues et X est contenu dans un intervalle borné. C est donc fermé borné en dimension fini (contenu dans R n {\displaystyle \mathbb {R} ^{n}} ), il est donc compact. Ainsi 2 {\displaystyle \|\cdot \|_{2}} atteint un minimum sur C, disons en d C {\displaystyle d\in C} . En particulier d 0 {\displaystyle d\neq 0} . Soit u C {\displaystyle u\in C} quelconque et soit λ [ 0 , 1 ] {\displaystyle \lambda \in [0,1]} . Par convexité, λ u + ( 1 λ ) d C {\displaystyle \lambda u+(1-\lambda )d\in C} . Puis

λ u + ( 1 λ ) d 2 2 d 2 2 λ u + ( 1 λ ) d 2 2 d 2 2 0 λ 2 u d 2 2 + 2 λ u d , d 0 {\displaystyle {\begin{aligned}\|{\lambda u+(1-\lambda )d}\|_{2}^{2}&\geq &\|{d}\|_{2}^{2}\\\|{\lambda u+(1-\lambda )d}\|_{2}^{2}-\|{d}\|_{2}^{2}&\geq &0\\\lambda ^{2}\|{u-d}\|_{2}^{2}+2\lambda \langle {u-d,d}\rangle &\geq &0\end{aligned}}}

Pour λ {\displaystyle \lambda } suffisamment petit, cette inégalité est violée si u d , d < 0 {\displaystyle \langle {u-d,d}\rangle <0} . Donc u d , d 0 {\displaystyle \langle {u-d,d}\rangle \geq 0} . Donc pour tout u C {\displaystyle u\in C} , u , d = u d , d + d 2 2 d 2 2 > 0 {\displaystyle \langle {u,d}\rangle =\langle {u-d,d}\rangle +\|{d}\|_{2}^{2}\geq \|{d}\|_{2}^{2}>0} . X est un fermé contenu dans C, il est donc aussi compact. Par continuité de r et des gi, { d , r ( x ) x ^   |   x X } {\displaystyle \{\langle {d,r(x){\hat {x}}}\rangle \ |\ x\in X\}} admet un minimum, ϵ {\displaystyle \epsilon } . Par ce que nous venons de faire, ϵ > 0 {\displaystyle \epsilon >0} . Notons d = ( d 1 , , d n ) T {\displaystyle d=(d_{1},\dots ,d_{n})^{T}} . On va alors chercher μ > 0 {\displaystyle \mu >0} tel que r μ i = 1 n d i g i < r {\displaystyle \left\|{r-\mu \sum _{i=1}^{n}d_{i}g_{i}}\right\|_{\infty }<\|{r}\|_{\infty }} , ce qui conclura. Posons maintenant Y = { x [ a , b ] ]   |   d , r ( x ) x ^ ϵ 2 } {\displaystyle Y=\left\{x\in [a,b]]\ |\ \langle {d,r(x){\hat {x}}}\rangle \leq {\frac {\epsilon }{2}}\right\}} . Par définition, Y X = {\displaystyle Y\cap X=\emptyset } . Comme pour les autres, Y est encore compact. Soit donc R le maximum de |r| sur Y. On a alors R < r {\displaystyle R<\|{r}\|_{\infty }} sinon si y Y {\displaystyle y\in Y} satisfait le maximum alors y X {\displaystyle y\in X} , ce qui est absurde. Alors, si x Y {\displaystyle x\in Y} ,

x Y , | r ( x ) μ i = 1 n d i g i ( x ) | | r ( x ) | + μ | i = 1 n d i g i ( x ) | R + μ i = 1 n d i g i {\displaystyle \forall x\in Y,\,\left|r(x)-\mu \sum _{i=1}^{n}d_{i}g_{i}(x)\right|\leq |r(x)|+\mu \left|\sum _{i=1}^{n}d_{i}g_{i}(x)\right|\leq R+\mu \left\|{\sum _{i=1}^{n}d_{i}g_{i}}\right\|_{\infty }}

Si maintenant x Y {\displaystyle x\notin Y} alors

| r ( x ) μ i = 1 n d i g i ( x ) | 2 = r ( x ) 2 2 μ i = 1 n d i r ( x ) g i ( x ) + μ 2 ( i = 1 n d i g i ( x ) ) 2 r 2 2 μ d , r ( x ) x ^ + μ 2 ( i = 1 n d i g i ( x ) ) 2 r 2 2 μ ϵ 2 + μ 2 ( i = 1 n d i g i ( x ) ) 2 car   x Y r 2 + μ ( ϵ + μ i = 1 n d i g i 2 ) {\displaystyle {\begin{aligned}\left|r(x)-\mu \sum _{i=1}^{n}d_{i}g_{i}(x)\right|^{2}&=&r(x)^{2}-2\mu \sum _{i=1}^{n}d_{i}r(x)g_{i}(x)+\mu ^{2}\left(\sum _{i=1}^{n}d_{i}g_{i}(x)\right)^{2}\\&\leq &\|{r}\|_{\infty }^{2}-2\mu \langle {d,r(x){\hat {x}}}\rangle +\mu ^{2}\left(\sum _{i=1}^{n}d_{i}g_{i}(x)\right)^{2}\\&\leq &\|{r}\|_{\infty }^{2}-2\mu {\frac {\epsilon }{2}}+\mu ^{2}\left(\sum _{i=1}^{n}d_{i}g_{i}(x)\right)^{2}&{\textrm {car}}\ x\notin Y\\&\leq &\|{r}\|_{\infty }^{2}+\mu \left(-\epsilon +\mu \left\|{\sum _{i=1}^{n}d_{i}g_{i}}\right\|_{\infty }^{2}\right)\end{aligned}}}

Alors pour 0 < μ < min ( r R 2 i = 1 n d i g i , ϵ 2 i = 1 n d i g i 2 ) {\displaystyle 0<\mu <\min \left({\frac {\|{r}\|_{\infty }-R}{2\|{\sum _{i=1}^{n}d_{i}g_{i}}\|_{\infty }}},{\frac {\epsilon }{2\|{\sum _{i=1}^{n}d_{i}g_{i}}\|_{\infty }^{2}}}\right)} , on a

| r ( x ) μ i = 1 n d i g i ( x ) | < r + R 2 pour   x Y | r ( x ) μ i = 1 n d i g i ( x ) | 2 < r 2 μ ϵ 2 pour   x Y {\displaystyle {\begin{aligned}\left|r(x)-\mu \sum _{i=1}^{n}d_{i}g_{i}(x)\right|&<&{\frac {\|{r}\|_{\infty }+R}{2}}&\quad {\textrm {pour}}\ x\in Y\\\left|r(x)-\mu \sum _{i=1}^{n}d_{i}g_{i}(x)\right|^{2}&<&\|{r}\|_{\infty }^{2}-{\frac {\mu \epsilon }{2}}&\quad {\textrm {pour}}\ x\notin Y\end{aligned}}}

Ainsi, r μ i = 1 n d i g i < r {\displaystyle \left\|{r-\mu \sum _{i=1}^{n}d_{i}g_{i}}\right\|_{\infty }<\|{r}\|_{\infty }} , et r {\displaystyle r} n'est donc pas minimale.

Lemme d'alternance

Il vient un lien entre le fait que 0 soit dans une enveloppe convexe et qu'il y ait l'alternance de signe.

Soit { g 1 , , g n } C ( [ a , b ] ) {\displaystyle \{g_{1},\dots ,g_{n}\}\subseteq {\mathcal {C}}([a,b])} un système de Tchebychev. Soient a x 0 < < x n b {\displaystyle a\leq x_{0}<\cdots <x_{n}\leq b} et des constantes non λ 0 , , λ n R {\displaystyle \lambda _{0},\dots ,\lambda _{n}\in \mathbb {R} ^{*}} . Alors 0 est dans l'enveloppe convexe de { λ i x i ^   |   i { 1 , , n } } {\displaystyle \{\lambda _{i}{\hat {x_{i}}}\ |\ i\in \{1,\dots ,n\}\}} si et seulement si pour i { 1 , , n } {\displaystyle i\in \{1,\dots ,n\}} nous avons λ i λ i 1 < 0 {\displaystyle \lambda _{i}\lambda _{i-1}<0} .

Démonstration du lemme

Posons pour commencer pour x 1 < < x n {\displaystyle x_{1}<\cdots <x_{n}} le déterminant

D ( x 1 , , x n ) = | g 1 ( x 1 ) g n ( x 1 ) g 1 ( x n ) g n ( x n ) | {\displaystyle D(x_{1},\dots ,x_{n})=\left|{\begin{matrix}g_{1}(x_{1})&\cdots &g_{n}(x_{1})\\\vdots &&\vdots \\g_{1}(x_{n})&\cdots &g_{n}(x_{n})\end{matrix}}\right|} .

Nous allons montrer que ces déterminants sont tous strictement positifs ou tous strictement négatifs. Pour commencer, ils sont non nuls car le système { g 1 , , g n } {\displaystyle \{g_{1},\dots ,g_{n}\}} satisfait les conditions de Haar. Supposons sont que pour x 1 < < x n {\displaystyle x_{1}<\cdots <x_{n}} et y 1 < < y n {\displaystyle y_{1}<\cdot <y_{n}} nous ayons

D ( x 1 , , x n ) < 0 < D ( y 1 , , y n ) {\displaystyle D(x_{1},\dots ,x_{n})<0<D(y_{1},\dots ,y_{n})} . Alors par le théorème des valeurs intermédiaires appliqué à λ D ( λ x 1 + ( 1 λ ) y 1 , , λ x n + ( 1 λ ) y n ) {\displaystyle \lambda \mapsto D(\lambda x_{1}+(1-\lambda )y_{1},\dots ,\lambda x_{n}+(1-\lambda )y_{n})} , on a l'existence de λ [ 0 , 1 ] {\displaystyle \lambda \in [0,1]} tel que D ( λ x 1 + ( 1 λ ) y 1 , , λ x n + ( 1 λ ) y n ) = 0 {\displaystyle D(\lambda x_{1}+(1-\lambda )y_{1},\dots ,\lambda x_{n}+(1-\lambda )y_{n})=0} , ce qui est impossible par les conditions de Haar. Ainsi, tous ces déterminants ont le même signe.

Dès lors, 0 est dans l'enveloppe convexe des λ i x i ^ {\displaystyle \lambda _{i}{\hat {x_{i}}}} si et seulement si il existe α 0 , , α n [ 0 , 1 ] {\displaystyle \alpha _{0},\dots ,\alpha _{n}\in [0,1]} tels que 0 = i = 0 n α i λ i x i ^ {\displaystyle 0=\sum _{i=0}^{n}\alpha _{i}\lambda _{i}{\hat {x_{i}}}} et i = 0 n α i = 1 {\displaystyle \sum _{i=0}^{n}\alpha _{i}=1} . Si α 0 = 0 {\displaystyle \alpha _{0}=0} alors i = 1 n α i λ i x i ^ = 0 {\displaystyle \sum _{i=1}^{n}\alpha _{i}\lambda _{i}{\hat {x_{i}}}=0} . Or par les conditions de Haar, les λ i x i ^ {\displaystyle \lambda _{i}{\hat {x_{i}}}} forment une base de l'espace R n {\displaystyle \mathbb {R} ^{n}} et donc tous les α i {\displaystyle \alpha _{i}} sont nuls, ce qui n'est pas car leur somme vaut 1. Donc α 0 0 {\displaystyle \alpha _{0}\neq 0} . De même, pour tout i, α i 0 {\displaystyle \alpha _{i}\neq 0} . En particulier, x 0 ^ = i = 1 n λ i α i λ 0 α 0 x i ^ {\displaystyle {\hat {x_{0}}}=\sum _{i=1}^{n}{\frac {-\lambda _{i}\alpha _{i}}{\lambda _{0}\alpha _{0}}}{\hat {x_{i}}}} . En résolvant ce système linéaire par les règles de Cramer, on a

λ i α i λ 0 α 0 = D ( x 1 , , x i 1 , x 0 , x i + 1 , , x n ) D ( x 1 , , x n ) = ( 1 ) i 1 D ( x 0 , , x i 1 , x i + 1 , , x n ) D ( x 1 , , x n ) {\displaystyle {\frac {-\lambda _{i}\alpha _{i}}{\lambda _{0}\alpha _{0}}}={\frac {D(x_{1},\dots ,x_{i-1},x_{0},x_{i+1},\dots ,x_{n})}{D(x_{1},\dots ,x_{n})}}={\frac {(-1)^{i-1}D(x_{0},\dots ,x_{i-1},x_{i+1},\dots ,x_{n})}{D(x_{1},\dots ,x_{n})}}}

Puis,

λ i λ 0 = ( 1 ) i D ( x 0 , , x i 1 , x i + 1 , , x n ) α 0 D ( x 1 , , x n ) α i {\displaystyle {\frac {\lambda _{i}}{\lambda _{0}}}={\frac {(-1)^{i}D(x_{0},\dots ,x_{i-1},x_{i+1},\dots ,x_{n})\alpha _{0}}{D(x_{1},\dots ,x_{n})\alpha _{i}}}}

Les déterminants sont tous du même signe, les α i {\displaystyle \alpha _{i}} sont strictement positifs. Donc sgn λ i = ( 1 ) i sgn λ 0 {\displaystyle {\textrm {sgn}}\lambda _{i}=(-1)^{i}{\textrm {sgn}}\lambda _{0}} , c'est-à-dire que les λ i {\displaystyle \lambda _{i}} alternent en signe, ou encore que pour tout i { 1 , , n } {\displaystyle i\in \{1,\dots ,n\}} , λ i λ i 1 < 0 {\displaystyle \lambda _{i}\lambda _{i-1}<0} (car ils sont non nuls).

Démonstration du théorème d'alternance

Nous allons maintenant utiliser le théorème et le lemme précédemment démontrés pour prouver le théorème d'alternance. Nous prenons les notations de l'énoncé.

Nous avons que p* est la meilleure approximation de f pour la norme uniforme si et seulement si r* est de norme uniforme minimale. Par le théorème de caractérisation, cela est vrai si et seulement si 0 est dans l'enveloppe convexe des { r ( x ) x ^   |   x X } {\displaystyle \{r(x){\hat {x}}\ |\ x\in X\}} . Il existe donc x 0 , , x k X {\displaystyle x_{0},\dots ,x_{k}\in X} et α 0 , α k [ 0 , 1 ] {\displaystyle \alpha _{0},\dots \alpha _{k}\in [0,1]} avec k n {\displaystyle k\leq n} tels que 0 = i = 1 k α i r ( x i ) x i ^ {\displaystyle 0=\sum _{i=1}^{k}\alpha _{i}r(x_{i}){\hat {x_{i}}}} , ceci viole les conditions de Haar si k < n. Donc nous avons k = n {\displaystyle k=n} . Quitte à ré-indicer, on prend les x i {\displaystyle x_{i}} dans l'ordre croissant a x 0 < < x n b {\displaystyle a\leq x_{0}<\cdots <x_{n}\leq b} . Par les conditions de Haar, comme dans le lemme, les α i r ( x i ) {\displaystyle \alpha _{i}r(x_{i})} sont tous non nuls. On applique donc le lemme et l'alternance de signe. Comme les α i {\displaystyle \alpha _{i}} sont positifs, ce sont les r ( x i ) {\displaystyle r(x_{i})} qui alternent de signe. Ceci conclut donc la preuve.

Unicité de la meilleure approximation

Jusqu'ici, nous avons caractérisé ce qu'est une meilleure approximation. Nous allons maintenant montrer que la meilleure approximation existe et est unique.

Énoncé

Soit { g 1 , , g n } C ( [ a , b ] ) {\displaystyle \{g_{1},\dots ,g_{n}\}\subseteq {\mathcal {C}}([a,b])} un système de Tchebychev. Soit f C ( [ a , b ] ) {\displaystyle f\in {\mathcal {C}}([a,b])} une fonction continue. Alors il existe une unique meilleure approximation de f {\displaystyle f} dans Vect ( g 1 , , g n ) {\displaystyle {\textrm {Vect}}(g_{1},\dots ,g_{n})} .

Démonstration

Commençons par l'unicité. Supposons donc que p {\displaystyle p} et q {\displaystyle q} sont des meilleures approximations pour f {\displaystyle f} . Nous avons donc que f p = f q {\displaystyle \|{f-p}\|_{\infty }=\|{f-q}\|_{\infty }} et cette norme est minimale. Or nous avons alors f p + q 2 f p {\displaystyle \left\|{f-{\frac {p+q}{2}}}\right\|_{\infty }\leq \|{f-p}\|_{\infty }} . Donc r = p + q 2 {\displaystyle r={\frac {p+q}{2}}} est encore une meilleure approximation. Soient x 0 < < x n {\displaystyle x_{0}<\cdots <x_{n}} donnés par le théorème d'alternance pour r {\displaystyle r} . Supposons que p ( x i ) q ( x i ) {\displaystyle p(x_{i})\neq q(x_{i})} . Alors au moins l'un des deux ne vaut pas r ( x i ) {\displaystyle r(x_{i})} , disons quitte à renommer q ( x i ) {\displaystyle q(x_{i})} , et donc | f ( x i ) q ( x i ) | < f r {\displaystyle |f(x_{i})-q(x_{i})|<\|{f-r}\|_{\infty }} . On a

f r = | f ( x i ) r ( x i ) | 1 2 | f ( x i ) p ( x i ) | + 1 2 | f ( x i ) q ( x i ) | < f r {\displaystyle \|{f-r}\|_{\infty }=|f(x_{i})-r(x_{i})|\leq {\frac {1}{2}}|f(x_{i})-p(x_{i})|+{\frac {1}{2}}|f(x_{i})-q(x_{i})|<\|{f-r}\|_{\infty }} . Ceci est absurde. Donc r ( x i ) = p ( x i ) = q ( x i ) {\displaystyle r(x_{i})=p(x_{i})=q(x_{i})} . Donc p q {\displaystyle p-q} à n + 1 {\displaystyle n+1} zéros distincts. Donc par les conditions de Haar, nous obtenons qu'elle est identiquement nulle et donc que p = q {\displaystyle p=q} . Nous avons donc l'unicité.

Procédons maintenant à la démonstration de l'existence. Considérons F = { p Vect ( g 1 , , g n )   |   p 2 f } {\displaystyle F=\{p\in {\textrm {Vect}}(g_{1},\dots ,g_{n})\ |\ \|{p}\|_{\infty }\leq 2\|{f}\|_{\infty }\}} . Cet ensemble est clairement fermé et borné. Il est non vide puisque la fonction nulle est dans F {\displaystyle F} et Vect ( g 1 , , g n ) {\displaystyle {\textrm {Vect}}(g_{1},\dots ,g_{n})} est de dimension finie. Donc F {\displaystyle F} est compact. Ainsi p f p {\displaystyle p\mapsto \|{f-p}\|_{\infty }} étant continue sur F {\displaystyle F} , elle y atteint un minimum, disons en p {\displaystyle p^{*}} . Or, si p {\displaystyle p} est la meilleure approximation de f {\displaystyle f} alors p f f p f {\displaystyle \|{p}\|_{\infty }-\|{f}\|_{\infty }\leq \|{f-p}\|_{\infty }\leq \|{f}\|_{\infty }} par inégalité triangulaire. Donc p F {\displaystyle p\in F} . Donc p {\displaystyle p^{*}} est bien une meilleure approximation pour f {\displaystyle f} .

Voir aussi


  • Cet article est partiellement ou en totalité issu de l'article intitulé « Théorie de l'approximation/Démonstrations » (voir la liste des auteurs).

Sources

  1. (en) CHENEY E.W., Introduction to approximation theory,
  2. (en) POWEL M.J.D., Approximation theory and methods, Cambridge Univetrsity Press,
  • icône décorative Portail de l'analyse