Notes à l’usage des étudiants de 3ème année de bachelier en sciences économiques et de gestion Année académique 2013-2014 i Préambule En parallèle… [615626]
Econométrie
Bernard Lejeune
HEC-Université de Liège
Notes à l’usage des étudiants de 3ème année de
bachelier en sciences économiques et de gestion
Année académique 2013-2014
i
Préambule
En parallèle des présentes notes de cours, les étudiants son t invités à lire:
Hill R.C., Griffiths W.E. et Lim G.C. (2008), Principles of Econometrics , Third
Edition, John Wiley & Sons.
D’autres ouvrages peuvent aussi utilement être consultés:
GriffithsW.E.,HillR.C.,JudgeG.G.(1993), Learning and Practicing Econometrics ,
John Wiley & Sons.
Wooldridge J.M. (2006), Introductory Econometrics: A Modern Approach , Fourth
Edition, South-Western.
JohnstonJ.etDiNardoJ.(1997), Econometrics Methods ,FourthEdition,McGraw-
Hill.
Les étudiants qui souhaitent en savoir plus pourront consul ter:
Goldberger A.S. (1991), A Course in Econometrics , Harvard University Press.
Wooldridge J.M. (2010), Econometric Analysis of Cross-Section and Panel Data ,
Second Edition, MIT Press.
Cameron A.C. et Trivedi P.K. (2005), Microeconometrics: Methods and Applica-
tions, Cambridge University Press.
Hamilton J.D. (1994), Time Series Analysis , Princeton University Press.
ii
Table des matières
1 Introduction 1
1.1 Economie et économétrie 1
1.2 Le modèle de régression 1
1.3 L’approche économétrique 3
1.4 Rappel de théorie des probabilités 4
2 Le modèle de régression linéaire simple 5
2.1 Du modèle économique au modèle économétrique 5
2.1.1 Un modèle économique 5
2.1.2 Construction du modèle économétrique I: la droite de
régression 5
2.1.3 Construction du modèle économétrique II: hypothèses
complémentaires 9
2.1.4 Introduction d’un terme d’erreur 10
2.2 Estimation des paramètres du modèle 13
2.2.1 L’estimateur des moindres carrés ordinaires 13
2.2.2 L’estimateur du maximum de vraisemblance 16
2.2.3 Exemple: estimation d’une fonction de consommation 1 9
2.3 Ecriture matricielle du modèle et de l’estimateur MCO 21
2.3.1 Vecteurs aléatoires: notations et propriétés 21
2.3.2 Le modèle et ses hypothèses sous forme matricielle 26
iii
2.3.3 L’estimateur MCO sous forme matricielle 27
2.3.4 Résultats complémentaires 29
3 Propriétés de l’estimateur MCO 31
3.1 La distribution d’échantillonnage de l’estimateur MCO 31
3.1.1 L’espérance de ˆβ 32
3.1.2 La matrice de variance-covariance de ˆβ 33
3.1.3 Les facteurs déterminant V(ˆβ) 34
3.2 Le théorème Gauss-Markov 35
3.2.1 Estimateurs linéaires de β 36
3.2.2 Le meilleur estimateur linéaire sans biais de β 37
3.3 La distribution d’échantillonnage de ˆβsous l’hypothèse de
normalité 39
3.4 Propriétés de ˆβen grand échantillon: convergence et normalité
asymptotique 39
3.4.1 Convergence 39
3.4.2 Distribution asymptotique 41
3.5 Estimation de σ2et deV(ˆβ) 41
3.5.1 Estimateur de σ242
3.5.2 Estimateur de V(ˆβ) 43
3.5.3 Exemple: la fonction de consommation de HGL (2008) 44
4 Intervalle de confiance et test d’hypothèse 45
4.1 Intervalles de confiance pour β1etβ2 45
4.1.1 Cas où σ2est connu 45
4.1.2 Cas où σ2est inconnu 48
4.1.3 Exemple: la fonction de consommation de HGL (2008) 51
4.2 Tests d’hypothèses de β1etβ2 51
iv
4.2.1 Cas où σ2est connu 52
4.2.2 Cas où σ2est inconnu 60
4.2.3 Terminologie et précisions d’interprétation 64
4.2.4 Exemple: la fonction de consommation de HGL (2008) 66
4.3 Intervalle de confiance, test d’hypothèse et non-normal ité 67
5 Prévision, R2, unités de mesure et forme fonctionnelle 70
5.1 Prévision 70
5.1.1 Prévision de l’espérance de ysachantx0 71
5.1.2 Prévision de la valeur de ysachantx0 76
5.1.3 Exemple: la fonction de consommation de HGL (2008) 81
5.2 Le coefficient de détermination: R282
5.2.1R2et corrélation 85
5.3 Unités de mesure 85
5.4 Forme fonctionnelle 89
5.4.1 Le modèle lin-log 89
5.4.2 Le modèle log-lin 90
5.4.3 Le modèle log-log 92
5.4.4 Remarques 93
6 Le modèle de régression linéaire
multiple 96
6.1 Du modèle économique au modèle économétrique 96
6.1.1 Un modèle économique 96
6.1.2 Le modèle économétrique 96
6.1.3 Formulation générale du modèle et de ses hypothèses so us
forme matricielle 101
6.2 Estimation MCO des paramètres du modèle 103
v
6.3 Propriétés de l’estimateur MCO 104
6.3.1 Propriétés d’échantillonnage 104
6.3.2 Estimateur de σ2et deV(ˆβ) 107
6.4 Intervalles de confiance et tests d’hypothèse de βj 108
6.5 Prévision et intervalles de prévision 111
6.6 Exemple: les ventes d’une chaîne de fast-food de HGL (200 8) 113
6.7 Le coefficient de détermination multiple: R2117
6.8 Unités de mesure 118
6.9 Forme fonctionnelle 118
6.9.1 Régression polynomiale 120
7 Test de Fisher, colinéarité et problèmes
de spécification 123
7.1 Le test de Fisher ( F-test) 123
7.1.1 La procédure de test 125
7.1.2F-test et non-normalité 132
7.1.3 Cas particuliers du F-test 135
7.1.4 Test joint versus tests individuels 140
7.2 Exemple: les ventes d’une chaîne de fast-food de HGL (200 8) 144
7.3 Colinéarité 147
7.4 Problèmes de spécification 150
7.4.1 Forme fonctionnelle 150
7.4.2 Variables omises 152
7.4.3 Hétéroscédasticité et auto-corrélation 156
7.4.4 Non-normalité 164
7.4.5 Régresseurs stochastiques 165
8 Variables binaires et modèle logit/probit 169
vi
8.1 Variables explicatives binaires 169
8.1.1 Comparaison de deux moyennes 169
8.1.2 Comparaison de plusieurs moyennes 171
8.1.3 Plusieurs critères de classification 172
8.1.4 Modifications d’intercept et/ou de pente dans une
régression standard 174
8.2 Variables binaires dépendantes 176
8.2.1 Le modèle de probabilité linéaire 178
8.2.2 Les modèles logit et probit I: spécification 180
8.2.3 Les modèles logit et probit II: estimateur du maximum
de vraisemblance 184
8.2.4 Les modèles logit et probit III: inférence 191
1
Chapitre1
Introduction
1.1. Economie et économétrie
L’objetdelathéorieéconomiqueestd’expliquerlescompor tementséconomiques
au travers de modèles décrivant des relations entre des vari ables économiques: con-
sommation, épargne, revenu, salaire, production, prix, em ploi, investissement, taux
d’intérêt, etc…
L’économétrie est un ensemble de méthodes statistiques con çues pour évaluer
des relations empiriques – càd. que l’on peut observer dans des données – entre
des variables, en particulier des relations suggérées par l a théorie économique.
Un outil central de l’économétrie est le modèle de régression . La plus grande
partie du présent cours est consacrée à l’étude des différent es facettes de ce modèle.
1.2. Le modèle de régression
En bref, le modèle de régression s’efforce de décrire la façon dont la valeur
moyenne prise par une variable, appelée variable dépendante ,expliquée ou encore
endogène, varie en fonction des valeurs prises par une ou plusieurs au tre(s) vari-
able(s), appelée(s) variable(s) conditionnante(s) ,indépendante(s) ,explicative(s) ou
encoreexogène(s) .
Il est important de noter que le choix du sens de la causalité e ntre ces variables
est un choix à priori. Il n’est pas déterminé par l’outil stat istique. Au demeurant,
il peut très bien exister une relation entre des variables sa ns qu’il y ait pour autant
une quelconque causalité.
Le modèle de régression permet:
1-de représenter et de quantifier des relations entre variab les,
2-defairedesprévisions,enparticulierde l’effet marginal d’unevariable,lesautres
variables étant maintenues constantes (effet d’une variabl eceteris paribus , càd.
2
toutes autres choses étant égales),
3-de tester des théories.
Ces différents aspects ne sont évidemment pas sans liens.
Le modèle de régression, et de façon plus générale l’économé trie, s’appuie sur:
1-l’économiemathématique,entantquepourvoyeurdesrela tionsformaliséesentre
variables,
2-un ensemble d’outils issus de la théorie des probabilités et de l’inférence statis-
tique,
3-des données. Parmi les données, on distingue:
a-lesdonnées en coupe ou données individuelles. Ces données sont consti-
tuéesd’unensembledevariables(destocket/oudeflux)mesu réesaucours
d’une même période de temps pour des unités statistiques dis tinctes (des
individus, des ménages, des firmes, des pays, etc…). Elles sont générale-
ment notées:
xi, i=1,…,n
Il s’agit typiquement de données de nature microéconomique , issues
d’enquêtes.
b-lesdonnées chronologiques ou séries temporelles. Ces données sont consti-
tuéesd’unensembledevariablesmesuréespourunemêmeunit éstatistique
au cours du temps. Elles sont généralement notées:
xt, t=1,…,T
Il s’agit typiquement de données de nature macroéconomique , issues des
comptes nationaux.
c-lesdonnées en panel . Ces données combinent les deux types de données
précédents. Elles sont constituées d’un ensemble de variab les mesurées
pour des unités statistiques distinctes au cours de plusieu rs périodes suc-
cessives. Elles sont généralement notées:
xit, i=1,…,n, t=1,…,T
Il s’agit souvent de données de nature microéconomique, iss ues
d’enquêtes.
On notera que les données en panel, et encore davantage les sé ries temporelles,
soulèvent des problèmes, et donc appellent à des développem ents techniques spéci-
fiques, qui seront ignorés dans le cadre de ce cours d’introdu ction.
On remarquera également que, dans presque tous les cas, les d onnées à disposi-
tiondeséconomètressont non-expérimentales : ilestimpossibledemodifierdefaçon
expérimentalele revenu d’un ménagepourvérifiersi ilajust e ounon, etdecombien,
son niveau de consommation. Il en est évidemment de même pour des variables
de type macroéconomique. Pour étudier une relation, l’écon omètre doit presque
3
toujours se contenter de données observables (dans l’exemp le ci-avant, les couples
revenu-consommation de différents ménages) sur lesquelles il n’a aucun contrôle de
type expérimental.
1.3. L’approche économétrique
Une analyse économétrique débute toujours par l’identifica tion d’une (ou
plusieurs) relation(s) entre variables, suggérée(s) par l a théorie économique, et dont
la connaissance quantitative apporterait des éléments de r éponse à la question que
l’on se pose. Par exemple, si l’on s’interroge sur la propens ion marginale à con-
sommer des biens culturels des ménages, on s’intéressera na turellement à la relation
entre consommation de biens culturels (les dépenses des mén ages en la matière) et
revenu d’un ménage:
Cons=f(revenu)
Une fois la relation d’intérêt identifiée, l’approche écono métrique consiste en la
construction d’un modèle probabiliste de cette relation, comprenant comme ingré-
dients essentiels des variables aléatoires (v.a.) et des pa ramètres (par., inconnus à
priori), pour l’exemple ci-dessus1:
E(Cons
↓
v.a.|revenu
↓
v.a.)=β1
↓
par.+β2
↓
par.revenu
↓
v.a.⇔Cons
↓
v.a.=β1
↓
par.+β2
↓
par.revenu
↓
v.a.+e
↓
v.a.,
ce modèle probabiliste étant tel que les données (les observ ations) dont on dispose
peuvent être considérées (pour des raisons d’échantillonn age et/ou de modélisation)
comme des réalisations particulières des variables aléatoires du modèle, pour une
certaine valeur des paramètres inconnus. En somme, cela rev ient à regarder les
observations dont on dispose comme le résultat d’une loteri e, les règles de la loterie
étant définie par la structure du modèle et la valeur de ses par amètres.
Sur cette base, en utilisant des outils statistiques approp riés, on pourra:
1-estimer les paramètres inconnus du modèle et évaluer la pr écision de ces estima-
tions (quantification de la relation d’intérêt),
2-testerdeshypothèseséconomiquesliéesauxparamètresd umodèle(dansl’exem-
ple ci-dessus, pour tester si la propension marginale à cons ommer est inférieur
à 1, on testera si β2<1),
3-faire des prévisions et évaluer la précision de ces prévis ions,
4-testerl’adéquationdumodèleprobabiliste(seshypothè sesstatistiques)auxdon-
nées.
1sous la forme générique d’un modèle de régression.
4
1.4. Rappel de théorie des probabilités
Avant d’entrer dans le vif du sujet, les étudiants sont invit és à rafraîchir leurs
connaissancesrelativesàunesériedeconceptsdebasedela théoriedesprobabilités:
•Variables aléatoires et distributions de probabilité (cas discret et cas continu).
•Espérance et variance d’une variable aléatoire, propriété s de l’espérance et de la
variance.
•Couples de variables aléatoires:
—loi jointe, marginale et conditionnelle.
—espérance et variance conditionnelle.
—indépendance, covariance et corrélation.
—espérance et variance de combinaisons linéaires.
•Lois usuelles:
—loi de Bernouilli.
—loi normale.
—loi du khi-carré ( χ2).
—loi de Student ( t).
—loi de Fisher(-Snedecor) ( F).
Un résumé de ces concepts est fourni dans l’annexe B de l’ouvr age de Hill,
Griffiths etLim(2008), dont laréférence estdonnée dans le Pr éambuledeces notes.
5
Chapitre2
Le modèle de régression linéaire simple
2.1. Du modèle économique au modèle
économétrique
2.1.1. Un modèle économique
Supposons qu’on s’intéresse à la relation entre consommati on et revenu. De
Keynes(1936)2: “enmoyenneetlaplupartdutemps,leshommestendentàaccr oître
leur consommation à mesure que leur revenu croît, mais non d’ une quantité aussi
grande que l’accroissement du revenu”. De façon formelle, c ette assertion peut être
décrite par la relation théorique:
y=f(x),avec0<dy
dx<1,
oùy=la consommation et x=le revenu.
2.1.2. Construction du modèle économétrique I: la droite de
régression
On cherche une contrepartie empirique de la relation théorique y=f(x), une
contrepartie empirique prenant la forme d’un modèle probabiliste paramétré .
L’essence de l’approche économétrique, et de façon plus gén érale de toute la
statistique inférentielle, est de regarder les données don t on dispose comme des réa-
lisations particulières de variables aléatoires. Construire un modèle économétriq ue
de la relation d’intérêt implique donc de s’interroger sur l a façon dont les données
sont obtenues, générées.
2Keynes, J. M. (1936), The General Theory of Employment, Interest and Money , Palgrave Macmillan.
6
A. Données en coupe
Lesdonnéesencoupesontgénéralementobtenuespartirages aléatoiresd’indivi-
dus au sein d’une population, ou peuvent à tout le moins génér alement être consi-
dérées comme telles. Dans notre exemple, de telles données s eraient constituées par
les valeurs du couple (x,y)du revenu et de la consommation d’un échantillon de
ménages tirés au hasard dans une population.
Au travers de l’épreuve aléatoire ‘tirer un individu au hasa rd dans la population
et noter la valeur de son revenu xet de sa consommation y’, on peut représenter
la population par une distribution de probabilité jointe f(x,y), inconnue et à priori
complexe, qui correspond à la distribution de fréquence des couples de variables
(x,y)dans la population.
Lorsqu’on cherche à expliquer yen fonction de x, l’information pertinente est
concentrée dans la distribution conditionnelle f(y|x)qui, pour chaque valeur de
x, correspond à la distribution de fréquence des différentes v aleurs deydans la
population. Typiquement:
fyx
y Eyx1500 Eyx2000
Graphique 1: Distributions conditionnelles
La distribution conditionnelle f(y|x)peut être résumée par l’ espérance condi-
tionnelle deysachantx–aussi appelée courbe de régression deyenx–qui, pour
chaque valeur de x, correspond à la valeur moyenne de ydans la population. De
manière générale, on a:
E(y|x)=g(x) (i.e., une fonction de x)
L’espéranceconditionnellede ysachantxconstitue,danslemodèlederégression,
la contrepartie empirique de la relation théorique d’intér êty=f(x).
Avant de poursuivre, illustrons ces différents concepts pou r une population hy-
pothétique dont la distribution (discrète) jointe du reven u (=x)et de la consom-
7
mation de biens culturels ( =y) est donnée par:
f(x,y)50 100 150 200 250 300 f(x)
15000,28 0,08 0,04 0 0 0 0,40
20000,03 0,15 0,06 0,06 0 0 0,30
2500 0 0,03 0,06 0,15 0,03 0,03 0,30
f(y)0,31 0,26 0,16 0,21 0,03 0,03 1
De la distribution jointe f(x,y), on peut déduire les distributions marginales de
xet dey.Elles sont données3, respectivement, par:
f(x)=
yf(x,y)etf(y)=
xf(x,y)
De la distribution jointe f(x,y)et de la distribution marginale de x, on peut
par ailleurs déduire la distribution conditionnelle et l’e spérance conditionnelle de y
sachantx.Elles sont données4, respectivement, par:
f(y|x)=f(x,y)
f(x)etE(y|x)=
yyf(y|x)
On obtient:
f(y|x)50 100 150 200 250 300 E(y|x)
15000,7 0,2 0,1 0 0 0 70
20000,1 0,5 0,2 0,2 0 0 125
25000 0,1 0,2 0,5 0,1 0,1 195
L’espérance conditionnelle E(y|x) =g(x)définit un modèle probabiliste de la
relation théorique d’intérêt y=f(x), dont les variables aléatoires5xetyont des
probabilités de réalisation décrites par la distribution j ointe inconnue f(x,y). On
obtient un modèle probabiliste paramétré de la relation théorique d’intérêt si on
suppose une forme fonctionnelle, dépendant de paramètres, pourg(x). Le modèle
de régression linéaire simple suppose:
E(y|x)=β1+β2x(i.e., une fonction linéaire de x)
Graphiquement:
3Dans le cas continu, f(x)=∞
−∞f(x,y)dyetf(y)=∞
−∞f(x,y)dx.
4Dans le cas continu, E(y|x)=∞
−∞yf(y|x)dy,f(y|x)ayant la même définition.
5Dans la théorie des probabilités, on distingue dans la notat ion les variables aléatoires (notées en majus-
cule) et leurs réalisations (notées en minuscule). Pour all éger la notation, et comme il est usuel de le faire,
dans le cadre de ces notes, nous ne ferons pas cette distincti on:x,y,XouYdésigneront toujours des
variables (ou vecteurs) aléatoires lorsqu’on raisonne dan s le cadre d’un modèle probabiliste avant observa-
tion(avant de les observer, leurs valeurs sont inconnues: ce son t des variables aléatoires), et des valeurs
prises par ces variables aléatoires lorsqu’elles représen tent des observations dans un échantillon particulier .
8
xy
2pente
1=12xEyx
Graphique 2: La droite de régression
Si le modèle de régression linéaire simple est correct, chaq ue observation (xi,yi)
satisfait le modèle probabiliste:
E(yi|xi)=β1+β2xi, i=1,…,n,
oùβ1etβ2sont des paramètres inconnus à estimer et, avant observatio n,yietxi
sont des variables aléatoires.
B. Données chronologiques
Dans notre exemple, de telles données pourraient être const ituées soit d’obser-
vations du revenu xet de la consommation yd’un ménage au cours du temps, soit
dedonnéesmacroéconomiquesagrégées(revenuetconsommat ionnationales; leplus
probable).
Pour ce type de données, il n’est plus possible de s’appuyer s ur l’idée d’un
échantillonnage au sens strict (physique) du terme. On peut néanmoins continuer
à regarder les observations dont on dispose comme le résulta t de tirages aléatoires
(xt,yt)dans des distributions telles que le modèle de régression li néaire simple est
satisfait, càd. telles que, pour tout t:
E(yt|xt)=β1+β2xt, t=1,…,T
Ainsi, avec les séries temporelles, on passe d’une approche d’échantillonnage au
sens strict (physique) du terme à une approche purement prob abiliste de modéli-
sation, qui contient la première comme cas particulier. Ce n’est to utefois qu’une
question d’interprétation: l’outil statistique reste inc hangé.
9
2.1.3. Construction du modèle économétrique II: hypothèse s
complémentaires
Outre l’hypothèse centrale que les observations sont telle s que
E(yi|xi)=β1+β2xi, i=1,…,n,
le modèle de régression linéaire simple s’appuie sur un ense mble d’hypothèses sta-
tistiques complémentaires qui, pour l’essentiel, peuvent être relâchées si nécessaire.
Ces hypothèses sont les suivantes:
1-De manière générale, on peut avoir:
Var(yi|xi)=h(xi) (i.e., une fonction de xi)
Le modèle de base supposeque:
Var(yi|xi)=σ2(i.e., une constante, ne dépend pas de xi)
Lorsque la variance (conditionnelle) est constante, on par le d’homoscédasticité .
Lorsquelavariance(conditionnelle)n’estpasconstante, onparled’ hétéroscédas-
ticité. Graphiquement:
=12xiEyixiObservations hétéroscédastiques
yi
xi=12xiEyixiObservations homoscédastiques
yi
xi
Graphique 3: Homoscédasticité et hétéroscédasticité
2-Les variables explicatives xisontfixes,non-stochastiques , et prennent au moins
deux valeurs distinctes.
Silesxiprenaienttouslamêmevaleur,ilseraitimpossibledemener uneanalyse
de régression, càd. de regarder la façon dont yivarie en fonction de xi, puisque
xine varierait pas.
L’hypothèse que les xisont non-stochastiques (non-aléatoires) est faite pour
des raisons de commodité technique. Elle équivaut à raisonn er conditionnelle-
ment aux valeurs de xiobservées dans l’échantillon. Au sens strict, cette hy-
pothèse correspond au cas d’un échantillonnage stratifié, où lesxisont choisis à
l’avance, puisles yicorrespondantstirésaléatoirementdanslessous-populat ions
d’individus caractérisés par les xichoisis. Ainsi, pour chaque xichoisi, unyiest
tiré aléatoirement dans la distribution conditionnelle f(yi|xi).
Sous cette hypothèse de régresseurs (variables explicativ es) non-stochastiques,
10
on peut réécrire les hypothèses:
E(yi|xi)=β1+β2xi
Var(yi|xi)=σ2i=1,…,n,
sous la forme plus simple6:
E(yi)=β1+β2xi
Var(yi)=σ2i=1,…,n
3-Les observations y1,…,ynsont statistiquement indépendamment distribuées,
ou de façon moins restrictive, sont toutes 2 à 2 non corrélées (pour rappel,
l’indépendance statistique implique la non-corrélation) :
Cov(yi,yj)=0,∀i=j
Cettehypothèseestautomatiquementsatisfaitedanslecas detiragesavecremise
(ou de tirages sans remise si la population est infinie7).
4-De façon optionnelle , on fait parfois l’hypothèse que la distribution condition –
nellef(yi|xi)est normale, auquel cas on a:
yi∼N(β1+β2xi,σ2)i=1,…,n
Sous cette hypothèse optionnelle, on pourra obtenir des rés ultats d’inférence
valables en échantillon fini . Sans cette hypothèse, les mêmes résultats ne seront
valables qu’en grand échantillon (on dit asymptotiquement ).
En résumé, le modèle de régression linéaire simple considèr e chaque observa-
tion(xi,yi)comme la réalisation d’un processus aléatoire satisfaisan t les hypothèses
suivantes ( i=1,…,n):
(1)E(yi)=β1+β2xi
(2)Var(yi)=σ2
(3)Cov(yi,yj)=0,∀i=j
(4) lesxisontnon-stochastiquesetprennentaumoins2valeursdisti nctes
(5) (optionnel) yi∼N(β1+β2xi,σ2)
2.1.4. Introduction d’un terme d’erreur
Le modèle de régression est le plus souvent exprimé en faisan t apparaître un
terme d’erreur.
6Le conditionnement explicite par rapport à xiest redondant lorsque xiest traité comme non-stochas-
tique: à chaque observation iest associée une valeur xiqui est censée avoir été choisie à l’avance. En
pratique, ce n’est pas le cas. On peut néanmoins, sans grande conséquence pour ce qui suit, faire comme si
c’était bien le cas. Nous reviendrons sur ce point au Chapitr e 7. Cette écriture simplifiée ne doit cependant
pas nous faire perdre de vue que l’on raisonne toujours condi tionnellement aux xiobservés.
7En pratique, si la population est bien plus grande que l’écha ntillon tiré.
11
Par définition, le terme d’erreur eiest donné par:
ei=yi−E(yi)=yi−β1−β2xi,
de sorte qu’on peut réécrire le modèle comme:
yi=β1+β2xi+ei
La variable yiétant (avant observation) une variable aléatoire, eiest aussi une
variable aléatoire, dont les propriétés sont:
E(ei) =E(yi−E(yi))=E(yi)−E(yi)=0
Var(ei) =E
(ei−E(ei))2
=E(e2
i)
=E
(yi−E(yi))2
=Var(yi)=σ2
Cov(ei,ej) =E[(ei−E(ei))(ej−E(ej))]=E(eiej)
=E[(yi−E(yi))(yj−E(yj))]
=Cov(yi,yj)=0,∀i=j
Par ailleurs, eiétant une fonction linéaire de yi, siyi∼N(β1+β2xi,σ2),alorsei
suitaussiuneloinormale8:ei∼N(E(ei),Var(ei)),soitei∼N(0,σ2). Graphique-
ment:
fei
yi012xif. fyi
ei,
Graphique 4: Distribution de yiet deeisous l’hypothèse de normalité
Etant donné ces propriétés, on peut finalement réécrire le mo dèle de régression
linéaire simple et ses hypothèses sous la forme:
A1yi=β1+β2xi+ei, i=1,…,n
A2E(ei)=0⇔E(yi)=β1+β2xi, i=1,…,n
A3Var(ei)=σ2=Var(yi), i=1,…,n
A4Cov(ei,ej)=0=Cov(yi,yj),∀i=j
A5 lesxisont non-stochastiques et prennent au moins 2 valeurs disti nctes
A6 (optionnel) ei∼N(0,σ2)⇔yi∼N(β1+β2xi,σ2), i=1,…,n
8Pour rappel, toute fonction linéaire d’une variance aléato ire normale suit aussi une loi normale.
12
Quelques points méritent d’être épinglés:
1-La formulation de A1 pourrait donner à penser que le terme d ’erreur aléatoire
eia une ‘vie propre’. Ce n’est pas le cas. Le terme d’erreur aléa toireeire-
flète l’écart entre yiet son espérance pour une valeur donnée de xi. Si on
s’intéressait à la relation entre yiet une autre variable explicative zi(par exem-
ple, la consommation yien fonction du patrimoine zidans une population), ei
serait redéfini comme l’écart entre yiet son espérance pour une valeur donnée
dezi, les paramètres β1etβ2, voire le caractère linéaire de la relation, étant
eux-mêmes redéfinis.
2-Contrairement à yiqui est une variable aléatoire observable ,eiest une variable
aléatoire non observable puisqu’elle dépend des paramètres inconnus β1etβ2
quipeuvent seulement être estimés . De la même façon, E(yi)=β1+β2xiest
non observable et peut seulement être estimée.
xiyi
Eyi12xie2
x1, y1x2, y2
x3, y3
e3e1
Graphique 5: Liens entre (xi,yi), eiet la droite de régression E(yi)=β1+β2xi
3-La dispersion de yiautour de son espérance pour une valeur donnée de xi, en
d’autres termes l’erreur aléatoire ei, peut être attribuée:
a-tout d’abord à l’effet de toutes les variables qui affectent de façon systé-
matiqueyimais non prises en compte dans le modèle,
b-et au delà, à la variabilité naturelle, intrinsèque, de yi, qui subsisterait
même si toutes les variables qui affectent de façon systémati queyiétaient
prises en compte.
Notons que ein’est pas censée refléter une erreur de spécification due à une
non-linéarité de E(yi|xi). La forme linéaire de E(yi|xi)est censée être cor-
recte, même si en pratique il y a fort à parier qu’elle ne l’est éventuellement
qu’approximativement.
4-Le modèle de régression linéaire simple peut être utilisé pour évaluer une rela-
tion entre deuxvariables chaque fois que les hypothèses sur lesquelles il s’appuie
(linéarité, homoscédasticité, non-corrélation) sont à pr iori crédibles, ce qui en
première approximation peut être jaugé en faisant un graphi que des observa-
tions (à tout le moins en ce qui concerne les hypothèses de lin éarité et d’homo-
scédasticité).
5-L’hypothèse de linéarité du modèle peut, à première vue, a pparaître comme
très restrictive. Cette impression est réduite si on note qu e rien n’empêche les
13
variablesxetyqui interviennent dans le modèle d’être des transformation s
(le logarithme, le carré, le cube,…) d’autres variables. En fait, l’hypothèse de
linéarité requiert seulement que le modèle soit linéaire da ns lesparamètres , pas
dansles variables.Ainsi,unmodèletrèsutiliséenpratiqueestlemodèlelog-l og:
lnyi=β1+β2lnxi+ei
⇔y∗
i=β1+β2x∗
i+ei
L’un des attraits de ce modèle est que le paramètre β2s’interprète comme
l’élasticité de ypar rapport à x, ce qui n’est pas le cas du modèle linéaire avec
les variables originales. Nous reviendrons en détail sur ce point dans la suite.
2.2. Estimation des paramètres du modèle
On suppose que les observations disponibles sont des réalis ations de variables
aléatoires satisfaisantles hypothèses A1-A5(plus éventu ellementA6) dumodèlede
régression linéaire simple. On cherche à estimerles paramètres inconnus β1etβ2
de la droite de régression E(yi)=β1+β2xi, qui représente la relation d’intérêt dans
la population.
Unestimateur est une règle de décision établie à priori (avant observation)
qui décrit, à l’aide d’une recette ou d’une formule, comment utiliser les observations
d’unéchantillonpourestimerlesparamètresinconnusd’un modèle. Lesobservations
étantdesréalisationsdevariablesaléatoires,unestimat eurestlui-mêmeunevariable
aléatoire(savaleurvaried’unéchantillonàl’autre). Une estimation estl’application
de la règle de décision définissant l’estimateur à un échantillon particulier .
2.2.1. L’estimateur des moindres carrés ordinaires
L’estimateur standard du modèle de régression linéaire sim ple est l’estimateur
desmoindrescarrésordinaires(MCO).Ilestdéfiniparla droite des moindres carrés :
ˆyi=ˆβ1+ˆβ2xi,
oùˆβ1etˆβ2sont choisis de façon à minimiser la sommes des carrés des résidus
ˆei=yi−ˆyi, soit tels que:
ˆβ1,ˆβ2
=Argminβ1,β2n
i=1(yi−β1−β2xi)2
Par exemple, pour les données suivantes:
xi1 2 3 4
yi1 2,5 2 3,
14
cela donne graphiquement:
xiyi
yi0,75 0,55 xi
e2
4e4
e3
e13
1 312
2
Graphique 6: La droite des moindres carrés
On peut obtenir analytiquement les estimateurs MCO ˆβ1etˆβ2en recherchant
le minimum de la fonction9:
SCR(β1,β2)=n
i=1e2
i=n
i=1(yi−β1−β2xi)2
Les dérivées partielles de SCR(β1,β2)par rapport à β1etβ2sont données par:
∂SCR(β1,β2)
∂β1=−2n
i=1(yi−β1−β2xi)=−2n
i=1ei
∂SCR(β1,β2)
∂β2=−2n
i=1xi(yi−β1−β2xi)=−2n
i=1xiei
de sorte que les conditions de premier ordre définissantˆβ1etˆβ2s’écrivent:
n
i=1(yi−ˆβ1−ˆβ2xi)=n
i=1ˆei=0 (2.1)
n
i=1xi(yi−ˆβ1−ˆβ2xi)=n
i=1xiˆei=0 (2.2)
ou encore, en réarrangant:
nˆβ1+ˆβ2n
i=1xi=n
i=1yi (2.3)
ˆβ1n
i=1xi+ˆβ2n
i=1×2
i=n
i=1xiyi (2.4)
9SCR(.)désigne la Somme des Carrés des Résidus.
15
Ces équations sont connues sous le nom d’équations normales .
De (2.3), on obtient:
ˆβ1=1
nn
i=1yi−ˆβ21
nn
i=1xi=¯y−ˆβ2¯x, (2.5)
ce qui implique que la droite des moindres carrés passe par le point moyen (¯x,¯y)
de l’échantillon . On notera au passage que, comme indiqué par (2.1), la somme des
résidusˆeiest nulle.
De (2.4), en utilisant (2.5), on obtient:
ˆβ2=n
i=1xiyi−ˆβ1n
i=1xi
n
i=1×2
i=n
i=1xiyi−(¯y−ˆβ2¯x)n
i=1xi
n
i=1×2
i
⇔ˆβ2−ˆβ2
¯xn
i=1xi
n
i=1×2
i
=n
i=1xiyi−¯yn
i=1xi
n
i=1×2
i
soit, comme¯x=1
nn
i=1xiet¯y=1
nn
i=1yi:
ˆβ2
1−
n
i=1xi2
nn
i=1×2
i
=nn
i=1xiyi−n
i=1xin
i=1yi
nn
i=1×2
i
⇔ˆβ2
nn
i=1×2
i−
n
i=1xi2
nn
i=1×2
i
=nn
i=1xiyi−n
i=1xin
i=1yi
nn
i=1×2
i
et donc:
ˆβ2=nn
i=1xiyi−n
i=1xin
i=1yi
nn
i=1×2
i−
n
i=1xi2(2.6)
16
Finalement, on notera que:
n
i=1(xi−¯x)(yi−¯y) =n
i=1xiyi−¯xn
i=1yi−¯yn
i=1xi+n
i=1¯x¯y
=n
i=1xiyi−¯x(n¯y)−¯y(n¯x)+n¯x¯y
=n
i=1xiyi−1
nn
i=1xin
i=1yi (2.7)
et
n
i=1(xi−¯x)2=n
i=1×2
i−2¯xn
i=1xi+n
i=1¯x2
=n
i=1×2
i−2¯x(n¯x)+n¯x2=n
i=1×2
i−n¯x2
=n
i=1×2
i−1
nn
i=1xi2
(2.8)
de sorte que (2.6) peut s’écrire:
ˆβ2=1
nn
i=1(xi−¯x)(yi−¯y)
1
nn
i=1(xi−¯x)2=Cove(xi,yi)
Vare(xi), (2.9)
oùCove(xi,yi)désigne lacovarianceempiriqueentre xietyi, etVare(xi)lavariance
empirique des xi.
De (2.9), on peut voir que:
1-ˆβ2est nul sixietyisont non corrélés (i.e., si Cove(xi,yi)=0),
2-ˆβ2n’est pas défini si il n’ya aucune variabilité dans les xi(i.e., siVare(xi)=0).
2.2.2. L’estimateur du maximum de vraisemblance
Si, outre les hypothèses A1-A5, on suppose aussi l’hypothès e A6 remplie, càd.
quelesyisontdistribuésdefaçonnormale,onpeutdériverl’estimat eurdumaximum
de vraisemblance des paramètres inconnus β1,β2etσ2du modèle.
Sous la normalité, il y a équivalence entre non-corrélation et indépendance sta-
tistique10. Ladensitéjointedesobservations (y1,…,yn),appelée vraisemblance ,peut
10Cf. infra p.24.
17
donc être décomposée comme suit11:
f(y1,…,yn|x1,…,xn;β1,β2,σ2)
=f(y1|x1;β1,β2,σ2)×…×f(yn|xn;β1,β2,σ2)
=n
i=1f(yi|xi;β1,β2,σ2),
où12
f(yi|xi;β1,β2,σ2)=1√
2πσ2e−1
2(yi−β1−β2xi
σ)2
Ilestpluscommodedemanipulerlelogarithmedeladensitéj ointequeladensité
jointe elle-même. En prenant le logarithme de la densité joi nte des observations, on
obtient la fonction de log-vraisemblance de l’échantillon:
L(β1,β2,σ2) = lnf(y1,…,yn|x1,…,xn;β1,β2,σ2)
=n
i=1
−1
2ln2π−1
2lnσ2−1
2σ2(yi−β1−β2xi)2
Les estimateurs du maximum de vraisemblance (MV) ˆβ1,ˆβ2etˆσ2sont définis
par les valeurs de β1, β2etσ2qui maximisent la vraisemblance13, ou ce qui revient
au même14, la log-vraisemblance de l’échantillon:
ˆβ1,ˆβ2,ˆσ2
=Argmaxβ1,β2,σ2L(β1,β2,σ2)
Les dérivées partielles de L(β1,β2,σ2)par rapport à β1, β2etσ2sont données
par:
∂L(β1,β2,σ2)
∂β1=1
σ2n
i=1(yi−β1−β2xi)
∂L(β1,β2,σ2)
∂β2=1
σ2n
i=1xi(yi−β1−β2xi)
∂L(β1,β2,σ2)
∂σ2=n
i=1−1
2σ2+n
i=11
2σ4(yi−β1−β2xi)2
11Bien que redondant lorsque les xisont non-stochastiques, le conditionnnement par rapport a uxxiest
ici explicitement indiqué pour rappeller que l’on raisonne bien conditionnellement aux xiobservés.
12Pour rappel, la fonction de densité de la loi normale N(m,σ2)est donnée par f(x)=1√
2πσ2e−1
2(x−m
σ)2
.
13Càd. les valeurs de β1, β2etσ2qui rendent la plus élevée la probabilité d’observation de l ’échantillon
dont on dispose. Autrement dit, les valeurs de β1, β2etσ2pour lesquelles l’échantillon dont on dispose
est le plus probable d’être observé.
14Le logarithme étant une fonction strictement croissante, l a vraisemblance et la log-vraisemblance ont
par construction le même maximum par rapport à β1, β2etσ2.
18
de sorte que les conditions de premier ordre définissantˆβ1,ˆβ2etˆσ2s’écrivent:
n
i=1(yi−ˆβ1−ˆβ2xi)=0 (2.10)
n
i=1xi(yi−ˆβ1−ˆβ2xi)=0 (2.11)
n
i=1−1
2ˆσ2+n
i=11
2ˆσ4(yi−ˆβ1−ˆβ2xi)2=0 (2.12)
Les conditions (2.10) et (2.11) sont identiques aux conditi ons (2.1) et (2.2)
définissant les estimateurs MCO. On en conclut que, sous l’hy pothèse de normalité,
les estimateurs MV de β1, β2sont identiques aux estimateurs MCO.
De (2.12), on tire:
−n+n
i=11
ˆσ2(yi−ˆβ1−ˆβ2xi)2=0
⇔ˆσ2=1
nn
i=1(yi−ˆβ1−ˆβ2xi)2=1
nn
i=1ˆe2
i (2.13)
Ainsi, l’estimateur MV ˆσ2deσ2est simplement donné par la variance empirique
des résidus.
Deux points méritent d’être épinglés:
1-Si on supposait une autre loi que la loi normale pour les yi, les estimateurs MV
et MCO ne correspondraient plus. Ils seraient différents.
2-La formulation du modèle de régression linéaire simple, e t au delà du modèle
de régression linéaire multiple que nous étudierons ensuit e, est fortement lié à
la normalité. On peut en effet montrer que si 2 variables aléat oiresxetysont
distribuées selon une loi normale jointe15:
x
y
∼N(m,Σ),
on a toujours:
E(y|x)=a+bx(i.e., une fonction linéaire de x)
Var(y|x)=σ2(i.e., une constante)
Plusgénéralement,si kvariablesaléatoiressontdistribuéesselonuneloinormal e
15Pour un rappel concernant la loi normale multivariée, cf. in fra p.24.
19
jointe:
x1
x2…
xk
∼N(m,Σ),
on a encore de façon semblable:
E(x1|x2,…,xk)=a+b2x2+…+bkxk
Var(x1|x2,…,xk)=σ2
Il en est de même pour tout conditionnement par rapport à un so us-ensemble
de(x2,…,xk). Achaque fois, l’ espérance conditionnelle estunefonction linéaire
(dont les paramètres varient selon l’ensemble conditionna nt) et la variance con-
ditionnelle estconstante , comme dans le modèle de régression linéaire (simple
ou multiple).
2.2.3. Exemple: estimation d’une fonction de consommation
Hill, Griffiths et Lim (2008) considèrent16un ensemble de données en coupe
(xi,yi),oùxidésigne le revenu d’un ménage (en centaines de $) et yiles dépenses
alimentaires de ce ménage (en $).
L’estimation par MCO, sur un échantillon de 40 ménages, du mo dèle:
yi=β1+β2xi+ei,
donne:
ˆyi=83,42+10,21xi
Graphiquement:
Consommation alimentaire ( $)
Revenu (centaines de $) yi83,42 10,21 xi
0200 400 600
0 10 20 30 40
Graphique 7: La fonction de consommation estimée
16Voir p.18 et suivantes.
20
A. Interprétation des coefficients estimés
•ˆβ2=lapente: elle représente ici la propension marginale à consommer. D ans
cet exemple, il est estimé qu’une augmentation du revenu de 100$ accroît la
consommation alimentaire moyenne d’un ménage dedˆyi
dxi=dˆE(yi)
dxi= 10,21$
(attentionauxunitésdemesure!). Pouruneaugmentationde 1$durevenu,cela
donne une augmentation de 0,1021$ de la consommation alimentaire moyenne,
soit une propension marginale à consommer des biens aliment aires de0,1021.
•ˆβ1=l’intercept (ordonnéeàl’origine): ilreprésenteicileniveaumoyen théorique
de la consommation alimentaire pour un revenu nul. Ce niveau théorique est
estimé à83,42$.
Il est important de noter que l’intercept doit le plus souven t être interprété
avec prudence car il n’y a généralement aucune observation a u voisinage de
xi=0.Lorsque c’est le cas (comme ici), l’intercept est généralem ent peu ou pas
interprétable.
De façon plus générale, il est toujours hasardeux d’utilise r la relation estimée
pourévaluer(prédire)les ˆyicorrespondantsàdesvaleursde xiéloignéesdecelles
observées dans l’échantillon. Graphiquement:
yi
xi xiobservés ?
??
???
Graphique 8: Prévisions hasardeuses
B. Prévision et élasticité
Si l’on reste dans le voisinage des xiobservés dans l’échantillon, on peut utiliser
la relation estimée pour faire de la prévision. Dans notre ex emple, pour un revenu
de2000$, soitxi=20, on peut prédire le niveau de dépense alimentaire par:
ˆyi=83,42+10,21(20)=287 ,62$
Les économistes sont souvent intéressés par des élasticité s. La relation estimée
étant linéaire, l’élasticité ηdeypar rapport à x:
η=Ey,x=dy
y
dx
x=dy
dxx
y,
n’est pas constante, mais variable, en fonction de x.
21
Sur base de la relation estimée ˆyi=ˆβ1+ˆβ2xi, une estimation de l’élasticité Ey,x
pour une valeur donnée de xiest fournie par:
ˆηi=ˆEy,x=dˆyi
dxixi
ˆyi=ˆβ2xi
ˆyi
La valeur de cette élasticité ˆηivarie fonction de xi.
Pour résumer les ˆηi, il est courant de calculer une élasticité au point moyen de
l’échantillon17(¯x,¯y) au travers de l’expression18:
ˆη=ˆβ2¯x
¯y
Dans notre exemple, le point moyen de l’échantillon étant ( 19,60;283,57), on
obtient:
ˆη=10,2119,60
283,57=0,71
L’élasticité estimée ˆηétant inférieure à 1, les dépenses alimentaires apparaisse nt
comme un bien de nécessité (par opposition à un bien de luxe), ce qui est conforme
à l’intuition.
2.3. Ecriture matricielle du modèle et de
l’estimateur MCO
Pour faciliter l’examen de ses propriétés et son extension a u cas de plusieurs
variablesexplicatives,ilestutilederéécrirelemodèle, seshypothèsesetl’estimateur
MCO sous forme matricielle.
2.3.1. Vecteurs aléatoires: notations et propriétés
Oncommenceparétablirquelquesconventionsdenotationet propriétésrelatives
aux vecteurs aléatoires.
A. Cas bivarié
Soit le vecteur aléatoire bivarié:
X=
x1
x2
17Rappelons que la droite des moindres carrés passe par le poin t moyen(¯x,¯y)de l’échantillon.
18Une alternative est de calculer ˆηipour tous les points xide l’échantillon, puis d’en prendre la moyenne.
22
Par définition, on note19:
E(X)=E
x1
x2
=
E(x1)
E(x2)
et
V(X) =E[(X−E(X))(X−E(X))′]
=E
x1−E(x1)
x2−E(x2)x1−E(x1)x2−E(x2)
=E
(x1−E(x1))2(x1−E(x1))(x2−E(x2))
(x2−E(x2))(x1−E(x1)) ( x2−E(x2))2
=
Var(x1)Cov(x1,x2)
Cov(x2,x1)Var(x2)
V(X)est appelée la matrice de variance -covariance deX.On notera que si
dans l’expression de l’espérance E(X), Xpeut être aussi bien un vecteur qu’une
matrice, dans l’expression de la matrice de variance-covar ianceV(X),Xne peut
être qu’un vecteur (colonne). On remarquera encore que V(X)est nécessairement
une matrice symétrique.
Les opérateurs E(X)etV(X)ont des propriétés très intéressantes. Si:
A=un vecteur k×1de constantes,
B=une matrice k×2de constantes,
alors:
E(A+BX) =A+BE(X) (2.14)
V(A+BX) =BV(X)B′(2.15)
La propriété (2.14) est évidente20. La propriété (2.15) se vérifie pour sa part
aisément. Si on pose:
Z=A+BX−E(A+BX)
=B(X−E(X)),
on obtient:
V(A+BX) =E(ZZ′)
=E[B(X−E(X))(X−E(X))′B′]
=BE[(X−E(X))(X−E(X))′]B′
=BV(X)B′
Illustrons ces propriétés pour le cas où A=0etB=
b1b2
. Pour ce cas,
19X′désigne la transposée de la matrice X, parfois aussi notéetX.
20Elle découle des propriétés de base de l’espérance.
23
on a:
A+BX=
b1b2
x1
x2
=b1x1+b2x2
et
E(A+BX) =
b1b2
E(x1)
E(x2)
=b1E(x1)+b2E(x2)
V(A+BX) =
b1b2
Var(x1)Cov(x1,x2)
Cov(x2,x1)Var(x2)
b1
b2
=b2
1Var(x1)+b2
2Var(x2)+b1b2Cov(x1,x2)+b2b1Cov(x2,x1)
=b2
1Var(x1)+b2
2Var(x2)+2b1b2Cov(x1,x2)
On retrouve simplement les propriétés habituelles de l’esp érance et de la variance
d’une fonction linéaire de variables aléatoires.
B. Cas général
Soit le vecteur aléatoire n×1:
X=
x1
x2…
xn
Par définition, on a de façon semblable :
E(X)=E
x1
x2…
xn
=
E(x1)
E(x2)
…
E(xn)
et
V(X) =E[(X−E(X))(X−E(X))′]
=
Var(x1)Cov(x1,x2)···Cov(x1,xn)
Cov(x2,x1)Var(x2)···Cov(x2,xn)
…………
Cov(xn,x1)Cov(xn,x2)···Var(xn)
On a bien entendu toujours les mêmes propriétés. Si:
A=un vecteur k×1de constantes,
B=une matrice k×nde constantes ,
24
alors:
E(A+BX) =A+BE(X) (2.16)
V(A+BX) =BV(X)B′(2.17)
C. La loi normale multivariée
Par définition, un vecteur aléatoire Xde dimension n×1suit une loi normale
multivariée d’espérance m(vecteurn×1) et de matrice de variance-covariance Σ
(matrice symétrique n×n), notéeX∼N(m,Σ), si sa densité jointe est donnée
par21:
f(x1,x2,…,xn)=1
(2π)n
2det(Σ)1
2e−1
2[(X−m)′Σ−1(X−m)]
Cette fonction de densité contient comme cas particulier la fonction de densité (uni-
variée) d’une variable aléatoire normale x∼N(m,σ2):f(x)=1√
2πσ2e−1
2(x−m
σ)2
.
La loi normale multivariée possède plusieurs propriétés re marquables:
1-SiX∼N(m,Σ)et si:
A=un vecteur k×1de constantes,
B=une matrice k×nde constantes,
alors:
Z=A+BX∼N(E(Z),V(Z))
où:
E(Z) =A+Bm
V(Z) =BΣB′
End’autrestermes,unecombinaisonlinéaire Z=A+BXd’unvecteuraléatoire
normal suit aussi une loi normale, l’espérance E(Z)et la matrice de variance-
covariance V(Z)de cette loi étant simplement obtenues par application des
propriétés (2.16) et (2.17).
Illustrons cette propriété par deux exemples:
a-Pour le cas où A=0etB=1 0···0
, on a:
Z=x1
et
E(Z)=1 0···0
m1
m2
…
mn
=m1
21det(Σ)désigne le déterminant de Σ.
25
V(Z) =1 0···0
Var(x1)···Cov(x1,xn)
………
Cov(xn,x1)···Var(xn)
1
0
…
0
=Var(x1)
b-Pour le cas où A=0etB=
1 0 0···0
0 1 0···0
, on a:
Z=
x1
x2
et
E(Z) =
1 0 0···0
0 1 0···0
m1
m2…
mn
=
m1
m2
V(Z) =
1 0 0···0
0 1 0···0
Var(x1)···Cov(x1,xn)
………
Cov(xn,x1)···Var(xn)
1 0
0 1
0 0
……
0 0
=
Var(x1)Cov(x1,x2)
Cov(x2,x1)Var(x2)
2-SiX∼N(m,Σ)avec22Σ =σ2I, alors(x1,x2,…,xn)sont statistiquement
indépendants. En d’autres termes, sous la normalité , indépendance et non-
corrélation sont équivalents.
3-SiX∼N(0,Σ), alors:
X′Σ−1X∼χ2(n) (2.18)
En particulier, si Σ=I, alors:
X′X=n
i=1×2
i∼χ2(n)
Ce cas particulier correspond à la définition standard de la l oi du khi-carré23.
4-Enfin, si X∼N(0,σ2I)et queAdésigne une matrice n×nsymétrique idem-
potente(càd. telle que A′=AetAA=A)derangr, alors:
1
σ2X′AX∼χ2(r) (2.19)
22Idésigne une matrice identité , càd. une matrice carrée composée de 1sur la diagonale principale, et
de0partout ailleurs.
23Définie comme la loi que suit la somme des carrés de variables a léatoires N(0,1)indépendantes (cf.
l’annexe B de Hill, Griffiths et Lim (2008)).
26
2.3.2. Le modèle et ses hypothèses sous forme matricielle
On note:
Xi=
1xi
etβ=
β1
β2
Par définition, on a:
yi=β1+β2xi+ei
⇔yi=Xiβ+ei, i=1,…,n
En empilant les nobservations de l’échantillon, on peut écrire:
Y=
y1
y2…
yn
, X=
X1
X2…
Xn
=
1×1
1×2……
1xn
ete=
e1
e2…
en
de sorte que:
y1=β1+β2×1+e1
y2=β1+β2×2+e2…
yn=βn+β2xn+en
⇔
y1
y2…
yn
=
1×1
1×2……
1xn
β1
β2
+
e1
e2…
en
soit, de façon compacte:
Y=Xβ+e
Sur base de cette notation matricielle, les hypothèses A1-A 6 du modèle de
régression linéaire simple peuvent s’écrire24:
A1 Y=Xβ+e
A2 E(e)=0⇔E(Y)=Xβ
A3-A4 V(e)=σ2I=V(Y)
A5 Xest non-stochastique et rg (X)=2
A6 (optionnel) e∼N(0,σ2I)⇔Y∼N(Xβ,σ2I)
Onnoteque,sousformematricielle,leshypothèsesA3(conc ernantlesvariances)
et A4 (concernant les covariances) sont regroupées sous la f orme d’une hypothèse
sur la matrice de variance-covariance de e, ou de façon équivalente de Y.
24rg(X)désigne le rang de la matrice X.
27
L’hypothèse rg (X) = 2requiert que les 2 colonnes de Xsoient linéairement
indépendantes, cequiestlecas si iln’existepas de constan tes nonnulles c1,c2telles
que:
c1
1
1
…
1
+c2
x1
x2…
xn
=0
Cette hypothèse est violée si il n’y a aucune variabilité dan s lesxi(i.e., sixi=une
constante,∀i), et est bien entendu satisfaite si les xiprennent au moins 2 valeurs
distinctes.
2.3.3. L’estimateur MCO sous forme matricielle
L’estimateur MCO est défini par:
ˆβ1,ˆβ2
=Argminβ1,β2n
i=1(yi−β1−β2xi)2
=Argminβ1,β2n
i=1e2
i
Sous forme matricielle:
ˆβ=Argminβ(Y−Xβ)′(Y−Xβ)
=Argminβe′e
L’estimateur MCO ˆβest obtenu en recherchant le minimum de la fonction:
SCR(β) = (Y−Xβ)′(Y−Xβ)
=Y′Y−Y′Xβ−β′X′Y+β′X′Xβ
=Y′Y−2β′X′Y+β′X′Xβ(carY′Xβ=β′X′Y)
La dérivée partielle de SCR(β)par rapport au vecteur β:
∂SCR(β)
∂β=∂SCR(β)
∂β1
∂SCR(β)
∂β2
peut être obtenue en appliquant les règles de dérivation mat ricielle suivantes:
1-Siaest un vecteur k×1etβaussi un vecteur k×1, alors:
∂(β′a)
∂β=a (2.20)
Illustrons cette propriété pour k=2, aveca=
a1
a2
etβ=
β1
β2
. Pour ce
28
cas, on a:
β′a=β1a1+β2a2
de sorte que:
∂(β′a)
∂β=∂(β′a)
∂β1
∂(β′a)
∂β2
=
a1
a2
=a
2-SiAest une matrice k×ksymétrique et βencore un vecteur k×1, alors:
∂(β′Aβ)
∂β=2Aβ (2.21)
Illustrons à nouveau cette propriété pour k=2, aveca=
a11a12
a12a22
etβ=
β1
β2
. Pour ce cas, on a:
β′Aβ=β1β2
a11a12
a12a22
β1
β2
=a11β2
1+2a12β1β2+a22β2
2
de sorte que:
∂(β′Aβ)
∂β=∂(β′Aβ)
∂β1
∂(β′Aβ)
∂β2
=
2a11β1+2a12β2
2a12β1+2a22β2
= 2
a11a12
a12a22
β1
β2
=2Aβ
La matrice X′Xétant une matrice symétrique:
X′X=
1 1···1
x1x2···xn
1×1
1×2
……
1xn
=
nn
i=1xi
n
i=1xin
i=1×2
i
=(X′X)′,
par application des règles de calcul (2.20) et (2.21), on obt ient:
∂SCR(β)
∂β=∂(−2β′X′Y)
∂β+∂(β′X′Xβ)
∂β
=−2X′Y+2X′Xβ
de sorte que la condition de premier ordre définissantˆβs’écrit:
X′(Y−Xˆβ)=X′ˆe=0⇔X′Xˆβ=X′Y , (2.22)
29
soit, sous forme détaillée:
nn
i=1xi
n
i=1xin
i=1×2
i
ˆβ1
ˆβ2
=
n
i=1yi
n
i=1xiyi
,
ce qui n’est rien d’autre que les équations normales (2.3) et (2.4) obtenues à la
Section 2.2.1.
Finalement, de (2.22), on obtient la forme matricielle de l’ estimateur MCO:
ˆβ=(X′X)−1X′Y (2.23)
Deux remarques méritent d’être faites:
1-L’hypothèserg (X)=2dumodèleassurel’existencedel’estimateurMCO ˆβ. En
effet, on peut montrer que, pour toute matrice A, rg(A)=rg(A′)=rg(AA′)=
rg(A′A). On a donc rg (X′X)=2(rang plein), ce qui implique que X′Xest non
singulière, et donc inversible.
2-On peut pareillement dériver sous forme matricielle les e stimateurs MV de β
et deσ2.L’estimateur MV de βest évidemment identique à l’estimateur MCO
(2.23). L’estimateurMVde σ2peutpoursapartêtreécritsousformematricielle
comme:
ˆσ2=1
nn
i=1ˆe2
i=ˆe′ˆe
n, (2.24)
oùˆe=Y−Xˆβ.
2.3.4. Résultats complémentaires
On détaille ci-dessous quelques résultats complémentaire s qui seront utiles dans
la suite:
1-Lesvaleurs estimées (prédites) de Ypar le modèle sont données par:
ˆY=Xˆβ=X(X′X)−1X′
!"#
PXY=PXY (2.25)
Lorsqu’on prémultiplie par PXunvecteuraquelconque de dimension n×1,
on obtient un vecteur n×1donnant les valeurs estimées ˆade la régression de
asurX. De façon plus générale, lorsqu’on prémultiplie par PXunematriceA
quelconquededimension n×l,onobtientunematrice ˆAdedimension n×ldont
les colonnes donnent les valeurs estimées des régressions d es différentes colonnes
deAsurX. SiA=X, on a simplement:
ˆX=PXX=X(X′X)−1X′X=X
Autrement dit, les valeurs estimées des régressions des diff érentes colonnes de
30
XsurXsont tout simplement égales à X.
La matrice PXpossède des propriétés remarquables:
a-PXest symétrique: PX=P′
X
b-PXest idempotente: PXPX=X(X′X)−1X′X(X′X)−1X′=PX
2-Lesrésidusdu modèle sont donnés par:
ˆe=Y−Xˆβ=Y−PXY=(I−PX) !"#
MXY=MXY (2.26)
Lorsqu’on prémultiplie par MXunvecteuraquelconque de dimension n×1, on
obtient un vecteur n×1donnant les résidus ˆede la régression de asurX. De
façonplusgénérale,lorsqu’onprémultipliepar MXunematriceAquelconquede
dimension n×l, on obtient une matrice ˆEde dimension n×ldont les colonnes
donnent les résidus des régressions des différentes colonne s deAsurX. Si
A=X, on a:
ˆE=MXX=(I−PX)X=X−X=0
Autrement dit, les résidus des régressions des différentes c olonnes de XsurX
sont tout simplement nuls.
La matrice MXpossède également des propriétés remarquables:
a-MXest symétrique: MX=(I−PX)=(I−PX)′=M′
X
b-MXest idempotente: MXMX= (I−PX)(I−PX) =I−PX−PX+
PXPX=I−PX=MX
3-On a d’une part:
ˆe=MXY ,
et d’autre part:
Y=Xβ+e,
de sorte que:
ˆe=MX(Xβ+e)=MXXβ+MXe,
et commeMXX=0:
ˆe=MXe
Les résidus et l’erreur aléatoire (non observable) sont rel iés par la matrice MX.
31
Chapitre3
Propriétés de l’estimateur MCO
L’estimateur MCO est donné par ˆβ=(X′X)−1X′Y. SiXest (par commodité)
supposéfixe, Yestun vecteuraléatoire, dont les observations sontregard ées comme
une réalisation particulière, pour un échantillon particu lier.
ˆβétant une fonction de Y, c’est aussi une variable aléatoire: sa valeur varie
d’un échantillon à l’autre, càd. d’une réalisation à l’autr e du vecteur aléatoire Y.
Notonsquel’ estimation obtenuedel’applicationdelaformule ˆβ=(X′X)−1X′Y
àunéchantillonparticuliernepossèdeentantquetelleauc unepropriétéstatistique.
C’est l’estimateur , en tant que règle de décision, qui possède des propriétés st atis-
tiques.
3.1. La distribution d’échantillonnage de
l’estimateur MCO
L’estimateur MCO étant une variable aléatoire, il possède u ne distribution dont
les caractéristiques peuvent être étudiées. Ces caractéri stiques (espérance, varian-
ce, …) nous renseignent sur la qualitéde la règle de décision qu’est l’estimateur
MCO.
Ladistributionjointe f(ˆβ1,ˆβ2)deˆβestappeléela distribution d’échantillonnage
de l’estimateur MCO.
De façon générale, la distribution d’échantillonnage exactedeˆβdépend:
1-desxi,
2-des paramètres du modèle: β=
β1
β2
etσ2,
3-de la taille d’échantillon n,
4-de la loi des yi(au delà de leur deux premiers moments).
32
Sauf cas particulier (cf.infra), le calcul de la distributi on d’échantillonnage
exacte deˆβest très malaisé. Par contre, ses deux premiers moments (esp érance
et matrice de variance-covariance), peuvent aisément être obtenus.
3.1.1. L’espérance de ˆβ
Soit l’estimateur MCO:
ˆβ=(X′X)−1X′Y
De l’hypothèse A1 Y=Xβ+e, on obtient:
ˆβ= (X′X)−1X′(Xβ+e)
= (X′X)−1X′Xβ+(X′X)−1X′e
soit:
ˆβ=β+(X′X)−1X′e (3.1)
Par ailleurs, de l’hypothèse A5 qui assure que Xest non-stochastique, on a:
E(ˆβ) =E$
β+(X′X)−1X′e%
=β+(X′X)−1X′E(e),
de sorte que, de l’hypothèse A2 E(e)=0, on obtient finalement:
E(ˆβ)=
E(ˆβ1)
E(ˆβ2)
=
β1
β2
=β
On dit queˆβest un estimateur non biaisé deβ.
Ainsi, sous la condition que les hypothèses A1, A2 et A5 sont c orrectes25, la
tendance centrale de la distribution d’échantillonnage de l’estimateur ˆβ=ˆβ1
ˆβ2
est bien ‘calée’ sur la vraie valeur βdu vecteur de paramètres que l’on cherche à
estimer, ce qui est évidemment une bonne nouvelle.
Graphiquement,entermesdedistributionsmarginales f(ˆβ1)etf(ˆβ2)impliquées
par la distribution jointe f(ˆβ1,ˆβ2), on a donc:
25Notez que ni l’hypothèse A3-A4, ni l’hypothèse A6, ne sont in voquées.
33
fj
jEjj
Graphique 9: Distribution d’échantillonnage de ˆβj(j=1,2)
3.1.2. La matrice de variance-covariance de ˆβ
Sous les hypothèses A1, A2 et A5, on a:
ˆβ=β+(X′X)−1X′eetE(ˆβ)=β
En y ajoutant l’hypothèse A3-A4 V(e)=E(ee′)=σ2I, on obtient:
V(ˆβ) =
Var(ˆβ1)Cov(ˆβ1,ˆβ2)
Cov(ˆβ2,ˆβ1)Var(ˆβ2)
=E$
(ˆβ−E(ˆβ))(ˆβ−E(ˆβ))′%
=E$
(ˆβ−β)(ˆβ−β)′%
(carE(ˆβ)=β)
=E$
(X′X)−1X′ee′X(X′X)−1%
(carˆβ−β=(X′X)−1X′e))
= (X′X)−1X′E(ee′)X(X′X)−1(carXfixe)
=σ2(X′X)−1X′X(X′X)−1(carE(ee′)=σ2I)
soit, sous la condition que les hypothèses A1 à A5 sont correc tes26, finalement:
V(ˆβ)=σ2(X′X)−1(3.2)
On peut montrer que, sous forme détaillée, cela donne:
Var(ˆβ1)=σ2n
i=1×2
i
nn
i=1(xi−¯x)2=σ2
1
n+¯x2
n
i=1(xi−¯x)2
(3.3)
26Notez que l’hypothèse A6 n’est pas invoquée.
34
Var(ˆβ2) =σ2
n
i=1(xi−¯x)2(3.4)
Cov(ˆβ1,ˆβ2) =Cov(ˆβ2,ˆβ1)=σ2
−¯x
n
i=1(xi−¯x)2
(3.5)
Ces expressions peuvent être vérifiées en utilisant la propr iété (2.8) établie à la
Section 2.2.1, et le fait que, pour une matrice 2×2, on a:
a11a12
a21a22−1
=1
a11a22−a12a21
a22−a12
−a21a11
Les variances d’échantillonnage Var(ˆβ1)etVar(ˆβ2)indiquent la dispersion des
estimateursˆβ1etˆβ2autour de leur espérance E(ˆβ1)etE(ˆβ2), soit comme E(ˆβ1)=
β1etE(ˆβ2) =β2, autour des vraies valeurs β1etβ2que l’on cherche à estimer.
Plus ces variances sont faibles, plus ces estimateurs sont p récis. Graphiquement:
fj
jEjjEstimateur relativement imprécis Estimateur relativement précis
Graphique 10: Précision de ˆβj(j=1,2)
Ilestimportantdenoterquel’absencedebiaisetdesvarian cesd’échantillonnage
faibles ne garantissent pas que dans un échantillon particulier , lesˆβjestimés seront
nécessairement proches de leur vraie valeur βjque l’on cherche à estimer. Cepen-
dant, plus les variances d’échantillonnage sont faibles, p lus la probabilité qu’il en
soit ainsi est grande.
La covariance d’échantillonnage Cov(ˆβ1,ˆβ2)indique la mesure dans laquelle les
estimateursˆβ1etˆβ2tendent à s’écarter de concert ou non de leur espérance E(ˆβ1)
etE(ˆβ2), soit comme E(ˆβ1)=β1etE(ˆβ2)=β2, la mesure dans laquelle ils tendent
à s’écarter de concert ou non des vraies valeurs β1etβ2que l’on cherche à estimer.
3.1.3. Les facteurs déterminant V(ˆβ)
Sur base des expressions détaillées (3.3), (3.4) et (3.5), o n peut voir que les
35
facteurs déterminant V(ˆβ)sont:
1-La variance σ2du terme d’erreur:
siσ2ր, alorsVar(ˆβ1),Var(ˆβ2)et|Cov(ˆβ1,ˆβ2)|ր
Autrementdit,plusladispersiondes yiautourdeladroitederégression E(yi)=
β1+β2xiest grande, moins la précision d’estimation est grande.
2-La dispersion de la variable explicative xi:
sin
i=1(xi−¯x)2ր, alorsVar(ˆβ1),Var(ˆβ2)et|Cov(ˆβ1,ˆβ2)|ց
Autrementdit,plusladispersiondes xiestgrande,pluslaprécisiond’estimation
est grande.
3-La taille nde l’échantillon:
sinր,n
i=1(xi−¯x)2ր, alorsVar(ˆβ1),Var(ˆβ2)et|Cov(ˆβ1,ˆβ2)|ց
Autrement dit, plus la taille d’échantillon est grande, plu s la précision d’estima-
tion est grande.
4-La moyenne ¯xdesxi(son éloignement par rapport à 0):
si|¯x|ր, alors Var(ˆβ1)et|Cov(ˆβ1,ˆβ2)|ր
maisVar(ˆβ2)reste inchangée
Autrement dit, plus la moyenne des xiest éloignée de 0, moins la précision
d’estimation de β1estgrande, laprécision d’estimation de β2restant inchangée.
On notera par ailleurs que:
Cov(ˆβ1,ˆβ2)>0si¯x<0
etCov(ˆβ1,ˆβ2)<0si¯x>0
3.2. Le théorème Gauss-Markov
Un bon estimateur est un estimateur qui délivre, avec une pro babilité élevée,
des valeurs proches de la valeur que l’on cherche à estimer. A utrement dit, un bon
estimateur est un estimateur dont la distribution d’échant illonnage est, d’une part,
centréesurlavaleurquel’onchercheàestimer, etd’autrepart, peu dispersée autour
de cette valeur.
L’estimateur MCO étant non biaisé (i.e., E(ˆβ) =β), il est bien centré sur la
valeur que l’on cherche à estimer. Par ailleurs, sa dispersi on est donnée par sa
matrice de variance-covariance V(ˆβ).
Est-ilpossibledetrouverunautreestimateurnonbiaiséde β,dontladispersion,
36
càd. la matrice de variance-covariance, serait plus petite que celle de l’estimateur
MCO? Autrement dit, est-il possible de trouver un meilleur e stimateur de βque
l’estimateur MCO?
Le théorème Gauss-Markov indique que non, à tout le moins si o n se restreint
à considérer la classe des estimateurs linéaires (et non bia isés) deβ.
3.2.1. Estimateurs linéaires de β
L’estimateur MCO de βpeut s’écrire:
ˆβ= (X′X)−1X′Y
=WY
oùW=(X′X)−1X′est une matrice 2×n. Sous forme détaillée:
ˆβ1
ˆβ2
=
w11w12···w1n
w21w22···w2n
y1
y2
…
yn
=
n
i=1w1iyi
n
i=1w2iyi
On voit ainsi que ˆβ1etˆβ2ne sont rien d’autre que des combinaisons linéaires
desyi, les éléments w1ietw2ide ces combinaisons linéaires étant fonction de X,
qui est supposé non-stochastique. On dit que ˆβest un estimateur linéaire(et par
ailleurs non biaisé) de β.
De façon générale, tout estimateur linéairedeβs’écrit:
ˆβ∗=AY
oùAestunematrice 2×ndontlesélémentsnedépendentpasdes yi(stochastiques),
maisquipeuventdépendredes xi(non-stochastiques). Onobtientl’estimateurMCO
en prenant A=(X′X)−1X′.
Un estimateur linéaire ˆβ∗n’est pas nécessairement non biaisé. En effet, sous les
hypothèses A1, A2 et A5, on a:
E(ˆβ∗) =E(AY)
=E[A(Xβ+e)](carY=Xβ+e)
=AXβ+AE(e)(carAetXfixes)
=AXβ (carE(e)=0)
On peut cependant voir que cet estimateur sera non biaisé si Aest tel que:
AX=I
Notez que, dans le cas de l’estimateur MCO, on a bien AX=(X′X)−1X′X=I.
37
3.2.2. Le meilleur estimateur linéaire sans biais de β
Le théorème Gauss-Markov peut s’énoncer comme suit:
Sous les hypothèses A1, A2, A3-A4 et A5, l’estimateur MCO de βest
l’estimateur qui possède la plus petite (au sens matriciel) matrice de variance-
covariance parmi tous les estimateurs linéaires et sans bia is deβ. C’est le
meilleur estimateur linéaire sans biais de β.
Voici la preuve de ce résultat. Un estimateur linéaire de βs’écrit:
ˆβ∗=AY
En posant C=A−(X′X)−1X′, on peut réécrire ˆβ∗comme:
ˆβ∗=&
A−(X′X)−1X′+(X′X)−1X′'
Y
=&
C+(X′X)−1X′'
Y
=&
C+(X′X)−1X′'
(Xβ+e) (carY=Xβ+e)
=CXβ+(X′X)−1X′Xβ+&
C+(X′X)−1X′'
e
= (CX+I)β+&
C+(X′X)−1X′'
e
On sait de la section précédente que l’estimateur ˆβ∗est non biaisé si AX=I, soit,
puisqueA=C+(X′X)−1X′, si:
&
C+(X′X)−1X′'
X=I⇔CX=0
Sous la restriction CX=0, on a:
ˆβ∗=β+&
C+(X′X)−1X′'
e,
de sorte qu’on a bien:
E(ˆβ∗) =E
β+&
C+(X′X)−1X′'
e
=β+&
C+(X′X)−1X′'
E(e)(carCetXfixes)
=β (carE(e)=0),
et que la matrice de matrice de variance-covariance de ˆβ∗est donnée par:
V(ˆβ∗) =E$
(ˆβ∗−E(ˆβ∗))(ˆβ∗−E(ˆβ∗))′%
=E$
(ˆβ∗−β)(ˆβ∗−β)′%
(carE(ˆβ∗)=β),
38
soit, puisque ˆβ∗−β=(C+(X′X)−1X′)e:
V(ˆβ∗) =E&
C+(X′X)−1X′'
ee′&
C′+X(X′X)−1'
=&
C+(X′X)−1X′'
E(ee′)&
C′+X(X′X)−1'
(carCetXfixes)
=σ2&
C+(X′X)−1X′'&
C′+X(X′X)−1'
(carE(ee′)=σ2I)
=σ2
CC′+(X′X)−1X′C′+CX(X′X)−1+(X′X)−1X′X(X′X)−1
=σ2
CC′+(X′X)−1
(carCX=X′C′=0),
et donc, comme la matrice de variance-covariance de l’estim ateur MCOˆβest égale
àV(ˆβ)=σ2(X′X)−1:
V(ˆβ∗)=V(ˆβ)+σ2CC′(3.6)
La matrice CC′est nécessairement semi-définie positive27, càd. telle que pour
tout vecteur ade dimension 2×1,a′CC′a≥0. En effet, a′Cest un vecteur 1×n
eta′CC′an’est rien d’autre que la somme des carrés des éléments de ce v ecteur, qui
est nécessairement supérieure ou égale à 0.
La matrice CC′étant nécessairement semi-définie positive, on a l’ inégalité ma-
tricielle28:
V(ˆβ∗)≥V(ˆβ) (3.7)
Autrement dit, sous les hypothèses A1, A2, A3-A4 et A5, la mat rice de variance-
covariance de tout autre estimateur linéaire non biaisé ˆβ∗deβexcède (au sens
matriciel) la matrice de variance-covariance de l’estimat eur MCOˆβ.
Les relations (3.6) et (3.7) impliquent que, pour tout a=
a1
a2
, on a:
Var(a′ˆβ∗) =Var(a1ˆβ∗
1+a2ˆβ∗
2)
=a′V(ˆβ∗)a
=a′V(ˆβ)a+σ2a′CC′a !"#
≥0
≥a′V(ˆβ)a=Var(a′ˆβ) (3.8)
Ainsi, la variance de toute combinaison linéaire de ˆβ∗est toujours supérieure ou
égale à la variance de la même combinaison linéaire de ˆβ. Pour estimer une telle
combinaison linéaire de β, il vaut donc mieux utiliser l’estimateur MCO ˆβqu’un
autre estimateur linéaire non biaisé ˆβ∗. Notons que (3.8) implique en particulier
que:
Var(ˆβ∗
1)≥Var(ˆβ1)etVar(ˆβ∗
2)≥Var(ˆβ2)
Il est important de remarquer que la théorème Gauss-Markov a ssure queˆβest
27Pour rappel, une matrice Mest semi-définie positive si la forme quadratique x′Mx≥0,pour tout x.
28Pour rappel, au sens matriciel, M1≥M2si et seulement si M1−M2est une matrice semi-définie
positive.
39
le meilleur estimateur (variance minimale)parmi seulemen tles estimateurs linéaires
etnon biaisés deβ, pas parmi tous les estimateurs possibles. Cependant, si au x
hypothèses A1, A2, A3-A4 et A5, on ajoute l’hypothèse option nelle de normalité
A6, on peut montrer que ˆβest alors le meilleur estimateur (variance minimale)
parmi tous les estimateurs non biaisés , qu’ils soient linéaires ou non . Sous cette
hypothèse supplémentaire, ˆβest le meilleur estimateur sans biais de β.
On notera finalement que le théorème Gauss-Markov s’appliqu e à la règle de
décision que constitue l’estimateur MCO ˆβ, pas à une estimation obtenue pour un
échantillon particulier.
3.3. La distribution d’échantillonnage de ˆβsous
l’hypothèse de normalité
En s’appuyant sur les hypothèses A1, A2, A3-A4 et A5, on a pu ob tenir
l’espérance et la matrice de variance-covariance de ˆβ, càd. les deux premiers mo-
ments de la distribution d’échantillonnage jointe f(ˆβ1,ˆβ2)deˆβ.
Sousl’hypothèseadditionnelledenormalitéA6,ladistrib utiond’échantillonnage
deˆβest entièrement déterminée: c’est une loi normale (bivarié e). En effet, ˆβest
une combinaison linéaire de Y, et on sait qu’une combinaison linéaire d’un vecteur
distribué de façon normale suit également une loi normale (c f. Section 2.3.1). On a
donc, sous les hypothèses A1 à A6:
ˆβ∼N(β,σ2(X′X)−1),
et en particulier:
ˆβj∼N(βj,σ2qjj), j=1,2,
oùqjj=[(X′X)−1]jjdésigne l’élément (j,j)de la matrice (X′X)−1.
3.4. Propriétés de ˆβen grand échantillon:
convergence et normalité asymptotique
Les propriétés statistiques de ˆβobtenues ci-dessus (espérance, matrice de vari-
ance-covariance, distribution sous l’hypothèse de normal ité) sont des propriétés
valables en échantillon fini , càd. quelle que soit la taille nde l’échantillon. On
s’intéresse maintenant aux propriétés asymptotiques de ˆβ, càd. lorsque n→∞.
3.4.1. Convergence
Onavuque,sousleshypothèsesA1àA5etquellequesoitlatai llend’échantillon,
40
on a:
E(ˆβ1)=β1etE(ˆβ2)=β2,
et que, lorsque naugmente:
Var(ˆβ1),Var(ˆβ2)et|Cov(ˆβ1,ˆβ2)|diminuent
On en déduit qu’à mesure que naugmente, la distribution d’échantillonnage
jointef(ˆβ1,ˆβ2), et par voie de conséquence les distributions marginales as sociées
f(ˆβ1)etf(ˆβ2),sont de plus en plus concentrées autour de leur vraie valeur β1et
β2. Graphiquement:
fj
jEjjn1n3
n3n2n1
n2
j j
Graphique 11: Distribution de ˆβj(j=1,2) lorsquenր
De façon générale, on dit qu’un estimateur ˆθ(pas nécessairement non biaisé)
converge en probabilité versθ, ce qu’on note ˆθp−→θou plimˆθ=θ, si:
lim
n→∞IP
|ˆθ−θ|<ε
=1,
oùεest un nombre positif arbitrairement petit.
Autrement dit, un estimateur ˆθconverge en probabilité vers une certaine valeur
θsi la probabilité que ˆθprenne une valeur aussi proche que l’on veut de θtend vers
1lorsquen→∞.
Desconditions suffisantes pour queˆθp−→θsont:
lim
n→∞E(ˆθ)=θetlim
n→∞Var(ˆθ)=0
Sous les hypothèses A1 à A5, ces conditions sont manifesteme nt remplies pour
ˆβ1etˆβ2. Sous les hypothèses A1 à A5, on a donc:
ˆβp−→β
Ainsi, sous les hypothèses A1 à A5, la probabilité que ˆβsoit aussi proche que
41
l’on veut de la vraie valeur β, càd. d’obtenir pour un échantillon particulier une
estimation aussi proche que l’on veut de β, tend vers 1 lorsque la taille d’échantillon
ntend vers l’infini.
3.4.2. Distribution asymptotique
On a vu que sous les hypothèses A1 à A6, càd. en particulier sou s l’hypothèse
de normalité, on a en échantillon fini (quel que soit n):
ˆβ∼N(β,σ2(X′X)−1)
On peut montrer que le même résultat tient asymptotiquement , càd. en grand
échantillon, lorsque n→∞, sous les seules hypothèses A1 à A5 (sans invoquer A6
donc).
En d’autres termes, quelle que soit la loi des yi(au-delà de leurs deux premiers
moments), donc même lorsque les yin’ontpasune distribution normale, ˆβa une
distributiond’échantillonnagejointe f(ˆβ1,ˆβ2)qui,àmesureque naugmente,estnon
seulement de plus en plus concentrée autour de la vraie valeu rβ, mais encore qui
s’approchedeplusenplusdelaformeenclochetypiqued’une loinormale(bivariée).
Formellement, sous les hypothèses A1 à A5, on a:
$
V(ˆβ)%−1
2
ˆβ−β
d−→N(0,I),
oùV(ˆβ)=σ2(X′X)−1et ‘d−→’ indique une convergence en distribution29, soit, ex-
primé sous forme d’approximation utilisable en échantillo n fini pour nsuffisamment
grand:
ˆβ≈N(β,σ2(X′X)−1)
Cette approximation est souvent, mais pas toujours, raison nable dèsn >30. Elle
est évidemment d’autant plus raisonnable que nest grand.
3.5. Estimation de σ2et deV(ˆβ)
Les résultats de distribution d’échantillonnage de ˆβobtenus ci-dessus nous per-
mettront, dès le chapitre suivant, d’établir des procédure s d’inférence statistique:
intervalle de confiance et tests d’hypothèses relatifs à β, et ensuite intervalles de
prévision.
Aupréalable,ilnousfautencoreobtenirun estimateur delamatricedevariance-
covariance V(ˆβ)=σ2(X′X)−1de l’estimateur MCO ˆβ, ce qui nécessite de trouver
unestimateur de la variance σ2du terme d’erreur du modèle.
29On dit aussi convergence en loi.
42
3.5.1. Estimateur de σ2
Etant donné que:
σ2=E(e2
i)oùei=yi−β1−β2xi, i=1,…,n
il semble, par analogie, naturel de considérer comme estima teurˆσ2deσ2:
ˆσ2=1
nn
i=1ˆe2
i=ˆe′ˆe
noùˆei=yi−ˆβ1−ˆβ2xi,
càd. deremplacerl’espérance E(.)parsacontrepartieempirique1
nn
i=1(.)etei,quiest
non observable, par son estimateur ˆei. Cet estimateur est l’estimateur MV obtenu
à la Section 2.2.2.
Bien qu’on puisse, sous les hypothèses A1 à A5, montrer qu’il estconvergent ,
cet estimateur ˆσ2est un estimateur biaisédeσ2. En effet, on a30:
E(ˆσ2) =1
nE(ˆe′ˆe)
=1
nE(e′M′
XMXe) (carˆe=MXe,cf. Section 2.3.4)
=1
nE(e′MXe) (carM′
X=MXetMXMX=MX)
=1
nE[tr(e′MXe)] (car tr(a)=a,pourascalaire)
=1
nE[tr(MXee′)] (car tr(AB)=tr(BA),siABetBAexistent)
=1
ntr[E(MXee′)] (carE[tr(.)]=tr[E(.)])
=1
ntr[MXE(ee′)] (carMXfixe)
=σ2
ntr[MX] ( carE(ee′)=σ2I)
=σ2
ntr
I−X(X′X)−1X′
(carMX=I−X(X′X)−1X′)
=σ2
n
tr(I)−tr(X(X′X)−1X′)
(car tr(A+B)=tr(A)+tr(B))
=σ2
n
n−tr((X′X)−1X′X)
(car tr(AB)=tr(BA))
=σ2
n[n−2] (car tr((X′X)−1X′X)=tr
1 0
0 1
=2)
30Ci-dessous, tr (M)désigne la trace de la matrice (carrée) M, càd. la somme de ses éléments diagonaux.
43
On voit ainsi que ˆσ2sous-estime systématiquement σ2:
E(ˆσ2)=n−2
nσ2<σ2(3.9)
De (3.9), on peut aisément déduire un estimateur convergent etnon biaisé de
σ2:
ˆs2=1
n−2n
i=1ˆe2
i=ˆe′ˆe
n−2(3.10)
Pour cet estimateur ˆs2, on a en effet:
E(ˆs2)=E(n
n−2ˆσ2)=n
n−2E(ˆσ2)=n
n−2n−2
nσ2=σ2
Trois points méritent d’être soulignés:
1-Le facteur (n−2)est généralement appelé nombre de degrés de liberté ,2étant
le nombre de paramètres préalablement estimés pour obtenir lesˆei.
2-ˆs2est convergent et non biaisé sous les hypothèses A1 à A5.
3-Lorsque n→∞,ˆs2etˆσ2deviennent identiques.
3.5.2. Estimateur de V(ˆβ)
Sur base de l’estimateur ˆs2, sous les hypothèses A1 à A5 ,un estimateur conver-
gentetnon biaisé deV(ˆβ)=σ2(X′X)−1est donné par:
ˆV(ˆβ)=ˆs2(X′X)−1(3.11)
soit, sous forme détaillée:
Vˆar(ˆβ1) = ˆs2n
i=1×2
i
nn
i=1(xi−¯x)2=ˆs2
1
n+¯x2
n
i=1(xi−¯x)2
Vˆar(ˆβ2) =ˆs2
n
i=1(xi−¯x)2
Cˆov(ˆβ1,ˆβ2) =Cˆov(ˆβ2,ˆβ1)=ˆs2
−¯x
n
i=1(xi−¯x)2
A partir des estimateurs Vˆar(ˆβ1)et deVˆar(ˆβ2), des estimateurs convergents ,
maispas non biaisés des écarts-types s.e.(ˆβ1)ets.e.(ˆβ2)deˆβ1etˆβ2sont donnés
44
par:
s.ˆe.(ˆβ1)=(
Vˆar(ˆβ1)ets.ˆe.(ˆβ2)=(
Vˆar(ˆβ2)
3.5.3. Exemple: la fonction de consommation de HGL (2008)
Pour les données de Hill, Griffiths et Lim (2008) considérée à l a Section 2.2.3,
on a vu que la fonction de consommation estimée était:
ˆyi=83,42 !"#
ˆβ1+10,21 !"#
ˆβ2xi
oùxidésignelerevenud’unménage(encentainesde$)et yilesdépensesalimentaires
de ce ménage (en $).
Pour ces données, on obtient comme estimation de σ2et deV(ˆβ):
ˆs2=8013,29etˆV(ˆβ)=
1884,44−85,90
−85,90 4,38
soit, sous forme détaillée:
Vˆar(ˆβ1)=1884,44 =⇒s.ˆe.(ˆβ1)=43,41
Vˆar(ˆβ2)=4,38 =⇒s.ˆe.(ˆβ2)=2,09
Cˆov(ˆβ1,ˆβ2)=Cˆov(ˆβ2,ˆβ1)=−85,90
45
Chapitre4
Intervalle de confiance et test d’hypothèse
On avu àla Section 3.3 que, sous les hypothèses A1à A6, on a de f açonexacte:
ˆβ∼N(β,σ2(X′X)−1),
et en particulier:
ˆβj∼N(βj,σ2qjj), j=1,2, (4.1)
oùqjj=[(X′X)−1]jjdésigne l’élément (j,j)de la matrice (X′X)−1.
En s’appuyant sur ce résultat de distribution d’échantillo nnage deˆβ, on peut
construire des intervalles de confiance et des tests d’hypot hèses relatifs à β.
Dans un premier temps, nous supposerons toujours que, outre les hypothèses
A1 à A5, l’hypothèse optionnelle de normalité A6 est satisfa ite. Nous verrons en fin
de chapitre ce qu’il en est si on renonce à cette hypothèse.
4.1. Intervalles de confiance pour β1etβ2
L’estimateur MCO ˆβdélivre une estimationponctuelle de β=
β1
β2
. Surbase
durésultatdedistributiond’échantillonnage(4.1),onpe utconstruiredes intervalles
de confiance , aussi appelés estimateurs par intervalle , deβ1et deβ2qui, plutôt que
de délivrer une valeur ponctuelle, fournissent des interva lles de valeurs plausibles
pourβ1etβ2, et par là même rendent compte de la précision d’estimation deβ1et
β2.
Notonsquecomme l’estimateurMCO,lesintervallesde confia ncesontdes règles
de décision .
4.1.1. Cas où σ2est connu
Pour simplifier, on commence par considérer le cas où σ2est connu.
46
On sait que, sous les hypothèses A1 à A6, on a pour ˆβj(j=1,2):
ˆβj∼N(βj,Var(ˆβj)),
oùVar(ˆβj)=σ2qjj, avecqjj=[(X′X)−1]jj, de sorte que:
ˆz=ˆβj−βj
s.e.(ˆβj)∼N(0,1), (4.2)
oùs.e.(ˆβj)=(
Var(ˆβj).
ˆzayantune distribution normale standardisée, en utilisant une table31ou l’ordi-
nateur, on peut trouver la valeur critique z1−α
2qui est telle que:
IP(z≤−z1−α
2)=IP(z≥z1−α
2)=α
2
⇔IP(−z1−α
2≤z≤z1−α
2)=1−α,
oùz∼N(0,1).z1−α
2est lequantile d’ordre 1−α
2de la loiN(0,1). Graphiquement:
zN0,1
02fz
z
1212
zz
12
Graphique 12: Quantile d’ordre 1−α
2de la loiN(0,1)
Par exemple, pour α=0,05, et donc1−α=0,95, on az1−α
2=1,96.
Pourαdonné, et donc la valeur critique z1−α
2, on a ainsi:
IP
−z1−α
2≤ˆβj−βj
s.e.(ˆβj)≤z1−α
2
=1−α (4.3)
⇔IP
βj−z1−α
2s.e.(ˆβj)≤ˆβj≤βj+z1−α
2s.e.(ˆβj)
=1−α(4.4)
31Voir l’annexe E de Hill, Griffiths et Lim (2008).
47
Graphiquement:
j2
12fjDistribution de j
jz
12s.e. j j jz
12s.e. j
Graphique 13: Intervalle non-stochastique pour ˆβj
On voit que, connaissantlavraievaleur βjetl’écart-type s.e.(ˆβj)–qui dépend
den, deσ2et desxi, cf. Section 3.1.3 –, on obtient aisément un intervalle non-
stochastique32$
βj−z1−α
2s.e.(ˆβj);βj+z1−α
2s.e.(ˆβj)%
au sein duquel l’estimateur
MCOˆβja, sous les hypothèses A1 à A6, une probabilité ( 1−α) de prendre sa
valeur.
Un intervalle de confiance pour βj(j= 1,2) est obtenu en suivant la même
logique que ci-dessus, mais en ‘l’inversant’. De (4.3), on p eut en effet également
obtenir33:
IP
ˆβj−z1−α
2s.e.(ˆβj)≤βj≤ˆβj+z1−α
2s.e.(ˆβj)
=1−α, (4.5)
soit unintervalle de confiance à (1−α)×100%pourβj:
$
ˆβj−z1−α
2s.e.(ˆβj);ˆβj+z1−α
2s.e.(ˆβj)%
(4.6)
Le Graphique 14 ci-dessous illustre le lien entre l’interva lle de confiance (4.6)
obtenu de (4.5), dont les bornes sont stochastiques34, et l’intervalle non-stochastique
associé à (4.4).
32i.e., qui ne varie pas d’un échantillon à l’autre.
33En isolant βjplutôt queˆβjau centre des inégalités (vérifiez-le!).
34i.e., elles varient d’un échantillon à l’autre, comme consé quence de la variation de ˆβjd’un échantillon
à l’autre.
48
j2 2fjDistribution de j
jz
12s.e. jjjde j: j
cette réalisation particulière de j
jz
12s.e. jjz12s.e. jUne réalisation particulière
L'intervalle de confiance pour
jz12s.e. j
Graphique 14: Intervalle de confiance pour βj
Etant donné (4.5), sous les hypothèses A1 à A6, il y a une proba bilité(1−α)
que l’intervalle (stochastique) de confiance (4.6) recouvr e la vraie valeur (inconnue)
βj. Notons cependant que pour un échantillon particulier, rie n ne garantit que ce
soit effectivement le cas. Simplement, étant donné la règle d e décision adoptée, il y
a de fortes chances (si on choisit αpetit) qu’il en soit bien ainsi.
4.1.2. Cas où σ2est inconnu
En pratique, on ne peut pas appliquer le résultat de la sectio n précédente car
σ2est inconnu .
Pour contourner ce problème, il semble assez logique de remp lacer la valeur
inconnue de σ2par son estimateur convergent et non biaisé (sous les hypoth èses A1
à A5):
ˆs2=1
n−2n
i=1ˆe2
i=ˆe′ˆe
n−2
Quelestl’impactdeceremplacement? Pourlesavoir,oncher checequedevient
la distribution d’échantillonnage de:
ˆz=ˆβj−βj
s.e.(ˆβj)=ˆβj−βj)
σ2qjj,
oùqjj=[(X′X)−1]jj, lorsqueσ2est remplacé par son estimateur ˆs2.
Des calculs effectués à la Section 3.5.1, on sait que:
ˆe′ˆe=e′MXe,
oùMXest une matrice symétrique idempotente dont la trace tr (MX)=n−2.
49
On peut montrer que le rang et la trace d’une matrice symétriq ue sont égaux.
On a donc que ˆe′ˆeest égal à une forme quadratique e′MXeoù:
e∼N(0,σ2I) (hypothèse A6),
etMXest une matrice symétrique idempotente de rang ( n−2).
D’après la propriété (2.19) de la loi normale multivariée35, on a ainsi:
ˆe′ˆe
σ2=e′MXe
σ2∼χ2(n−2)
⇔ˆv=(n−2)ˆs2
σ2∼χ2(n−2)(carˆe′ˆe=(n−2)ˆs2)
On peut encore montrer que ˆz=ˆβj−βj√
σ2qjjetˆv=(n−2)ˆs2
σ2sont indépendamment
distribués, de sorte que de la définition de la loi de Student36, on a:
ˆt=ˆz*
ˆv
n−2=ˆβj−βj)
σ2qjj*
ˆs2
σ2∼t(n−2),
soit, en simplifiant:
ˆt=ˆβj−βj)
ˆs2qjj=ˆβj−βj
s.ˆe.(ˆβj)∼t(n−2) (4.7)
On constate que le remplacement de σ2par son estimateur ˆs2fait passer d’une
loinormale standardisée à une loideStudentà ( n−2) degrés de liberté, qui estplus
dispersée que la loi normale, mais qui tend vers elle lorsque n→∞(Cf. l’annexe B
de Hill, Griffiths et Lim (2008)).
Sur base du résultat (4.7), en suivant la même démarche qu’à l a section précé-
dente, on obtient facilement un intervalle de confiance pour βj.
En utilisant une table37ou l’ordinateur, on peut trouver la valeur critique
tn−2;1−α
2qui est telle que:
IP(t≤−tn−2;1−α
2)=IP(t≥tn−2;1−α
2)=α
2
⇔IP(−tn−2;1−α
2≤t≤tn−2;1−α
2)=1−α,
oùt∼t(n−2).tn−2;1−α
2est lequantile d’ordre 1−α
2de la loit(n−2). Graphique-
35Cf. Section 2.3.1.
36Siz∼N(0,1),v∼χ2(m)et quezetvsont indépendamment distribués, alors: t=z√v
m∼t(m). Cf.
l’annexe B de Hill, Griffiths et Lim (2008).
37Voir l’annexe E de Hill, Griffiths et Lim (2008).
50
ment:
ttn2
02ft
12
tt
n2;12t
n2;12
Graphique 15: Quantile d’ordre 1−α
2de la loit(n−2)
Par exemple, pour α=0,05etn=20, , on atn−2;1−α
2=2,101.
Pourαetndonné, et donc la valeur critique tn−2;1−α
2, on a ainsi:
IP
−tn−2;1−α
2≤ˆβj−βj
s.ˆe.(ˆβj)≤tn−2;1−α
2
=1−α,
d’où on peut tirer:
IP
ˆβj−tn−2;1−α
2s.ˆe.(ˆβj)≤βj≤ˆβj+tn−2;1−α
2s.ˆe.(ˆβj)
=1−α, (4.8)
soit unintervalle de confiance à (1−α)×100%pourβj:
$
ˆβj−tn−2;1−α
2s.ˆe.(ˆβj);ˆβj+tn−2;1−α
2s.ˆe.(ˆβj)%
(4.9)
Etant donné (4.8), sous les hypothèses A1 à A6, comme dans le c as oùσ2est
connu, il y a une probabilité (1−α)que l’intervalle ( stochastique38) de confiance
(4.9) recouvre la vraie valeur (inconnue) βj.
Appliqué à un échantillon particulier, l’intervalle de con fiance (4.9) à (1−α)×
100%pourβj(j=1,2) synthétise de façon très parlante l’information disponib le
tant sur le niveau (estimation ponctuelle) que sur la variab ilité d’échantillonnage,
et donc la précision, de l’estimation obtenue: le centre de l ’intervalle de confiance
donne l’estimation ponctuelle, et ses bornes, qui dépenden t deαet de l’écart-type39
estimés.ˆe.(ˆβj)de l’estimateur ˆβj, indique (pour αdonné) l’ampleur estiméede sa
variabilité.
38Il varie à nouveau d’un échantillon à l’autre.
39Notons que contrairement à la variance, l’écart-type est lu i exprimé dans les mêmes unités de mesure
que le paramètre.
51
4.1.3. Exemple: la fonction de consommation de HGL (2008)
Pour les données de Hill, Griffiths et Lim (2008) considérée à l a Section 2.2.3,
on vu que la fonction de consommation estimée pour un échanti llon de40ménages
était:
ˆyi=83,42 !"#
ˆβ1+10,21 !"#
ˆβ2xi
oùxidésignelerevenud’unménage(encentainesde$)et yilesdépensesalimentaires
de ce ménage (en $).
On a par ailleurs vu à la Section 3.5.3 qu’on avait pour ces don nées:
Vˆar(ˆβ1)=1884,44 =⇒s.ˆe.(ˆβ1)=43,41
Vˆar(ˆβ2)=4,38 =⇒s.ˆe.(ˆβ2)=2,09
Pourα=0,05et(n−2)=40−2=38,on atn−2;1−α
2=t38;0,975=2,024, de
sorte qu’un intervalle de confiance à 95%pourβ1est donné par:
ˆβ1±tn−2;1−α
2s.ˆe.(ˆβ1) = 83,42±2,024×43,41
= [−4,44;171,28],
et un intervalle de confiance à 95%pourβ2est donné par:
ˆβ2±tn−2;1−α
2s.ˆe.(ˆβ2) = 10,21±2,024×2,09
= [5,98;14,44]
De l’intervalle de confiance à 95%pourβ2, on peut affirmer avec un niveau de
confiance de 95% qu’une augmentation du revenu de 100$ accroît la consommation
alimentaire moyenne d’un ménage d’un montant compris entre 5,98$ et14,44$
(attention aux unités de mesure !). Pour une augmentation de 1$ du revenu, cela
donne une augmentation de la consommation alimentaire moye nne comprise entre
0,0598$ et0,1444$. On constate que l’estimation de β2obtenue est assez précise.
4.2. Tests d’hypothèses de β1etβ2
Les tests d’hypothèses sont des règles de décision statistiques permettant d’éva-
luer si une hypothèse ou une conjecture théorique est ou non c ompatible avec les
observations dont on dispose.
52
En s’appuyant sur les propriétés d’échantillonnage de ˆβ=ˆβ1
ˆβ2
, on peut
construire des tests d’hypothèses bilatéraux etunilatéraux concernant les vraies
valeurs de β1etβ2.
4.2.1. Cas où σ2est connu
Comme pour les intervalles de confiance, on commence, pour si mplifier, par
considérer le cas où σ2est connu.
4.2.1.1. Statistique de test
On sait que, sous les hypothèses A1 à A6, on a pour ˆβj(j=1,2):
ˆβj∼N(βj,Var(ˆβj)),
oùVar(ˆβj)=σ2qjj, avecqjj=[(X′X)−1]jj.
Ainsi, si la vraie valeur de βjest égale à βo
j, on a:
ˆβj∼N(βo
j,Var(ˆβj))
⇔ˆzo=ˆβj−βo
j
s.e.(ˆβj)∼N(0,1), (4.10)
oùs.e.(ˆβj)=(
Var(ˆβj), tandis que si la vraie valeur de βjest différente de βo
jet
par exemple égale à β∗
j(β∗
j=βo
j), on a:
ˆβj∼N(β∗
j,Var(ˆβj))
⇔(ˆβj−βo
j)∼N(β∗
j−βo
j,Var(ˆβj))
⇔ˆzo=ˆβj−βo
j
s.e.(ˆβj)∼N
β∗
j−βo
j
s.e.(ˆβj),1
(4.11)
En d’autres termes, si βj=βo
j,ˆzosuit une loi normale standardisée, tandis que si
βj=β∗
j(=βo
j), le mêmeˆzosuit une loi normale, toujours de variance unitaire, mais
53
d’espérance différente de 0. Graphiquement:
z00jj0
s.e. jfz0Distribution de z0
lorsque jj0
jj0
s.e. jDistribution de z0
Distribution de z0
lorsque jjj0Distribution de z0
lorsque jjj0
Graphique 16: Distribution de ˆzo
Etant donné ses propriétés, on peut utiliser ˆzocommestatistique de test pour
tester des hypothèses telles que H 0:βj=βo
jcontre H1:βj=βo
j(testbilatéral) ou
H0:βj≤βo
j(resp.βj≥βo
j) contre H 1:βj>βo
j(resp.βj<βo
j) (testsunilatéraux ).
4.2.1.2. Test bilatéral
Un test bilatéral au seuilouniveau(de signification) αde l’hypothèse nulle
H0:βj=βo
jcontre l’ hypothèse alternative H1:βj=βo
jest donné par la règle de
décision:
- Rejet de H0si|ˆzo|=+++++ˆβj−βo
j
s.e.(ˆβj)+++++>z1−α
2
– Non-rejet de H0sinon
où lavaleur critique z1−α
2est le quantile d’ordre 1−α
2de la loiN(0,1)(cf.le
Graphique 12 de la Section 4.1.1).
Le seuilαdu test est le risque de première espèce (ouprobabilité d’erreur de
type I) du test, càd. la probabilité de rejeter H 0lorsque H 0est vraie:
IP(RH0|H0est vraie)=α
54
Graphiquement:
02fz0Distribution de z0
z
12jj0 H0vraie
z0
Rejet de H 0z
121ère espèce
Rejet de H 02Distribution de z0lorsque
Non-rejet de H 0Risque de
Graphique 17: Risque de première espèce du test bilatéral
Plusαest choisi petit, plus on peut être confiant dans le fait que, l orsqu’on
rejette H 0, cela est effectivement dû au fait que H 0est fausse40.
Lapuissance du test est la probabilité de rejeter H 0lorsque H 0est fausse:
IP(RH0|H0est fausse),
probabilité qui est égale à 1moins le risque de deuxième espèce41(ouprobabilité
d’erreur de type II ). Graphiquement:
0fz0Distribution de z0
z
12lorsque jjj0
z0
Rejet de H 0z
12du test
Rejet de H 0Distribution de z0
Non-rejet de H 0Puissance
jj0
s.e. jDistribution de z0lorsque jj0
Graphique 18: Puissance du test bilatéral
La puissance du test dépend:
1-du seuil du test (si αց, la puissance ց),
40En effet, si H 0était vraie, il n’y aurait qu’une petite probabilité αde la rejeter.
41càd. la probabilité de ne pas rejeter H 0lorsque H 0est fausse: IP(NRH0|H0est fausse).
55
2-de la fausseté de H 0(si|β∗
j−βo
j|ր, la puissance ր),
3-de la précision d’estimation (si s.e.(ˆβj)ց, la puissance ր).
Au contraire du risque de première espèce α, la puissance du test n’est pas sous
contrôle. C’est pourquoi, sauf si on a de bonnes raisons de penser que l a puissance
du test est élevée (par exemple parce que la taille d’échanti llon est très élevée, de
sortequeleprécisiond’estimationestgrande),ilfautseg arderd’interpréterunnon-
rejet de H 0comme une preuve convaincante que H 0est vraie42. Il s’agit ‘seulement’
d’une absence de preuve que H 0est fausse (ce qui n’est pas si mal !).
4.2.1.3. Relation entre test bilatéral et intervalle de con fiance
OnpeutétablirunlienentreletestbilatéraldeH 0:βj=βo
jcontreH1:βj=βo
j
et l’intervalle de confiance pour βj(j=1,2).
Dans le test bilatéral au seuilαde H0:βj=βo
jcontre H1:βj=βo
jdécrit à la
section précédente, on ne rejette pas H0lorsque:
|ˆzo|=+++++ˆβj−βo
j
s.e.(ˆβj)+++++≤z1−α
2,
soit, lorsque:
−z1−α
2≤ˆβj−βo
j
s.e.(ˆβj)≤z1−α
2
⇔βo
j−z1−α
2s.e.(ˆβj)≤ˆβj≤βo
j+z1−α
2s.e.(ˆβj)
⇔ˆβj−z1−α
2s.e.(ˆβj)≤βo
j≤ˆβj+z1−α
2s.e.(ˆβj)
Les bornes de ce dernier intervalle ne sont rien d’autre que l es bornes de l’intervalle
de confiance à (1−α)×100%pourβjobtenu à la Section 4.1.1 (cf. équation (4.6)).
En d’autres termes, on peut réaliser de façon totalement équ ivalente un test au
seuilαde H0:βj=βo
jcontre H1:βj=βo
jsur base de l’intervalle de confiance à
(1−α)×100%pourβjen appliquant la règle de décision:
- Rejet de H0siβo
jn’appartient pas à l’intervalle de
confiance (4.6) à (1−α)×100%pourβj
– Non-rejet de H0sinon
42Pour pouvoir interpréter un non-rejet de H 0comme une preuve convaincante que H 0est vraie, il
faut être assuré que la puissance du test est grande, ou autre ment dit, que le risque de deuxième espèce
IP(NRH0|H0est fausse)est petit. Dans ce cas, lorsqu’on ne rejette pas H 0, on peut être confiant dans le
fait que H 0est effectivement vraie (puisque si H 0était fausse, il n’y aurait qu’une petite probabilité – le
risque de deuxième espèce – de ne pas la rejeter).
56
Graphiquement:
j02 2fjDistribution de j
j0z
12s.e. jjjde j: j
cette réalisation particulière de j
j0z
12s.e. jjz12s.e. jUne réalisation particulière
L'intervalle de confiance pour
jz12s.e. jDistribution de jlorsque jj0
Non-rejet de H 0 Rejet de H 0 Rejet de H 0
Graphique 19: Test bilatéral et intervalle de confiance
On remarquera incidemment que lorsque la précision d’estim ation deβjest
faible, et donc son intervalle de confiance est large, on ne po urra pas rejeter H 0:
βj=βo
jcontre H1:βj=βo
jpour un tout aussi large éventail (que l’intervalle de
confiance) de valeurs de βo
j.
4.2.1.4. Test unilatéraux
Un test unilatéral à droite auseuilαde H0:βj≤βo
jcontre H1:βj> βo
jest
donné par la règle de décision:
- Rejet de H0siˆzo=ˆβj−βo
j
s.e.(ˆβj)>z1−α
– Non-rejet de H0sinon
où lavaleur critique z1−αest le quantile d’ordre 1−αde la loiN(0,1), càd. la
valeurz1−αtelle que IP(z≤z1−α)=1−α, oùz∼N(0,1). Graphiquement:
zN0,1
0fz
z z1
Graphique 20: Quantile d’ordre 1−αde la loiN(0,1)
57
Par exemple, pour α=0,05, et donc1−α=0,95, on az1−α=1,6449.
De façon symétrique, un test unilatéral à gauche auseuilαde H0:βj≥βo
j
contre H1:βj<βo
jest donné par la règle de décision:
- Rejet de H0siˆzo=ˆβj−βo
j
s.e.(ˆβj)<zα(=−z1−α)
– Non-rejet de H0sinon
où lavaleur critique zαest le quantile d’ordre αde la loiN(0,1), càd. la valeur zα
telle que IP(z≤zα)=α, oùz∼N(0,1). Graphiquement:
zN0,1
0fz
z zz1 z1
Graphique 21: Quantile d’ordre αde la loiN(0,1)
Par exemple, pour α=0,05, et donc1−α=0,95, on azα=−z1−α=−1,6449.
Le seuilαdes tests unilatéraux (à droite ou à gauche) est la valeur maximum
durisque de première espèce de ces tests. On a toujours:
IP(RH0|H0est vraie)≤α
l’égalité se réalisant pour H 0vraie avec βj=βo
j. Graphiquement (cas du test
unilatéral à gauche):
0fz0Distribution de z0
zjj0 H0vraie
z0
Rejet de H 01ère espèce
Distribution de z0lorsque
Non-rejet de H 0Risque de
0 fz0Distribution de z0
zjjj0 H0vraie
Rejet de H 01ère espèce
Distribution de z0lorsque
Non-rejet de H 0Risque de
z0jj0
s.e. j
Graphique 22: Risque de première espèce du test unilatéral à gauche
Comme dans le cas du test bilatéral, plus αest choisi petit, plus on peut être
58
confiant dans le fait que, lorsqu’on rejette H 0, cela est effectivement dû au fait que
H0est fausse.
Anouveaucommedanslecasdutestbilatéral,la puissance destestsunilatéraux
(à droite ou à gauche):
IP(RH0|H0est fausse),
dépend:
1-du seuil du test (si αց, la puissance ց),
2-de la fausseté de H 0(si|β∗
j−βo
j|ր, la puissance ր),
3-de la précision d’estimation (si s.e.(ˆβj)ց, la puissance ր).
Graphiquement(cas du test unilatéral à gauche):
0fz0Distribution de z0
zlorsque jjj0
z0
Rejet de H 0du test
Distribution de z0
Non-rejet de H 0Puissance
jj0
s.e.jDistribution de z0
lorsque jj0
Graphique 23: Puissance du test unilatéral à gauche
Toujours comme dans le cas du testbilatéral, au contraire du risque de première
espèce qui est toujours inférieur ou égal à α, la puissance des tests unilatéraux n’est
pas sous contrôle , de sorte qu’on se gardera d’interpréter (sauf si on a de bonn es
raisons de le faire) un non-rejet de H 0comme une preuve convaincante que H 0est
vraie.
4.2.1.5.P-valeur d’un test bilatéral et unilatéral
La mise en oeuvre des procédures de test décrites ci-dessus d élivre un résultat
binaire (on rejette ou on ne rejette pas), et ce résultat peut être différent selon le
choix du seuil αdu test: on peut par exemple rejeter H 0au seuil de5%, mais pas
au seuil de1%.
Ayant calculé la valeur de la statistique ˆzo=ˆβj−βo
j
s.e.(ˆβj)pour un échantillon parti-
59
culier, il est naturel de se demander quelle est la valeur minimale du seuilαdu test
(bilatéral ou unilatéral selon le test réalisé) pour laquel le on peut rejeter H 0. Cette
valeur minimale de αest appelée la P-valeur du test .
Désignons par ˆz∗
o=ˆβ∗
j−βo
j
s.e.(ˆβj)la valeur de la statistique de test ˆzoobtenue pour un
échantillon particulier.
Dans le cas d’un test bilatéral (H0:βj=βo
jcontre H1:βj=βo
j), laP-valeur
pˆz∗odu test pour cet échantillon particulier est donnée par:
pˆz∗o=IP(|z|>|ˆz∗
o|),oùz∼N(0,1)
Graphiquement:
zN0,1
0fz
z
12zz
12
test au seuil lorsque jj0= Distribution de z0
Valeurs critiques d'un zN0,1
0fz
z
12zpz0
2
test au seuil lorsque jj0= Distribution de z0
Valeurs critiques d'un z
12de z0: z0
pz0
2Une réalisation particulière
z0du test Pvaleur
z0
z0z0Une réalisation particulière
de z0: z0
pz0
2pz0
2
Graphique 24: P-valeur d’un test bilatéral
Dans le cas d’un test unilatéral à droite (H0:βj≤βo
jcontre H1:βj> βo
j), la
P-valeurpˆz∗odu test pour cet échantillon particulier est donnée par:
pˆz∗o=IP(z >ˆz∗
o),oùz∼N(0,1),
etdefaçonsymétrique,danslecasd’un test unilatéral à gauche (H0:βj≥βo
jcontre
H1:βj< βo
j), laP-valeurpˆz∗odu test pour cet échantillon particulier est donnée
par:
pˆz∗o=IP(z <ˆz∗
o),oùz∼N(0,1)
60
Graphiquement (cas du test unilatéral à droite):
zN0,1
0fz
zz1
test au seuil lorsque jj0= Distribution de z0
Valeur critique d'un zN0,1
0fz
z
test au seuil lorsque jj0= Distribution de z0
Valeur critique d'un z1de z0: z0
pz0Une réalisation particulière
du test Pvaleur
z0z0Une réalisation particulière
de z0: z0
pz0
Graphique 25: P-valeur d’un test unilatéral à droite
Comme le suggère les graphiques ci-dessus, un test (bilatér al ou unilatéral) au
seuilαrejettera H 0pour toutαsupérieure à la P-valeurpˆz∗odu test, et ne rejettera
pas H0pour toutαinférieur (ou égal) à la P-valeurpˆz∗odu test. La P-valeurpˆz∗oest
donc bien la valeur minimale du seuil αdu test pour laquelle on peut rejeter H 0.
Plus laP-valeurpˆz∗odu test (bilatéral ou unilatéral) est petite, plus on peut
rejeter H 0à un seuil αpetit, càd. avec un risque de première espèce (dans le cas
d’un test unilatéral, un risque de première espèce maximum) petit, et donc plus il
est crédible que H 0est fausse.
On notera que la P-valeur d’un test n’est pas la probabilité que H 0soit vraie43.
C’est la probabilité, sous l’hypothèse que H 0est vraie, d’obtenir pour la statistique
de testˆzoune valeur ‘aussi extrême’ que la valeur observée ˆz∗
o. D’où le fait que
plus cette probabilité est petite, plus on peut être confiant dans le fait que H 0est
effectivement fausse.
LaP-valeurd’untestesttoujoursreportéeparleslogicielséc onométriques. Une
bonne pratique empirique est de toujours reporter, outre la valeur de la statistique
de test obtenue, la P-valeur du test que l’on a effectué. De cette façon, le lecteur
peutfacilementsefaire sapropre opinionquantà laplausib ilité del’hypothèse nulle
H0testée.
4.2.2. Cas où σ2est inconnu
En pratique, la statistique de test ˆzo=ˆβj−βo
j
s.e.(ˆβj)ne peut pas être calculée car
s.e.(ˆβj) =(
Var(ˆβj) =)
σ2qjj(oùqjj= [(X′X)−1]jj) dépend de la variance du
terme d’erreur σ2qui est inconnue.
43H0est soit vraie, soit fausse, pas vraie ou fausse avec une cert aine probabilité.
61
Comme on l’a fait pourle calculdes intervalles de confiance, onpeutcontourner
ce problème en remplaçant σ2par son estimateur convergent et non biaisé ˆs2.
On a vu à la Section 4.1.2 que, sous les hypothèses A1 à A6, lors qu’on remplace
σ2par son estimateur convergent et non biaisé ˆs2, on a pour ˆβj(j= 1,2;cf.
équation (4.7)):
ˆt=ˆβj−βj)
ˆs2qjj=ˆβj−βj
s.ˆe.(ˆβj)∼t(n−2),
de sorte que si la vraie valeur de βjest égale à βo
j, on a:
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)∼t(n−2), (4.12)
et on peut montrer que si la vraie valeur de βjest différente de βo
jet par exemple
égale àβ∗
j(β∗
j=βo
j), on a:
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)∼t(δ∗,n−2), (4.13)
oùt(δ∗,n−2)désigne la loi de Student non-centrale44à (n−2) degrés de liberté et
le paramètre de non-centralité δ∗est égal à:
δ∗=β∗
j−βo
j
s.e.(ˆβj)
Graphiquement:
t00jj0
s.e. jft0Distribution de t0
lorsque jj0
jj0
s.e. jDistribution de t0
Distribution de t0
lorsque jjj0Distribution de t0
lorsque jjj0
Graphique 26: Distribution de ˆto
En d’autres termes, si βj=βo
j,ˆtosuit une loi de Student à ( n−2) degrés de
44Par définition, si z∼N(δ,1),v∼χ2(m), etzetvsont indépendamment distribués, alors: t=z√v
m∼
t(δ,m).
62
liberté, tandis que si βj=β∗
j(=βo
j), le mêmeˆtosuit une loi de Student toujours à
(n−2) degrés de liberté, mais décentré (par rapport à zéro), avec un paramètre de
non-centralité égal à δ∗=β∗
j−βo
j
s.e.(ˆβj).
Notons que, pour ngrand (disons n>30), la loi de Student t(n−2) est appro-
ximativement la même que la loi normale standardisée N(0,1), et la loi de Student
non-centrale t(δ∗,n−2)est pareillement approximativement la même que la loi
normale décentrée N(δ∗,1).
On constate qu’à la transposition loi normale /loi de Student près, le comporte-
ment de la statistique ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)est identique celui de la statistique ˆzo=ˆβj−βo
j
s.e.(ˆβj).
Ainsi, par analogie à ce que nous avons établi à la Section 4.2 .1 pour le cas où
σ2est connu45:
1-Un test bilatéralau seuilαde H0:βj=βo
jcontre H1:βj=βo
jest donné par
la règle de décision:
- Rejet de H0si|ˆto|=+++++ˆβj−βo
j
s.ˆe.(ˆβj)+++++>tn−2;1−α
2
– Non-rejet de H0sinon
où la valeur critique tn−2;1−α
2est le quantile d’ordre 1−α
2de la loit(n−2), ou
de façon totalement équivalente par la règle de décision:
- Rejet de H0siβo
jn’appartient pas à l’intervalle de
confiance (4.9) à (1−α)×100%pourβj
– Non-rejet de H0sinon
et laP-valeur de ce test, pour un échantillon particulier, est don née par:
pˆt∗o=IP(|t|>|ˆt∗
o|),oùt∼t(n−2)
Graphiquement:
ttn2
0ft
tt
n2;12
test au seuil = Distribution de t0lorsque jj0
Valeurs critiques d'un de t0: t0
pt0
2Une réalisation particulière
t0pt0
2
t0t
n2;12
Graphique 27: P-valeur d’un t-test bilatéral
45Le lecteur est invité à vérifier par lui-même que les mêmes rés ultats s’appliquent bien.
63
2-Un test unilatéral à droite au seuilαde H0:βj≤βo
jcontre H1:βj> βo
jest
donné par la règle de décision:
- Rejet de H0siˆto=ˆβj−βo
j
s.ˆe.(ˆβj)>tn−2;1−α
– Non-rejet de H0sinon
où la valeur critique tn−2;1−αest le quantile d’ordre 1−αde la loit(n−2), et
laP-valeur de ce test, pour un échantillon particulier, est don née par:
pˆt∗o=IP(t>ˆt∗
o),oùt∼t(n−2)
De façon symétrique, un test unilatéral à gauche au seuilαde H0:βj≥βo
j
contre H1:βj<βo
jest donné par la règle de décision:
- Rejet de H0siˆto=ˆβj−βo
j
s.ˆe.(ˆβj)<tn−2;α(=−tn−2;1−α)
– Non-rejet de H0sinon
où la valeur critique tn−2;α(=−tn−2;1−α) est le quantile d’ordre αde la loi
t(n−2), et laP-valeur de ce test, pour un échantillon particulier, est don née
par:
pˆt∗o=IP(t<ˆt∗
o),oùt∼t(n−2)
Graphiquement (cas du test unilatéral à gauche):
ttn2
0ft
t
test au seuil lorsque jj0
Valeur critique d'un de t0: t0Une réalisation particulière
pt0
t0tn2;= Distribution de t0
Graphique 28: P-valeur d’un t-test unilatéral à gauche
Les interprétations en termes de risque de première espèce et depuissance , ainsi
que l’interprétation de la P-valeur de ces tests, sont identiques (à la transposition
loi normale /loi de Student près) à celles développées pour le cas où σ2est connu:
de ce point de vue, rien de nouveau.
64
4.2.3. Terminologie et précisions d’interprétation
Lorsqu’onestamenéà rejeterauseuilα,pourunéchantillonparticulier,l’hypo-
thèse nulle du test:
1-bilatéral de H 0:βj=βo
jcontre H1:βj=βo
j, on dit que le paramètre estimé ˆβj
est (statistiquement) significativement différent de βo
jau seuilα.
2-unilatéral à droite de H 0:βj≤βo
jcontre H1:βj>βo
j, on dit que le paramètre
estiméˆβjest (statistiquement) significativement supérieur à βo
jau seuilα.
3-unilatéral à gauche de H 0:βj≥βo
jcontre H1:βj<βo
j, on dit que le paramètre
estiméˆβjest (statistiquement) significativement inférieur à βo
jau seuilα.
Lorsqu’on est amené à ne pas rejeter H0auseuilα, on ditˆβjn’est pas (statis-
tiquement) significativement , selon les cas, différent de ,supérieur à , ouinférieur à
βo
jau seuilα.
Un cas particulier important de t-test bilatéral de βo
jest celui où βo
j=0, càd.
celuioùontesteH 0:βj=0contre H1:βj=0. Danscecas, lastatistique de test ˆto
se réduit àˆto=ˆβj
s.ˆe.(ˆβj), statistique qu’on appelle couramment t-statistique (deˆβj).
La statistique ˆto=ˆβj
s.ˆe.(ˆβj)et saP-valeur sont calculées en standard pour ˆβ1etˆβ2
par tous les logiciels économétriques.
Lorsque l’hypothèse nulle H 0:βj=0(contre H 1:βj=0) estrejetéeauseuil
α, on dit queˆβjest (statistiquement) significatif au seuil α, et lorsqu’elle n’est pas
rejetéeauseuilα, on dit queˆβjn’est (statistiquement) significatif au seuil α.
Cetestagénéralementpeudesenspourl’intercept β1. Parcontre,pourlapente
β2, il est très important car il revient à tester, dans le cadre d e la spécification du
modèle de régression linéaire:
H′
0:E(yi|xi)=β1, i.e.,E(yi|xi)est une constante,
elle ne dépend pas de xi
contre H′
1:E(yi|xi)=β1+β2xi,i.e.,E(yi|xi)est une fonction
linéaire de xi
La mise en oeuvre de ce test appelle plusieurs remarques:
1-Lefaitdetrouver ˆβ2significatifnegarantitpasque E(yi|xi)estbienunefonction
65
linéaire de xi. Graphiquement:
Eyixiexi
yi
xiestimée: yi12xiDroite des MCO
Graphique 29: ˆβ2significatif avec E(yi|xi)non linéaire
Dans l’exemplegraphiqueci-dessus, lavraie relationestn onlinéaire ( E(yi|xi)=
exi) et, si lataille d’échantillon n’estpas troppetite, ˆβ2apparaîtracertainement
comme significatif.
2-Acontrario,lefaitdenepastrouver ˆβ2significatifnesignifiepasnécessairement
queE(yi|xi)ne dépend pas de xi. C’est seulement une absence de preuve que
E(yi|xi)dépend de xi. Cette absence de preuve peut très bien être due à une
précision d’estimation trop faible (= puissance de test réd uite), ou encore au
fait que la vraie relation, qui est non linéaire, reste ‘cach ée’ lorsqu’on considère
un modèle linéaire. Graphiquement:
Eyixigxiyi
xiDroite des MCO
estimée: yi12xi
Graphique 30: ˆβ2non significatif avec E(yi|xi)non linéaire
Dans l’exemple graphique ci-dessus, ˆβ2apparaîtra certainement comme non si-
gnificatif.
3-Ilnefautpasconfondre‘ ˆβ2est(très)significatif’–càd. ˆto=ˆβ2
s.ˆe.(ˆβ2)aune(très)
grandevaleur,oucequirevientaumême,la P-valeurdutestest(très)petite–,
et ‘xia un effet (très) important sur E(yi|xi)’: lorsque la précision d’estimation
est (très) grande (i.e., s.ˆe.(ˆβ2)est (très) petit), on peut très bien avoir que ˆβ2
est (très) significatif et en même temps que l’effet de xisurE(yi|xi), qui est
reflétépar lavaleurde ˆβ2, estdérisoire(i.e., ˆβ2est(très) petit). Cette remarque
est liée à une caractéristique générale des tests d’hypothè se (quels qu’ils soient)
qu’il convient de toujours garder à l’esprit46: lorsque la précision d’estimation
est grande, un rejet de H 0(dans le cas qui nous occupe, H 0:β2= 0), même
46Au même titre qu’il convient de toujours garder à l’esprit qu ’un rejet de H 0est une preuve d’autant
plus convaincante que H 0est fausse que le seuil αauquel on rejette H 0est petit, et qu’un non-rejet de H 0,
au moins lorsque la précision d’estimation est limitée, ne c onstitue pas une preuve convaincante que H 0
est vraie.
66
très marqué, ne signifie pas nécessairement qu’on en est très loin (dans le cas
qui nous occupe, β2fortement éloigné de 0).
4.2.4. Exemple: la fonction de consommation de HGL (2008)
Pour les données de Hill, Griffiths et Lim (2008) considérée à l a Section 2.2.3,
qui pour rappel considère le modèle de fonction de consommat ion:
yi=β1+β2xi+ei,
oùxidésignelerevenud’unménage(encentainesde$)et yilesdépensesalimentaires
de ce ménage (en $), en utilisant le logiciel GRETL, on obtien t comme tableau de
résultats d’estimation:
Model 1:
OLS, using observations 1-40
Dependent variable: y
coefficient std. error t-ratio p-value
const 83.4160 43.4102 1.922 0.0622 *
x 10.2096 2.09326 4.877 1.95e-05 ***
Mean dependent var 283.5735 S.D. dependent var 112.6752
Sum squared resid 304505.2 S.E. of regression 89.51700
R-squared 0.385002 Adjusted R-squared 0.368818
F(1, 38) 23.78884 P-value(F) 0.000019
Log-likelihood -235.5088 Akaike criterion 475.0176
Schwarz criterion 478.3954 Hannan-Quinn 476.2389
La signification des rubriques reportées par GRETL est:
– coefficient : paramètre estimé ˆβj
– std. error: écart-type estimé s.ˆe.(ˆβj)
– t-ratio: t-statistiqueˆto=ˆβj
s.ˆe.(ˆβj), i.e. la statistique de test de H 0:βj= 0
contre H1:βj=0
– p-value: la P-valeur du test de H 0:βj=0contre H1:βj=0
– Mean dependent var: la valeur moyenne des yi,¯y=1
nn
i=1yi
– S.D. dependent var: l’écart-type des yi,σy=(
1
n−1n
i=1(yi−¯y)
– Sum squared resid: la somme des carrés des résidus = ˆe′ˆe
– S.E. of regression: l’écart-type estimé de l’erreur =√
ˆs2
– Log-likelihood: la log-vraisemblance de l’estimateur MV (cf. Section 2.2.2)
67
Les autres rubriques seront explicitées dans la suite.
Surbasedecetableauderésultats,sionnotequepour (n−2)=38etα=0,05,
on atn−2;1−α
2=t38;0,975=2,024ettn−2;1−α=t38;0,95=1,686, on peut:
1-calculer un intervalle de confiance à 95% pour β1:
ˆβ1±tn−2;1−α
2s.ˆe.(ˆβ1) = 83,42±2,024×43,41
= [−4,44;171,28],
2-calculer un intervalle de confiance à 95%pourβ2:
ˆβ2±tn−2;1−α
2s.ˆe.(ˆβ2) = 10,21±2,024×2,09
= [5,98;14,44]
3-voir que la statistique de test ˆtodut-test de H 0:β1= 0contre H1:β1= 0
est égale à1,922, et que H 0peut être rejetée au seuil minimum de0,0622(=
P-valeur du test).
4-voir que la statistique de test ˆtodut-test de H 0:β2=0contre H1:β2=0est
égale à4,877, et que H 0peut être rejetée au seuil minimum de0,0000195(=
P-valeur du test).
5-effectuer un test de H 0:β1≤0contre H 1:β1>0. On aˆto= 1,922, et la
P-valeur du test est égale à0,0622
2=0,0311, de sorte que H 0peut être rejetée
auseuil minimum de0,0311.
6-effectuer un test de H 0:β2≥20contre H1:β2<20. On obtient:
ˆto=10,21−20
2,09=−4,68
OnpeutrejeterH 0auseuilde5%carˆto=−4,68<t38;0,05=−t38;0,95=−1,686.
LaP-valeurdutest47estenfaitégaleà1,79e-05,desortequeH 0peutêtrerejetée
auseuil minimum de0,0000179.
4.3. Intervalle de confiance, test d’hypothèse et
non-normalité
Nousavonsobtenulesintervallesdeconfianceettestsd’hyp othèsedeβ1etβ2en
supposant que, outre les hypothèses A1 à A5, l’hypothèse opt ionnelle de normalité
A6 du modèle était satisfaite. Qu’en est-il si, comme on peut couramment s’y
attendre en pratique, cette dernière hypothèse n’est pas re mplie?
Comme nous allons le voir, lorsqu’on renonce à l’hypothèse A 6 de normalité, les
procédures que nous avons établies restent valables, mais s eulement asymptotique-
ment, en grand échantillon.
47LaP-valeur peut être calculée en utilisant le ‘p-value finder’ d e GRETL.
68
On a vu à la Section 3.4.2 que, sous les hypothèses A1 à A5, sans faire appel à
l’hypothèse de normalité A6, on a asymptotiquement (lorsquen→∞):
$
V(ˆβ)%−1
2
ˆβ−β
d−→N(0,I),oùV(ˆβ)=σ2(X′X)−1,
ce qui implique(pour j=1,2):
ˆz=ˆβj−βj)
σ2qjjd−→N(0,1),oùqjj=
(X′X)−1
jj,
soit, sous forme d’approximation utilisable en échantillo n fini pour nsuffisamment
grand:
ˆz=ˆβj−βj
s.e.(ˆβj)≈N(0,1),oùs.e.(ˆβj)=)
σ2qjj, (4.14)
et donc:
ˆzo=ˆβj−βo
j
s.e.(ˆβj)≈N(0,1), siβj=βo
j
ˆzo=ˆβj−βo
j
s.e.(ˆβj)≈N
β∗
j−βo
j
s.e.(ˆβj),1
,siβj=β∗
j(=βo
j)(4.15)
Les résultats (4.14) et (4.15) sont des versions asymptotiques (valables unique-
ment pour ngrand) des résultats exacts de distribution d’échantillonnage (4.2) et
(4.10)-(4.11) sur lesquels nous nous sommes appuyés pour ob tenir, respectivement,
des intervalles de confiance et des tests d’hypothèse de βj, ceci sous l’hypothèse de
normalité A6 et dans le cas où σ2est connu.
Sous l’hypothèse de normalité A6 et pour le cas où σ2n’est pas connu, nous
avons vu que, pour l’essentiel, le remplacement de σ2par son estimateur convergent
et non biaisé ˆs2faisait simplement passer de lois normales à des lois de Stud ent.
Asymptotiquement, lorsque nest grand, on peut montrer que le remplacement
deσ2par son estimateur convergent et non biaisé ˆs2ne modifie pas les distribu-
tions d’échantillonnage en jeu, de sorte qu’on a aussi, sous forme d’approximation
utilisable en échantillon fini pour nsuffisamment grand:
ˆt=ˆβj−βj
s.ˆe.(ˆβj)≈N(0,1),oùs.ˆe.(ˆβj)=)
ˆs2qjj, (4.16)
et donc:
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)≈N(0,1), siβj=βo
j
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)≈N
β∗
j−βo
j
s.e.(ˆβj),1
,siβj=β∗
j(=βo
j)(4.17)
69
Les résultats (4.16) et (4.17) sont des versions asymptotiques (valables unique-
ment pour ngrand) des résultats exacts de distribution d’échantillonnage (4.7) et
(4.12)-(4.13) sur lesquels nous nous sommes appuyés pour ob tenir, respectivement,
des intervalles de confiance et des tests d’hypothèse de βj, ceci sous l’hypothèse de
normalité A6 et dans le cas où σ2est inconnu.
On sait par ailleurs que lorsque n→∞, la loi de Student t(n−2)tend vers la
loi normale N(0,1), de sorte que les quantiles de la loi de Student t(n−2)et de la
loi normale N(0,1)s’égalisent.
De ces éléments, on peut conclure48que les procédures d’intervalles de con-
fiance et de tests d’hypothèse pour βjobtenues aux Sections 4.1.2 et 4.2.2, qui
sontexactes en échantillon fini sous l’hypothèse de normalité A6, restent valables
asymptotiquement , àtitreapproximatif, pour ngrand, sous les seules hypothèsesA1
à A5.
Enpratique, onconsidèregénéralementqu’unetailled’éch antillonn≥30estun
minimum pour que l’approximation asymptotique soit d’une p récision raisonnable.
48Le lecteur est invité à refaire le raisonnement en détail. On notera que, dans les calculs des intervalles
de confiance et des tests d’hypothèse pour ngrand, plutôt que d’utiliser les valeurs critiques (quanti les)
de la loi de Student, on pourrait très bien utiliser celles de la loi normale. L’usage veut cependant qu’on
utilise en pratique toujours celles de la loi de Student.
70
Chapitre5
Prévision, R2, unités de mesure et forme
fonctionnelle
5.1. Prévision
Undesobjectifsdumodèlederégressionestdefairedesprév isions. Acetégard,
on peut distinguer deux types de prévision:
1-une prévision de l’ espérance deysachantx0:
E(y0)=β1+β2×0,
càd. de la valeur moyenne de yparmi la sous-population pour laquelle x=x0.
2-une prévision de la valeurdeysachantx0:
y0=β1+β2×0+e0,
càd. de la valeur de ypour un individu pris au hasard parmi la sous-population
pour laquelle x=x0.
Dans les deux cas, il s’agit d’une prévision conditionnelle à la valeur de x0que
l’on se donne, qui est donc fixe et connue.
On notera au passage que le type de prévision (1) est en fait da vantage une
estimation qu’uneprévision : contrairement à (2) qui cherche à prédire une variable
aléatoirey0, (1) s’efforce de prédire une quantité non-stochastique E(y0).
Dans la suite, on suppose que y0, tout comme les observations y1,y2,…,yn,
satisfait les hypothèses A1 à A5 du modèle, plus éventuellem ent l’hypothèse de
normalité A6.
71
5.1.1. Prévision de l’espérance de ysachantx0
Sachantx0, un estimateur/prédicteur naturel de:
E(y0)=β1+β2×0
est tout simplement:
ˆy0=ˆβ1+ˆβ2×0,
soit, sous forme matricielle:
ˆy0=X0ˆβ,oùX0=1×0
5.1.1.1. Propriétés d’échantillonnage
βétant estimé, ˆy0et l’erreur de prévision ˆp0= ˆy0−E(y0)sont des variables
aléatoires, qui ont une certaine distribution d’échantill onnage.
L’espérance de ˆy0etˆp0sont données par:
E(ˆy0) =E(X0ˆβ)=X0E(ˆβ)(carX0fixe)
=X0β=E(y0) (carE(ˆβ)=β)
et
E(ˆp0) =E(ˆy0−E(y0))=E(ˆy0)−E(y0)
=E(y0)−E(y0)=0
CommeE(ˆy0)=E(y0)etE(ˆp0)=0, on dit queˆy0est un estimateur/prédicteur
non biaisé deE(y0)=β1+β2×0.
La variance de la prévision ˆy0, qui est égale à la variance de l’erreur de prévision
ˆp0, est donnée par:
Var(ˆy0) =E
(ˆy0−E(ˆy0))2
=E
(ˆy0−E(y0))2
=Var(ˆp0)
=E
X0(ˆβ−β)2
(carˆy0=X0ˆβet
E(ˆy0)=E(y0)=X0β)
=E$
X0(ˆβ−β)(ˆβ−β)′X′
0%
=X0E$
(ˆβ−β)(ˆβ−β)′%
X′
0(carX0fixe),
soit, puisque V(ˆβ)=E$
(ˆβ−β)(ˆβ−β)′%
:
Var(ˆy0)=X0V(ˆβ)X′
0=Var(ˆp0) (5.1)
En utilisant les expressions (3.3)-(3.5), on peut vérifier q ue, sous forme détaillée,
72
cela donne:
Var(ˆy0)=σ2
1
n+(x0−¯x)2
n
i=1(xi−¯x)2
=Var(ˆp0) (5.2)
Comme on peut le constater, la variance Var(ˆy0)=Var(ˆp0)de (l’erreur de) la
prévision dépend, d’une part, de x0(plus particulièrement de son écart |x0−¯x|au
point moyen de l’échantillon), et d’autre part, de V(ˆβ). Ainsi, on peut s’attendre
à une prévision de E(y0)d’autant plus précise que βest estimé de façon précise
et que l’on cherche à prédire E(y0)pour une valeur x0proche du point moyen de
l’échantillon¯x. On notera que lorsque la taille d’échantillon n→ ∞,V(ˆβ)→0
et doncVar(ˆy0) =Var(ˆp0)tend aussi vers 0: la prévision tend à être ‘parfaite’,
exacte.
Sous l’hypothèse A6 de normalité des yi, on sait que ˆβest distribué de façon
exacteselon une loi normale. Comme ˆy0=X0ˆβetˆy0−E(y0)=X0(ˆβ−β)sont des
combinaisons linéaires de ˆβ, et qu’une combinaison linéaire d’un vecteur distribué
selon une loi normale suit également une loi normale (cf. Sec tion 2.3.1), sous les
hypothèses A1 à A6, on a:
ˆy0∼N(X0β,X0V(ˆβ)X′
0) (5.3)
et
ˆp0∼N(0,X0V(ˆβ)X′
0) (5.4)
Si l’hypothèse A6 de normalité des yin’est pas remplie, on sait que ˆβest seule-
mentasymptotiquement distribué selon une loi normale, et les résultats de distrib u-
tion (5.3) et (5.4) tiennent seulement asymptotiquement (p ourn→∞). Formelle-
ment, sous les seules hypothèses A1 à A5, on a ainsi:
ˆy0−X0β(
X0V(ˆβ)X′
0d−→N(0,1)
etˆp0(
X0V(ˆβ)X′
0d−→N(0,1),
soit, sous forme d’approximation utilisable en échantillo n fini pour nsuffisamment
grand:
ˆy0≈N(X0β,X0V(ˆβ)X′
0)
et
ˆp0≈N(0,X0V(ˆβ)X′
0)
Avantdevoircommentonpeututilisercesrésultatspourcon struireunintervalle
de prévision pour E(y0), on notera qu’un estimateur convergent etnon biaisé (sous
73
les hypothèses A1 à A5) dela variance de (l’erreur de) la prév ision :
Var(ˆy0)=Var(ˆp0)=X0V(ˆβ)X′
0=σ2X0(X′X)−1X′
0
est simplement obtenu en remplaçant la variance inconnue du terme d’erreur σ2par
son estimateur (convergent et non biaisé) ˆs2:
Vˆar(ˆy0)=Vˆar(ˆp0)=X0ˆV(ˆβ)X′
0=ˆs2X0(X′X)−1X′
0,
etqu’àpartirde Vˆar(ˆy0)=Vˆar(ˆp0), un estimateur convergent , maispas non biaisé ,
de l’écart-type s.e.(ˆy0)=s.e.(ˆp0)de (l’erreur de) la prévision est donné par:
s.ˆe.(ˆy0)=s.ˆe.(ˆp0)=)
Vˆar(ˆy0)=)
Vˆar(ˆp0)
5.1.1.2. Intervalle de prévision
De façon semblable à ce que nous avons fait pour construire de s intervalles de
confiance pour β1etβ2, on peut s’appuyer sur la distribution d’échantillonnage d e
l’erreur de prévision ˆp0pour construire un intervalle de prévision pourE(y0), càd.
un intervalle de valeurs plausibles pour l’espérance de ysachantx0.
Notons que comme l’estimateur MCO ou les intervalles de confi ance, un inter-
valle de prévision est aussi une règle de décision , càd. une recette ou une formule
qui décrit comment utiliser les observations d’un échantil lon pour établir un inter-
valle de valeurs plausibles pour la valeur que l’on cherche à prédire, en l’occurrence
ici l’espérance de ysachantx0.
Lorsque l’hypothèse A6 de normalité des yiest satisfaite, on vient de voir que,
sous les hypothèses A1 à A6, l’erreur de prévision:
ˆp0=ˆy0−E(y0)
est telle que:
ˆp0∼N(0,X0V(ˆβ)X′
0),oùV(ˆβ)=σ2(X′X)−1,
de sorte que:
ˆzp0=ˆp0)
σ2X0(X′X)−1X′
0=ˆy0−E(y0)
s.e.(ˆp0)∼N(0,1) (5.5)
Onpourrait,ensupposantque σ2estconnu,construireunintervalledeprévision
pourE(y0)ens’appuyantsurleseulrésultatd’échantillonnage(5.5) . Celadonnerait
cependant un intervalle de prévision qui ne peut pas être app liqué en pratique,
puisqu’en pratique σ2n’est pas connu.
De façon semblable à ce que nous avons déjà fait à plusieurs re prises, on peut
contourner ce problème en remplaçant la valeur inconnue de σ2par son estimateur
convergent et non biaisé ˆs2. Ce remplacement de σ2parˆs2a simplement pour effet,
74
comme on l’a déjà vu dans d’autres circonstances, de faire pa sser la distribution de
ˆzp0d’une loi normale à une loi de Student. En effet, on sait que, so us les hypothèses
A1 à A6, on a (cf. Section 4.1.2):
ˆv=(n−2)ˆs2
σ2∼χ2(n−2),
et on peut par ailleurs montrer que ˆzp0etˆvsont indépendamment distribués, de
sorte que de la définition de la loi de Student49, on a:
ˆtp0=ˆzp0*
ˆv
n−2=ˆy0−E(y0))
σ2X0(X′X)−1X′
0*
ˆs2
σ2∼t(n−2),
soit, en simplifiant:
ˆtp0=ˆy0−E(y0))
ˆs2X0(X′X)−1X′
0=ˆy0−E(y0)
s.ˆe.(ˆp0)∼t(n−2) (5.6)
ˆtp0suivant une loi de Student t(n−2), on a:
IP
−tn−2;1−α
2≤ˆy0−E(y0)
s.ˆe.(ˆp0)≤tn−2;1−α
2
=1−α,
où la valeur critique tn−2;1−α
2est le quantile d’ordre 1−α
2de la loit(n−2). On en
déduit:
IP&
ˆy0−tn−2;1−α
2s.ˆe.(ˆp0)≤E(y0)≤ˆy0+tn−2;1−α
2s.ˆe.(ˆp0)'
=1−α,(5.7)
soit unintervalle de prévision à (1−α)×100%pourE(y0):
ˆy0−tn−2;1−α
2s.ˆe.(ˆp0); ˆy0+tn−2;1−α
2s.ˆe.(ˆp0)
, (5.8)
oùs.ˆe.(ˆp0)=)
ˆs2X0(X′X)−1X′
0=(
X0ˆV(ˆβ)X′
0.
Etant donné (5.7), sous les hypothèses A1 à A6, il y a une proba bilité1−αque
l’intervalle stochastique (5.8) recouvre la vraie valeur (inconnue) de E(y0)=X0β.
Appliqué à un échantillon particulier, l’intervalle de pré vision (5.8) à (1−α)×
100%pourE(y0)50synthétise de façon très parlante l’information disponibl e tant
sur le niveau (prévision ponctuelle) que sur la variabilité d’échantillonnage, et donc
la précision, de la prévision réalisée.
Pourαfixé,lalargeurdel’intervalledeprévision(5.8),quisynt hétiselaprécision
delaprévisionréalisée,dépenddel’écart-type estimés.ˆe.(ˆp0)del’erreurdeprévision
49Pour rappel, si z∼N(0,1),v∼χ2(m)et quezetvsont indépendamment distribués, alors: t=
z√v
m∼t(m). Cf. l’annexe B de Hill, Griffiths et Lim (2008).
50Notons au passage que l’intervalle de prévision (5.8) n’est en fait rien d’autre qu’un intervalle de
confiance pour une combinaison linéaire de β1etβ2:X0β=β1+β2×0.
75
ˆp0, qui lui-même dépend:
1-de la valeur de x0(au travers de X0=1×0
),
2-de la précision d’estimation estimée de β(au travers de ˆV(ˆβ)).
Clairement, plus ˆV(ˆβ)est petit (au sens matriciel), plus s.ˆe.(ˆp0)sera petit. La
dépendance de s.ˆe.(ˆp0)par rapport à x0est illustrée par le graphique ci-dessous:
xy0
y012x0
x0y0tn2;12s. e.p0y0tn2;12s. e.p0
Graphique 31: Intervalle de prévision pour E(y0)
On voit que, toutes autres choses étant égales, l’intervall e de prévision est
d’autant plus large que x0est éloigné de la moyenne empirique ¯xdesxide l’échan-
tillon, ce qui est aisément vérifié si on examine la forme déta illée des.ˆe.(ˆp0)qui est
donnée par (elle découle de (5.2)):
s.ˆe.(ˆp0)=,
ˆs2(1
n+(x0−¯x)2
n
i=1(xi−¯x)2)
On notera encore que comme ˆV(ˆβ)→0lorsquen→ ∞, on a aussi que
s.ˆe.(ˆp0)→0lorsquen→∞.
L’intervalledeprévision(5.8)supposeque,outreleshypo thèsesA1àA5,l’hypo-
thèse optionnelle de normalité A6 du modèle est satisfaite. Comme les procédures
d’intervalles de confiance et de tests d’hypothèse pour βj, cet intervalle de prévision
reste toutefois valable lorsqu’on renonce à l’hypothèse de normalité, mais à nouveau
seulement asymptotiquement, en grand échantillon. En effet , nous avons vu à la
section précédente que, sous les seules hypothèses A1 à A5, o n a toujours:
ˆp0≈N(0,X0V(ˆβ)X′
0),oùV(ˆβ)=σ2(X′X)−1,
de sorte que:
ˆzp0=ˆp0)
σ2X0(X′X)−1X′
0=ˆy0−E(y0)
s.e.(ˆp0)≈N(0,1)
Asymptotiquement, lorsque nest grand, on peut montrer que le remplacement
76
deσ2par son estimateur convergent et non biaisé ˆs2ne modifie pas la distribu-
tion d’échantillonnage en jeu, de sorte qu’on a aussi, sous f orme d’approximation
utilisable en échantillon fini pour nsuffisamment grand:
ˆtp0=ˆy0−E(y0))
ˆs2X0(X′X)−1X′
0=ˆy0−E(y0)
s.ˆe.(ˆp0)≈N(0,1) (5.9)
Le résultat (5.9) est la version asymptotique (valable uniquement pour ngrand)
durésultat exact dedistributiond’échantillonnage(5.6)surlequelnousno ussommes
appuyépour obtenirl’intervalle de prévision (5.8) sous l’ hypothèsedenormalité A6.
Si on se rappelle que lorsque n→ ∞, la loi de Student t(n−2)tend vers la
loi normale N(0,1), de sorte que les quantiles de la loi de Student t(n−2)et de
la loi normale N(0,1)s’égalisent, on peut voir51que l’intervalle de prévision (5.8),
qui estexact en échantillon fini sous l’hypothèse A6 de normalité, reste bien valable
asymptotiquement , àtitreapproximatif, pour ngrand, sous les seules hypothèsesA1
à A5.
5.1.2. Prévision de la valeur de ysachantx0
Sachantx0, on peut encore utiliser:
ˆy0=ˆβ1+ˆβ2×0=X0ˆβ
comme prédicteur de:
y0=β1+β2×0+e0=X0β+e0
5.1.2.1. Propriétés d’échantillonnage
L’espérance du prédicteur ˆy0n’est pas égale à la valeur y0que l’on cherche à
prédire:
E(ˆy0)=X0β=X0β+e0=y0
Cependant, l’ erreur de prévision ˆf0=ˆy0−y0est elle bien d’espérance nulle. En
effet:
E(ˆf0) =E(ˆy0−y0)=E$
X0ˆβ−X0β−e0%
=X0E(ˆβ)−X0β−E(e0)(carX0fixe)
= 0 (carE(ˆβ)=βetE(e0)=0)
51On notera que, dans le calcul de l’intervalle de prévision po urngrand, plutôt que d’utiliser les valeurs
critiques (quantiles) de la loi de Student, on pourrait très bien utiliser celles de la loi normale. L’usage
veut cependant qu’on utilise en pratique toujours celles de la loi de Student.
77
CommeE(ˆf0)=0, on dit encore que ˆy0est unprédicteur non biaisé dey0.
La variance de l’erreur de prévision ˆf0est donnée par:
Var(ˆf0) =E$
(ˆf0−E(ˆf0))2%
=E
ˆf2
0
(carE(ˆf0)=0)
=E
X0(ˆβ−β)−e02
(carˆf0=X0(ˆβ−β)−e0)
=E$
X0(ˆβ−β)(ˆβ−β)′X′
0−2X0(ˆβ−β)e0+e2
0%
=X0E$
(ˆβ−β)(ˆβ−β)′%
X0−2X0E$
(ˆβ−β)e0%
+E(e2
0),
où la dernière égalité découle du fait que X0est fixe. Comme E(e2
0) =σ2,
E$
(ˆβ−β)(ˆβ−β)′%
=V(ˆβ)et:
E$
(ˆβ−β)e0%
=E$
(X′X)−1X′ee0%
(carˆβ−β=(X′X)−1X′e)
= (X′X)−1X′E(ee0)(carXfixe)
= 0 (carE(ee0)=
Cov(e1,e0)
…
Cov(en,e0)
=0),
on trouve finalement:
Var(ˆf0)=σ2+X0V(ˆβ)X′
0, (5.10)
soit, sous forme détaillée:
Var(ˆf0)=σ2
1+1
n+(x0−¯x)2
n
i=1(xi−¯x)2
(5.11)
L’expression (5.10) de la variance Var(ˆf0)de l’erreur de prévision ˆf0est très
semblable à l’expression (5.1) de la variance Var(ˆp0)de l’erreur de prévision ˆp0. On
a:
Var(ˆf0)=σ2+Var(ˆp0)
Ainsi, lorsque ˆy0est utilisé en tant que prédicteurde y0, lavariabilité de l’erreur
de prévision est supérieure à ce qu’elle est lorsque le même ˆy0est utilisé en tant que
prédicteur de E(y0). Lorsqueˆy0est utilisé en tant que prédicteur de E(y0), la seule
source de variabilité provient du fait que ˆβest estimé. Lorsque ˆy0est utilisé en tant
que prédicteur de y0, la variabilité de l’erreur de prévision provient du fait qu eˆβest
estimé et du terme d’erreur e0, càd. de la variabilité de y0autour de son espérance
E(y0)=β1+β2×0, d’où le terme σ2supplémentaire qui apparaît dans l’expression
deVar(ˆf0).
Rappelons que lorsque ˆy0est utilisé en tant que prédicteur de E(y0)et que la
78
taille d’échantillon n→∞,V(ˆβ)→0, de sorte que Var(ˆp0)tend aussi vers 0: la
prévision tend à être ‘parfaite’, exacte. Ce n’est plus le ca s lorsqueˆy0est utilisé en
tantqueprédicteurde y0: lorsquelatailled’échantillon n→∞,onaVar(ˆf0)→σ2,
autrement dit, il reste toujours la variabilité associée au terme d’erreur e0.
Sous l’hypothèse A6 de normalité des yi,y0est par hypothèse distribué de façon
normale, et on sait que ˆβest aussi distribué de façon exacte selon une loi normale.
Commeˆf0=ˆy0−y0=X0ˆβ−y0est une combinaison linéaire de ˆβety0, et qu’une
combinaisonlinéaire d’unvecteurdistribuéselonuneloin ormale suitégalementune
loi normale (cf. Section 2.3.1), sous les hypothèses A1 à A6, on a:
ˆf0∼N(0,σ2+X0V(ˆβ)X′
0) (5.12)
Sil’hypothèseA6denormalitédes yin’estpasremplie,onsaitque ˆβesttoujours,
asymptotiquement , distribué selon une loi normale. Mais ce n’est plusle cas dey0.
Contrairement à ce que nous avons vu pour le cas de ˆp0, le résultat de distribution
(5.12)ne tient donc pas , même asymptotiquement, pour ngrand, sous les seules
hypothèses A1 à A5.
Avant de voir comment on peut utiliser le résultat de distrib ution (5.12) pour
construire un intervalle de prévision pour y0, on notera qu’un estimateur convergent
etnon biaisé (sous les hypothèses A1 à A5) dela variance de l’erreur de pré vision :
Var(ˆf0)=σ2+X0V(ˆβ)X′
0=σ2(1+X0(X′X)−1X′
0)
est à nouveau simplement obtenu en remplaçant la variance in connue du terme
d’erreurσ2par son estimateur (convergent et non biaisé) ˆs2:
Vˆar(ˆf0)=ˆs2+X0ˆV(ˆβ)X′
0=ˆs2(1+X0(X′X)−1X′
0),
et qu’à partir de Vˆar(ˆf0), un estimateur convergent , maispas non biaisé , de l’écart-
types.e.(ˆf0)de l’erreur de prévision est donné par:
s.ˆe.(ˆf0)=(
Vˆar(ˆf0)
5.1.2.2. Intervalle de prévision
De façon semblable à ce que nous avons fait pour l’intervalle de prévision pour
E(y0),ens’appuyantsurladistributiond’échantillonnagedel’ erreurdeprévision ˆf0,
on peut construire un intervalle de prévision poury0, càd. un intervalle de valeurs
plausibles pour la valeur de ysachantx0.
On vient de voir que, lorsque l’hypothèse A6 de normalité des yiest satisfaite,
sous les hypothèses A1 à A6, l’erreur de prévision:
ˆf0=ˆy0−y0
79
est telle que:
ˆf0∼N(0,σ2+X0V(ˆβ)X′
0),oùV(ˆβ)=σ2(X′X)−1,
de sorte que:
ˆzf0=ˆf0)
σ2(1+X0(X′X)−1X′
0)=ˆy0−y0
s.e.(ˆf0)∼N(0,1) (5.13)
Comme précédemment, on pourrait, en supposant que σ2est connu, construire
unintervalledeprévisionpour y0ens’appuyantsurleseulrésultatd’échantillonnage
(5.13). Cela donnerait cependant un intervalle de prévisio n qui ne peut pas être
appliqué en pratique, puisqu’en pratique σ2n’est pas connu.
On peut à nouveau contourner ce problème en remplaçant la val eur inconnue de
σ2par son estimateur convergent et non biaisé ˆs2. Ce remplacement de σ2parˆs2a
simplement pour effet de faire passer la distribution de ˆzf0d’une loi normale à une
loi de Student. En effet, on sait que, sous les hypothèses A1 à A 6, on a (cf. Section
4.1.2):
ˆv=(n−2)ˆs2
σ2∼χ2(n−2),
et on peut encore montrer que ˆzf0etˆvsont indépendamment distribués, de sorte
que de la définition de la loi de Student52, on a:
ˆtf0=ˆzf0*
ˆv
n−2=ˆy0−y0)
σ2(1+X0(X′X)−1X′
0)*
ˆs2
σ2∼t(n−2),
soit, en simplifiant:
ˆtf0=ˆy0−y0)
ˆs2(1+X0(X′X)−1X′
0)=ˆy0−y0
s.ˆe.(ˆf0)∼t(n−2)
ˆtf0suivant une loi de Student t(n−2), on a:
IP
−tn−2;1−α
2≤ˆy0−y0
s.ˆe.(ˆf0)≤tn−2;1−α
2
=1−α,
où la valeur critique tn−2;1−α
2est le quantile d’ordre 1−α
2de la loit(n−2). On en
déduit:
IP
ˆy0−tn−2;1−α
2s.ˆe.(ˆf0)≤y0≤ˆy0+tn−2;1−α
2s.ˆe.(ˆf0)
=1−α, (5.14)
52Pour rappel, si z∼N(0,1),v∼χ2(m)et quezetvsont indépendamment distribués, alors: t=
z√v
m∼t(m).
80
soit unintervalle de prévision à (1−α)×100%poury0:
$
ˆy0−tn−2;1−α
2s.ˆe.(ˆf0); ˆy0+tn−2;1−α
2s.ˆe.(ˆf0)%
, (5.15)
oùs.ˆe.(ˆf0)=)
ˆs2(1+X0(X′X)−1X′
0)=(
ˆs2+X0ˆV(ˆβ)X′
0.
Etantdonné(5.14), sousles hypothèsesA1àA6, ilyauneprob abilité1−αque
l’intervalle stochastique (5.15) recouvre la vraie valeur (inconnue) – et elle-même
stochastique – dey0=X0β+e0.
Appliqué à un échantillon particulier, l’intervalle de pré vision (5.15) à (1−α)×
100%poury0synthétise de façon très parlante l’information disponibl e tant sur
le niveau (prévision ponctuelle) que sur la variabilité d’é chantillonnage, et donc la
précision, de la prévision réalisée.
Pourαfixé, la largeur de l’intervalle de prévision (5.15), qui syn thétise la pré-
cision de la prévision réalisée, dépend de l’écart-type estimés.ˆe.(ˆf0)de l’erreur de
prévisionˆf0, qui lui-même dépend:
1-de la valeur estimée ˆs2deσ2.
2-de la valeur de x0(au travers de X0=1×0
),
3-de la précision d’estimation estimée de β(au travers de ˆV(ˆβ)).
L’écart-type estimé s.ˆe.(ˆf0)sera d’autant plus petit que ˆs2est petit, que ˆV(ˆβ)
estpetit(ausensmatriciel),etfinalementque x0estprochedelamoyenneempirique
¯xdesxide l’échantillon, ce qui se vérifie si on examine la forme déta illée des.ˆe.(ˆf0)
qui est donnée par (elle découle de (5.11)):
s.ˆe.(ˆf0)=,
ˆs2(1+1
n+(x0−¯x)2
n
i=1(xi−¯x)2)
Ladépendance de s.ˆe.(ˆf0)par rapport à x0peutêtrereprésentée de façon semblable
au Graphique 31 (cf. p.75 ). Simplement, l’intervalle de prévision est ici plus large,
puisques.ˆe.(ˆf0)>s.ˆe.(ˆp0).
On notera encore que lorsque n→∞, commeˆV(ˆβ)→0, on as.ˆe.(ˆf0)→σet
non vers0comme c’était le cas pour s.ˆe.(ˆp0).
Pour conclure, on notera finalement que si l’hypothèse A6 de n ormalité des
yin’est pas remplie, contrairement au cas de l’intervalle de p révision pour E(y0),
l’intervalle de prévision (5.15) pour y0ne tient pas , même asymptotiquement, pour
ngrand, sous les seules hypothèses A1 à A5. Il ne peutdoncpasêtre utilisé, à titre
approximatif pour ngrand, lorsque l’hypothèse A6 de normalité n’est pas satisf aite.
Cela découle du fait que résultat de distribution (5.12) sur lequel on s’est appuyé
pour construire (5.15) ne tient pas, même asymptotiquement , pourngrand, sous
les seules hypothèses A1 à A5.
81
5.1.3. Exemple: la fonction de consommation de HGL (2008)
Pour les données de Hill, Griffiths et Lim (2008) considérée à l a Section 2.2.3,
qui pour rappel considère le modèle de fonction de consommat ion:
yi=β1+β2xi+ei,
oùxidésignelerevenud’unménage(encentainesde$)et yilesdépensesalimentaires
de ce ménage (en $), on a déjà vu (cf. Section 4.2.4) qu’en util isant le logiciel
GRETL, on obtient le tableau de résultats d’estimation suiv ant:
Model 1:
OLS, using observations 1-40
Dependent variable: y
coefficient std. error t-ratio p-value
const 83.4160 43.4102 1.922 0.0622 *
x 10.2096 2.09326 4.877 1.95e-05 ***
Mean dependent var 283.5735 S.D. dependent var 112.6752
Sum squared resid 304505.2 S.E. of regression 89.51700
R-squared 0.385002 Adjusted R-squared 0.368818
F(1, 38) 23.78884 P-value(F) 0.000019
Log-likelihood -235.5088 Akaike criterion 475.0176
Schwarz criterion 478.3954 Hannan-Quinn 476.2389
De ce tableau de résultats, on peut calculer ˆs2et le prédicteur des dépenses
alimentairesˆy0=ˆβ1+ˆβ2x0pour un revenu de 2000$, soitx0=20:
ˆs2=304505,2
(40−2)=8013,29
ˆyi= 83,42+10,21×20=287,62$
Toujours en utilisant GRETL, on obtient pour ˆV(ˆβ):
Covariance matrix of regression coefficients:
const x
1884.44 -85.9032 const
4.38175 x
Sur base de ce résultat complémentaire, si on note que pour (n−2) = 38et
α= 0,05, on atn−2;1−α
2=t38;0,975= 2,024, on peut calculer53, toujours pour
x0=20:
53Notonsque s.ˆe.(ˆp0)ets.ˆe.(ˆf0)peuventaisémentêtrecalculésenutilisantlescapacitésd ecalculmatriciel
de GRETL. Les quantiles de la loi de Student peuvent de même êt re obtenus en utilisant les ‘Statistical
tables’ de GRETL.
82
1-un intervalle de prévision à 95% pour E(y0):
ˆy0±tn−2;1−α
2s.ˆe.(ˆp0) = ˆy0±tn−2;1−α
2(
X0ˆV(ˆβ)X′
0
= 287,62±2,024×14,178
= [258,92;316,32]
2-un intervalle de prévision à 95% pour y0:
ˆy0±tn−2;1−α
2s.ˆe.(ˆf0) = ˆy0±tn−2;1−α
2(
ˆs2+X0ˆV(ˆβ)X′
0
= 287,62±2,024×90,633
= [104,18;471,06]
Onconstatequel’intervalledeprévisionpour y0estbienpluslargequel’intervalle
de prévision pour E(y0).Cela découle simplement du fait que, comme suggéré par
legraphique des données reproduit àlaSection2.2.3, les dé penses alimentaires pour
un revenu donné varient fortement d’un ménage à l’autre ( ˆs2élevé). Ainsi, si on
peut prédire avec une bonne précision la valeur moyenne des d épenses alimentaires
des ménages ayant un revenu de 2000$, on ne peut par contre pas prédire avec
précision la valeur des dépenses alimentaires d’un ménage p ris au hasard parmi les
ménages ayant un revenu de 2000$.
5.2. Le coefficient de détermination: R2
Le coefficient de détermination, communément appelé et noté R2, fournit une
mesure du degré d’ajustement du modèle aux données. Il est re porté par tous les
logiciels économétriques54. Il est défini comme décrit ci-après.
Une fois le modèle estimé, on peut décomposer chaque observa tionyien une
partieexpliquée par le modèle ˆyi, et une partie non expliquée ourésiduelleˆei:
yi=ˆyi+ˆei,
oùˆyi=ˆβ1+ˆβ2xietˆei=yi−ˆyi. Sous forme matricielle:
Y=ˆY+ˆe=Xˆβ+ˆe (5.16)
De (5.16), on peut tirer:
Y′Y= (Xˆβ+ˆe)′(Xˆβ+ˆe)
=ˆβ′X′Xˆβ+ˆβ′X′ˆe+ˆe′Xˆβ+ˆe′ˆe
=ˆY′ˆY+ˆe′ˆe,
puisque d’après la condition de premier ordre (2.22) définis santˆβ,X′ˆe=0. On a
54Dans GRETL, il est reporté sous la rubrique ‘R-squared’.
83
donc:n
i=1y2
i=n
i=1ˆy2
i+n
i=1ˆe2
i (5.17)
De la relation (2.8) établie à la Section 2.2.1, on sait que:
n
i=1(xi−¯x)2=n
i=1×2
i−n¯x2
Par ailleurs, puisque1
nn
i=1ˆei=0(cf. l’équation (2.1) à la Section 2.2.1), on a:
¯y=1
nn
i=1yi=1
nn
i=1ˆyi=ˆy
En soustrayant n¯y2=nˆy2des deux membres de (5.17), on obtient dès lors la dé-
composition:
n
i=1y2
i−n¯y2=n
i=1ˆy2
i−nˆy2+n
i=1ˆe2
i,
soit:n
i=1(yi−¯y)2
!"#
SCT=n
i=1(ˆyi−ˆy)2
!"#
SCE+n
i=1ˆe2
i
!"#
SCR,
où SCT désigne la somme des carrés totaux (centrés), SCE la so mme des carrés
expliqués (centrés), et SCR la somme des carrés des résidus.
Cette décomposition est connue sous le nom d’ équation d’analyse de la variance
car en divisant ses deux membres par n, on a:
Vare(yi) !"#
Variance totale=Vare(ˆyi) !"#
Variance expliquée+Vare(ˆei) !"#
Variance résiduelle
oùVare(.)désigne la variance empirique. Notons au passage qu’au cont raire de
(5.17), cette décomposition n’est pas valable si le modèle n’inclut pas une constante
(un intercept), car dans ce cas on n’a pas ¯y=ˆy.
Le coefficient de détermination, noté R2, est basé sur cette décomposition. Il
est défini par:
R2=SCE
SCT=1−SCR
SCT=Vare(ˆyi)
Vare(yi)
LeR2mesure la part de la variance desyiexpliquée par la régression, ou plus
précisément, la part de la variance des yiqui peut être linéairement associée à la
84
variation des xi. Par construction, le R2est toujours compris entre 0et1:
0≤R2≤1
avec: -R2=1si et seulement si SCR =0.
-R2=0si et seulement si SCE =0, soit si et seulement si SCT =SCR.
Plusieurs points méritent encore d’être épinglés:
1-La propriété 0≤R2≤1ne tient pas nécessairement si le modèle n’inclut pas
uneconstanteouestestiméparuneautreméthodequelesMCO( ouleMVsous
l’hypothèse de normalité).
2-La somme des carrés totaux (SCT) d’une régression est égal e à la somme des
carrés des résidus (SCR) de la régression des yisur une constante (sans autre
variable explicative).
3-LeR2estunemesure descriptive . Unmodèleayantun R2élevén’estpasun‘bon’
modèle, ou un modèle ‘correct’. Un ‘bon’ modèle est un modèle qui satisfait les
hypothèses sur lesquelles il est fondé: linéarité de l’espé rance conditionnelle,
homoscédasticité, non-corrélation. Typiquement, le R2est plutôt faible (de
l’ordrede0,3-0,5)lorsqu’onanalysedesdonnéesencoupe,et(très)élevé( 0,9et
plus) lorsqu’on analyse des données chronologiques.
4-LeR2estsouventinterprétécommeunemesureglobaledela‘capac itéprédictive’
du modèle. C’estcependantloin d’enêtre une mesure parfait e. En effet, comme
illustré par le graphique ci-dessous, pour les mêmes paramè tres estimésˆβ1et
ˆβ2, et une même somme de carrés des résidus SCR, et donc un même ˆs2, leR2
augmente mécaniquement avec la dispersion des xi:
yi
faible dispersion R2faible
xiy
xyi
forte dispersion R2élevé
xiy
x
Graphique 32: R2et dispersion des xi
De ce point de vue,√
ˆs2semble être une mesure mieux adaptée (même si, con-
trairement au R2, elle dépend des unités de mesure, cf. infra). D’autres mesu res
sont possibles, par exemple, l’erreur absolue moyenne en po urcentage:
EAMP=1
nn
i=1|ˆei
yi|
85
5.2.1.R2et corrélation
Dans le cadre du modèle de régression linéaire simple, on peu t établir des liens
intéressants entre R2etcoefficient de corrélation . On peut ainsi montrer que:
1-leR2est égal au carré du coefficient de corrélation empirique ρe(xi,yi)entrexi
etyi:
R2=(ρe(xi,yi))2, (5.18)
le coefficient de corrélation empirique entre xietyiétant défini par:
ρe(xi,yi)=Cove(xi,yi))
Vare(xi))
Vare(yi),
oùCove(.,.)désignelacovarianceempirique55etVare(.)lavarianceempirique56.
L’égalité (5.18) implique que la régression linéaire simpl e deyisurxiet la
régression linéaire simple inverse de xisuryiont un même R2(carρe(xi,yi)=
ρe(yi,xi)). Cela montre qu’un R2élevé ne constitue en aucun cas, comme on
pourrait à première vue le croire, une preuve de causalité de xiversyi(ou à
l’inverse de yiversxi), de même que, dans la même veine, un ˆβ2(fortement)
significatif ne constitue en aucun cas une telle preuve.
2-leR2est égal au carré du coefficient de corrélation empirique ρe(yi,ˆyi)entreyi
etˆyi:
R2=(ρe(yi,ˆyi))2, (5.19)
où:
ρe(yi,ˆyi)=Cove(yi,ˆyi))
Vare(yi))
Vare(ˆyi)
End’autrestermes,le R2reflèteledegrédecorrélationentre yietsonprédicteur
ˆyi.
5.3. Unités de mesure
Les paramètres et les statistiques calculés dans le cadre du modèle de régression
linéairesimplenesontpassansunitésdemesure: ilsdépend entdesunitésdemesure
des observations ( xi,yi). Ainsi, dans le modèle:
yi=β1+β2xi+ei, (5.20)
avec:
E(ei)=0, V(ei)=σ2etCov(ei,ej)=0,
oùyiest le poids en kgd’un individu et xiest sa taille en cm,β1et l’erreur eise
55Pour rappel, Cove(xi,yi)=1
nn
i=1(xi−¯x)(yi−¯y).
56Pour rappel, Vare(.)=1
nn
i=1(xi−¯x)2.
86
mesurent en kg, tandis que β2=dE(yi)
dxiest mesuré en kg/cmet queσ2est mesuré en
kg2.
Que se passe-t-il si on change les unités de mesure de xiet/ouyi? Pour le voir,
supposons que xietyisoient maintenant mesurés de telle sorte que:
y∗
i=ayi⇔yi=y∗
i
a,(a>0)
x∗
i=cxi⇔xi=x∗
i
c,(c>0),
oùx∗
iety∗
idésignent les variables dans les nouvelles unités de mesure . Par exemple,
siyiest maintenant mesuré en grplutôt qu’en kg, on aa= 1000, et sixiest
maintenant mesuré en mplutôt qu’en cm, on ac=1
100.
Exprimé dans les nouvelles unités de mesure, le modèle (5.20 ) devient:
y∗
i
a=β1+β2x∗
i
c+ei
⇔y∗
i=aβ1+a
cβ2x∗
i+aei
⇔y∗
i=β∗
1+β∗
2x∗
i+e∗
i, (5.21)
où:
β∗
1=aβ1, β∗
2=a
cβ2, e∗
i=aei,
et:
E(e∗
i)=0, Var(e∗
i)=a2Var(ei)=a2σ2=σ∗2,
Cov(e∗
i,e∗
j)=E(e∗
ie∗
j)=a2E(eiej)=a2Cov(ei,ej)=0
Onconstatequesilechangementd’unitésdemesureaffectele sunitésdemesure
(et donc les valeurs et l’interprétation) des paramètres et de l’erreur, en revanche,
la structure des hypothèses du modèle (linéarité, homoscéd asticité, non-corrélation)
reste elle inchangée: on peut passer sans difficulté du modèle (5.20) au modèle
(5.21), et vice-versa. Dans le modèle (5.21), exprimés dans les nouvelles unités de
mesure, on a simplement que β∗
1et l’erreure∗
ise mesurent maintenant en gr(plutôt
qu’enkg), tandis que β∗
2=dE(y∗
i)
dx∗
iest maintenant mesuré en gr/m(plutôt qu’en
kg/cm)et queσ∗2est maintenant mesuré en gr2(plutôt qu’en kg2).
Nous venons de voir l’impact d’un changement d’unités de mes ure sur la struc-
turedeshypothèses(pasdechangement)etlesvraiesvaleur sdesparamètres(change-
ments correspondant aux modifications des unités de mesure) du modèle. Qu’en
est-il de l’impact de ce changement d’unités de mesure sur le s valeurs estiméesdes
paramètres (et autres statistiques) du modèle? Pour le voir , on peut comparer les
valeurs estimées sur base du modèle initial aux valeurs esti mées sur base du modèle
exprimé dans les nouvelles unités de mesure.
87
L’estimation du modèle initial (5.20) donne:
ˆβ2=Cove(xi,yi)
Vare(xi), ˆβ1=¯y−ˆβ2¯x
Vˆar(ˆβ2)=ˆs2
n
i=1(xi−¯x)2, V ˆar(ˆβ1)=ˆs2n
i=1×2
i
nn
i=1(xi−¯x)2
ˆs2=1
n−2n
i=1ˆe2
i, R2=1−n
i=1ˆe2
i
n
i=1(yi−¯y)2
Vˆar(ˆp0)=ˆs2(1
n+(x0−¯x)2
n
i=1(xi−¯x)2), Vˆar(ˆf0)=ˆs2(1+1
n+(x0−¯x)2
n
i=1(xi−¯x)2)
ˆy0=ˆβ1+ˆβ2×0
D’autre part, l’estimation du modèle (5.21) exprimé dans le s nouvelles unités de
mesure donne:
ˆβ∗
2=Cove(x∗
i,y∗
i)
Vare(x∗
i)=acCove(xi,yi)
c2Vare(xi)=a
cˆβ2
ˆβ∗
1= ¯y∗−ˆβ∗
2¯x∗=a¯y−a
cˆβ2c¯x=aˆβ1
ˆe∗
i=y∗
i−ˆβ∗
1−ˆβ∗
2x∗
i=ayi−aˆβ1−a
cˆβ2cxi=aˆei
ˆs∗2=1
n−2n
i=1ˆe∗2
i=1
n−2n
i=1(aˆei)2=a2ˆs2
Vˆar(ˆβ∗
2) =ˆs∗2
n
i=1(x∗
i−¯x∗)2=a2ˆs2
c2n
i=1(xi−¯x)2=a2
c2Vˆar(ˆβ2)
Vˆar(ˆβ∗
1) = ˆs∗2n
i=1x∗2
i
nn
i=1(x∗
i−¯x∗)2=a2ˆs2c2n
i=1×2
i
c2nn
i=1(xi−¯x)2=a2Vˆar(ˆβ1)
R∗2= 1−n
i=1ˆe∗2
i
n
i=1(y∗
i−¯y∗)2=1−a2n
i=1ˆe2
i
a2n
i=1(yi−¯y)2=R2
Vˆar(ˆp∗
0) = ˆs∗2(1
n+(x∗
0−¯x∗)2
n
i=1(x∗
i−¯x∗)2)=a2ˆs2(1
n+c2(x0−¯x)2
c2n
i=1(xi−¯x)2)=a2Vˆar(ˆp0)
88
Vˆar(ˆf∗
0) = ˆs∗2(1+1
n+(x∗
0−¯x∗)2
n
i=1(x∗
i−¯x∗)2)=a2ˆs2(1+1
n+c2(x0−¯x)2
c2n
i=1(xi−¯x)2)=a2Vˆar(ˆf0)
ˆy∗
0=ˆβ∗
1+ˆβ∗
2x∗
0=aˆβ1+a
cˆβ2cx0=aˆy0
Des expressions ci-dessus, on peut voir que:
1-Les paramètres estimés ˆβ∗
1,ˆβ∗
2etˆs∗2sont reliés àˆβ1,ˆβ2etˆs2de la même façon
que leurs vraies valeurs β∗
1,β∗
2etσ∗2sont reliés à β1,β2etσ2: ils sont modifiés
de la même façon que le changement d’unités de mesure,
2-lest-statistiquesˆt∗
o=ˆβ∗
j
s.ˆe.(ˆβ∗
j)de test de H 0:β∗
j= 0contre H 1:β∗
j= 0sont
inchangées. Il en est de même pour tous les t-tests (bilatéraux ou unilatéraux)
sionajustelavaleurtestéesousH 0delamêmefaçonquelechangementd’unités
de mesure,
3-Les intervalles de confiance pour β∗
jsont modifiés de la même façon que le
changement d’unités de mesure,
4-leR2est inchangé: il ne dépend pas des unités de mesure,
5-les intervalles de prévision pour ˆy∗
0etE(ˆy∗
0)sont modifiés de la même façon que
le changement d’unités de mesure de yi. Ils sont inchangés pour un changement
d’unités de mesure de xisi on ajuste bien la valeur de x0de la même façon.
Plutôt que de changer les unités de mesure de xiet/ouyien lesmultipliant par
une constante, il arrive que l’on ajouteune constante à xiet/ouyi. Dans ce cas,
seul l’intercept du modèle est affecté. En effet, si on modifie xietyide telle sorte
que:
y∗
i=yi+a⇔yi=y∗
i−a
x∗
i=xi+c⇔xi=x∗
i−c,
le modèle initial (5.20) devient:
y∗
i−a=β1+β2(x∗
i−c)+ei
⇔y∗
i= (β1+a−cβ2)+β2x∗
i+ei
⇔y∗
i=β∗
1+β2x∗
i+ei,
où:
β∗
1=β1+a−cβ2
Dans ce cas, on peut montrer que:
1-concernant β2, estimation, t-tests et intervalle de confiance restent inchangés,
2-concernant β1,estimation (on aura: ˆβ∗
1=ˆβ1+a−cˆβ2),t-tests et intervalle de
confiance sont modifiés,
3-leR2etˆs2restent inchangés,
4-les intervalles de prévision pour ˆy∗
0etE(ˆy∗
0)sont translatés de la même façon
89
queyi. Ils restent inchangés pour l’ajout d’une constante à xisi on ajuste bien
la valeur de x0de la même façon.
5.4. Forme fonctionnelle
Comme on l’a déjà évoqué, l’hypothèse de linéarité du modèle standard requiert
seulement que le modèle soit linéaire dans les paramètres , pas nécessairement dans
lesvariables. Ainsi, l’ensemble des propriétés et procédures d’inféren ce décrites
jusqu’ici sont valables pour la classe de modèles:
y∗
i=β1+β2x∗
i+ei,
où:
y∗
i=f1(yi),(i.e., une fonction connuedeyi)
x∗
i=f2(xi),(i.e., une fonction connuedexi)
et:
E(ei)=0, V(ei)=σ2etCov(ei,ej)=0
De cette façon, le modèle de régression linéaire simple perm et de modéliser des
relations non-linéaires entrevariables. Lesformesnon-linéaireslespluscouramment
utilisées sont décrites ci-dessous.
5.4.1. Le modèle lin-log
Le modèle lin-log s’écrit:
yi=β1+β2lnxi+ei,(xi>0)
On notera qu’il ne peut être utilisé que si tous les xisont strictement positifs.
Pour la partie systématique y=β1+β2lnxdu modèle, on a:
dy
dx=β21
x
et
Ey,x=dy
dxx
y=β21
xx
y=β2
y=β2
β1+β2lnx
90
Graphiquement:
y20
xy20
0xe1
20
e1
2
Graphique 33: y=β1+β2lnx
Dans ce modèle, le paramètre β2s’interprète comme une semi-élasticité:
β2=dy
dlnx=dy
dx
x
β2mesure la variation absoluedeypour une variation relative(unitaire) de x.
Le paramètre β2étant une semi-élasticité, il est insensible à une modificat ion
desunitésdemesurede xi. Unetellemodificationd’unitésdemesuren’ad’influence
que sur l’intercept du modèle. En effet, si les unités de mesur e dexisont modifiées
de telle sorte que:
x∗
i=cxi⇔lnx∗
i=lnc+lnxi⇔lnxi=lnx∗
i−lnc,(c>0),
le modèle initial devient:
yi=β1+β2(lnx∗
i−lnc)+ei
⇔yi=β∗
1+β2lnx∗
i+ei,
où:
β∗
1=β1−β2lnc
On constate qu’une modification des unités de mesure de xia, dans ce modèle,
les mêmes effets que l’ajout d’une constante à xianalysé à la Section 5.3.
Ce modèle pourrait par exemple être utilisé pour modéliser u ne fonction de con-
sommation (avec β2>0), dont la propension marginale à consommer est décrois-
sante.
5.4.2. Le modèle log-lin
Le modèle log-lin, encore appelé modèle exponentiel, s’écr it:
lnyi=β1+β2xi+ei,(yi>0)
91
On notera qu’il ne peut être utilisé que si tous les yisont strictement positifs.
Pour la partie systématique lny=β1+β2x⇔y=eβ1+β2xdu modèle, on a:
dy
dx=β2eβ1+β2x=β2y
et
Ey,x=dy
dxx
y=β2x
Graphiquement:
y20
xy20
0x0e1e1
Graphique 34: lny=β1+β2x⇔y=eβ1+β2x
Dans ce modèle, le paramètre β2s’interprète aussi comme une semi-élasticité:
β2=dlny
dx=dy
y
dx
β2mesure la variation relativedeypour une variation absolue(unitaire) de x.
Le paramètre β2est ici insensible à une modification des unités de mesure de
yi. Une telle modification d’unités de mesure n’a d’influence qu e sur l’intercept du
modèle. En effet, si les unités de mesure de yisont modifiées de telle sorte que:
y∗
i=ayi⇔lny∗
i=lna+lnyi⇔lnyi=lny∗
i−lna,(a>0),
le modèle initial devient:
lny∗
i−lna=β1+β2xi+ei
⇔lny∗
i=β∗
1+β2xi+ei,
où:
β∗
1=β1+lna
On constate qu’une modification des unités de mesure de yia, dans ce modèle,
les mêmes effets que l’ajout d’une constante à yianalysé à la Section 5.3.
Un usage classique de ce modèle est son utilisation pour modé liser une fonction
de salaire (salaire en fonction du niveau d’éducation, avec β2>0), pour laquelle on
peut s’attendre à ce que le rendement marginal, en termes de s alaire, d’une année
92
d’étude supplémentaire soit croissant.
5.4.3. Le modèle log-log
Le modèle log-log s’écrit:
lnyi=β1+β2lnxi+ei,(xi>0, yi>0)
On notera qu’il ne peut être utilisé que si tous les xiet tous les yisont strictement
positifs.
Pour la partie systématique lny=β1+β2lnx⇔y=eβ1xβ2du modèle, on a:
dy
dx=β2eβ1xβ2−1=β2eβ1xβ2
x=β2y
x
et
Ey,x=dy
dxx
y=β2
Graphiquement:
y20
xy
21
0x020
2121
Graphique 35: lny=β1+β2lnx⇔y=eβ1xβ2
Dans ce modèle, le paramètre β2s’interprète comme une élasticité:
β2=dlny
dlnx=dy
y
dx
x
β2mesure la variation relativedeypour une variation relative(unitaire) de x.
Le paramètre β2étant une élasticité, il est insensible à une modification de s
unités de mesure de xiet deyi. Une telle modification d’unités de mesure n’a
d’influence que sur l’intercept du modèle. En effet, si les uni tés de mesure de xiet
deyisont modifiées de telle sorte que:
y∗
i=ayi⇔lny∗
i=lna+lnyi⇔lnyi=lny∗
i−lna,(a>0)
x∗
i=cxi⇔lnx∗
i=lnc+lnxi⇔lnxi=lnx∗
i−lnc,(c>0),
93
le modèle initial devient:
lny∗
i−lna=β1+β2(lnx∗
i−lnc)+ei
⇔lny∗
i=β∗
1+β2lnx∗
i+ei,
où:
β∗
1=β1+lna−β2lnc
On constate encore qu’une modification des unités de mesure d exiet/ou deyi
a, dans ce modèle, les mêmes effets que l’ajout d’une constant e àxiet/ouyianalysé
à la Section 5.3.
Des usages classiques de ce modèle sont son utilisation pour modéliser une fonc-
tion de demande (quantité en fonction du prix, avec β2<0), une fonction d’offre
(quantité en fonction du prix, avec β2>0), ou encore une fonction de production
(output en fonction d’un input, avec β2>0).
5.4.4. Remarques
1-Si ils constituent bien les modèles non-linéaires (dans l es variables) les plus
utilisés en pratique, les modèles lin-log, log-lin et log-l og ne sont pas les seules
formes fonctionnelles non-linéaires possibles. A titre d’ exemple, on pourrait
considérer:
yi=β1+β2×2
i+ei
lnyi=β1+β21
xi+ei,
etc… De façon générale, le choix d’une forme fonctionnell e spécifique peut être
guidé par les caractéristiques attendues (en particulier e n termes de dérivée et
d’élasticité) à priori de la relation théorique d’intérêt.
2-Au modèle log-log:
lnyi=β1+β2lnxi+ei,
correspond, pour yilui-même, le modèle non-linéaire àerreur multiplicative :
yi=eβ1xβ2vi,
où57:
vi=eei≃1+ei
s’interprètecommeuneerreur relative(i.e., proportionnelle), etdontl’espérance
et la variance (conditionnelle à xi) sont approximativement (si la variance σ2=
57L’approximation ex≃1+xtient pour xau voisinnage de zéro.
94
Var(ei)est petite, et donc eipas trop éloigné de zéro) égales à58:
E(yi)≃eβ1xβ2
Var(yi)≃σ2
eβ1xβ22=σ2[E(yi)]2
De même, au modèle log-lin:
lnyi=β1+β2xi+ei,
correspond, pour yilui-même, le modèle non-linéaire àerreur multiplicative :
yi=eβ1+β2xivi,
où, comme ci-dessus:
vi=eei≃1+ei
s’interprètecommeuneerreur relative(i.e., proportionnelle), etdontl’espérance
et la variance (conditionnelle à xi) sont approximativement (si la variance σ2=
Var(ei)est petite, et donc eipas trop éloigné de zéro) égales à59:
E(yi)≃eβ1+β2xi
Var(yi)≃σ2
eβ1+β2xi2=σ2[E(yi)]2
On voit ainsi qu’au modèle log-log et log-lin correspondent des modèles non
seulement non-linéaire pourl’espérance(conditionnelle)de yi,maisaussi hétéro-
scédastiques , dont la variance (conditionnelle) de yiest proportionnelle au carré
de son espérance (et donc l’écart-type de yiproportionnel à l’espérance). Cette
faculté qu’ont ces modèles de rendre compte, au travers d’un modèle de ré-
gression linéaire simple, de relations non seulement non-l inéaires mais aussi
hétéroscédastiques(enconséquencedel’erreurproportio nnelle)estunedesprin-
cipales raisons de leur très fréquente utilisation en prati que.
3-Comme pour tout modèle de régression standard, dans un mod èle log-log ou
log-lin, un prédicteur ponctuel non biaisé de:
lny0=X0β+e0,
oùX0=
1 lnx0
dans le cas du modèle log-log et X0=
1×0
dans le
cas du modèle log-lin, est donné par:
-lny0=X0ˆβ
et unintervalle de prévision à (1−α)×100%pourlny0est donné par:
$
-lny0−tn−2;1−α
2s.ˆe.(ˆf0);-lny0+tn−2;1−α
2s.ˆe.(ˆf0)%
,
oùs.ˆe.(ˆf0)=(
ˆs2+X0ˆV(ˆβ)X′
0.
58Ces expressions sont obtenues en utilisant l’approximatio nvi=eei≃1+eiet les propriétés de ei:
E(ei)=0etVar(ei)=σ2.
59A nouveau, ces expressions sont obtenues en utilisant l’app roximation vi=eei≃1+eiet les propriétés
deei:E(ei)=0etVar(ei)=σ2.
95
De ce prédicteur ponctuel et de cet intervalle de prévision p ourlny0, on peut
déduire un prédicteur ponctuel et unintervalle de prévision à (1−α)×100%
poury0donnés respectivement par:
ˆy0=elny0=eX0ˆβ
et $
elny0−tn−2;1−α
2s.ˆe.(ˆf0);elny0+tn−2;1−α
2s.ˆe.(ˆf0)%
càd. obtenu en prenant simplement l’exponentielle du prédi cteur ponctuel et
des bornes de l’intervalle de prévision pour lny0. Notons qu’au contraire de
-lny0qui est un prédicteur non biaisé delny0,ˆy0=elny0n’estpasun prédicteur
non biaisé60dey0. Notons également que la validité de l’intervalle de prévis ion
ci-dessus requiert l’hypothèse A6 de normalité.
60En pratique son biais est cependant faible si la variance σ2=Var(ei)est petite. Si la variance
σ2=Var(ei)n’est pas petite, un meilleur prédicteur ponctuel de y0est donné par ˆy0= ˆαelny0= ˆαeX0ˆβ,
oùˆα=1
nn
i=1eˆei. Nous ignorerons cette complication dans le cadre de ce cour s.
96
Chapitre6
Le modèle de régression linéaire
multiple
6.1. Du modèle économique au modèle
économétrique
6.1.1. Un modèle économique
LathéorieducapitalhumaindeG.Becker(1964)61suggèrequelesalaireobtenu
par un individu est fonction de sa productivité, qui elle-mê me dépend de son niveau
d’éducation et de son expérience professionnelle. De façon formelle, cette assertion
peut être décrite par la relation théorique:
y=f(x2,x3),avec∂y
∂x2>0et∂y
∂x3>0,
oùy=le salaire, x2=le nombre d’années d’étude et x3=le nombre d’années
d’expérience.
6.1.2. Le modèle économétrique
Comme dans le cas du modèle de régression simple, on cherche u necontrepartie
empirique delarelationthéorique y=f(x2,x3),unecontrepartieempiriqueprenant
la forme d’un modèle probabiliste paramétré , et on regarde les données dont on
dispose comme des réalisations particulières des variables aléatoires de ce modèle,
pour une valeur particulière des paramètres du modèle.
Le plus simple est de raisonner en supposant que les observat ions dont on dis-
pose sont des données en coupe obtenues par tirages aléatoir es d’individus dans une
population. Comme dans le cas du modèle de régression simple , le modèle obtenu
61Becker, G.S. (1964), Human Capital: A Theoretical and Empirical Analysis, with S pecial Reference to
Education , University of Chicago Press.
97
pourra s’appliquer à des données chronologiques en se plaça nt dans une optique de
modélisation (cf. Section 2.1.2).
Au travers de l’épreuve aléatoire ‘tirer un individu au hasa rd dans la popula-
tion et noter la valeur de son salaire y, de son niveau d’étude x2et de son niveau
d’expérience x3’, on peut représenter la population par une distribution de probabi-
lité jointef(y,x2,x3),inconnueetàprioricomplexe,quicorrespondàladistribu tion
de fréquence des triplets de variables (y,x2,x3)dans la population.
Lorsqu’on cherche à expliquer yen fonction de x2et dex3, l’information perti-
nente est concentrée dans la distribution conditionnelle f(y|x2,x3)qui, pour chaque
valeur du couple (x2,x3), correspond à la distribution de fréquence des différentes
valeurs de ydans la population.
Si on cherchait à expliquer yen fonction de x2seulement, la distribution con-
ditionnelle pertinente serait f(y|x2)qui, pour chaque valeur de x2(quel que soit la
valeur dex3), correspond à la distribution de fréquence des différentes valeurs de y
dans la population. La distribution conditionnelle f(y|x2)peut être obtenue de la
distribution jointe f(y,x2), qui elle-même peut être obtenue (par marginalisation)
def(y,x2,x3).
La distribution conditionnelle f(y|x2,x3)peut être résumée par l’ espérance con-
ditionnelle deysachant(x2,x3)–aussiappelée courbe de régression deyen(x2,x3)
– qui, pour chaque valeur du couple (x2,x3), correspond à la valeur moyenne de y
dans la population. Il en est de même pour la distribution con ditionnelle f(y|x2),
qui peut être résumée par l’ espérance conditionnelle deysachantx2– aussi ap-
peléecourbe de régression deyenx2– qui, pour chaque valeur de x2(quel que
soit la valeur de x3), correspond à la valeur moyenne de ydans la population. De
manière générale, on a:
E(y|x2,x3)=g(x2,x3) (i.e., une fonction de x2etx3)
et
E(y|x2)=g∗(x2) (i.e., une fonction de x2)
Commedanslecasdumodèlederégressionsimple,l’espéranc econditionnellede
ysachant(x2,x3)constitue, dans le modèle de régression multiple, la contre partie
empirique de la relation théorique y=f(x2,x3)d’intérêt.
Plusieurs points méritent d’être épinglés:
1-Les espérances conditionnelles E(y|x2,x3) =g(x2,x3)etE(y|x2) =g∗(x2)ne
sont pas sans liens. On peut en effet montrer que62:
E(y|x2)=
x3E(y|x2,x3)f(x3|x2),
autrement dit que E(y|x2)=g∗(x2)est, pour chaque valeur de x2, une moyenne
62Dans le cas continu, E(y|x2)=∞
−∞E(y|x2,x3)f(x3|x2)dx3
98
pondéréeparlesprobabilitésconditionnelles f(x3|x2)desE(y|x2,x3)=g(x2,x3)
évaluées aux différentes valeurs possibles de x3.
2-Si les espérances conditionnelles E(y|x2,x3)=g(x2,x3)etE(y|x2)=g∗(x2)ne
sont pas sans liens, elles peuvent néanmoins être très différ entes. Ainsi, on peut
très bien avoir:
E(y|x2)=α(i.e., une constante, ne dépend pas de x2)
et
E(y|x2,x3)=g(x2,x3) (i.e., une fonction de x2etx3)
De même, on peut très bien avoir:
E(y|x2)=g∗(x2) (i.e., une fonction de x2)
et
E(y|x2,x3)=g(x3) (i.e., une fonction de x3seulement)
Par contre, si E(y|x2,x3) =α(i.e., une constante), on a nécessairement
E(y|x2)=α(i.e., une constante).
De manière générale, une variable peut ainsi apparaître ou n on pertinente selon
l’ensemble des variables conditionnantes pris en compte. De même, l’eff et mar-
ginal∂E(y|.)
∂xjd’une variable xjsera généralement différent selon l’ensemble des
variables conditionnantes considéré.
3-Les espérances conditionnelles E(y|x2,x3) =g(x2,x3)etE(y|x2) =g∗(x2)
répondent à des questions différentes concernant la relatio n entreyetx2dans
la population: E(y|x2)représente la façon dont ydépend de x2, aucune autre
variable n’étant maintenue constante, tandis de E(y|x2,x3)représente la façon
dontydépend de x2, la variable x3étant maintenue constante.
Dans cette optique, pour obtenir la relation entre yetx2toutes autres choses
étant égales , autrement dit ce à quoi la théorie économique fait générale ment
référence lorsqu’elle parle de l’existence d’une relation entre deux variables,
il faut considérer E(y|x2,x3,…,xk), oùx3,…,xkest l’ensemble des variables
(autres que x2) qui influencent systématiquement y.
4-A priori, tout choix d’ensemble de variables conditionna ntes est légitime, en
particulier pour la prévision. Tout dépend de la question à l aquelle on cherche à
répondre et, de façon plus pragmatique, de l’information (d es variables) dispo-
nibles.
5-Finalement,onnoteraquesilechoixd’unensembledevari ablesconditionnantes
plus large met par définition en lumière une information plus précise, il y a un
revers à la médaille: une relation est a priori d’autant plus difficile à modéliser
par une forme paramétrique simple et à estimer avec précisio n que l’ensemble
des variables conditionnantes est large.
Avant de poursuivre, illustrons les concepts évoqués ci-av ant pour une popula-
tion hypothétique dont la distribution (discrète) jointe d u salaire (=y), du nombre
99
d’années d’étude ( =x2) et du nombre d’années d’expérience ( =x3) est donnée par:
f(y,x2,x3)1000 1500 2000 2500
x2=12×3=50,05 0,03 0,02 0
x3=100,08 0,2 0,08 0,04
x2=16×3=50,08 0,2 0,12 0
x3=100 0,02 0,05 0,03
De la distribution jointe f(y,x2,x3), on peut déduire les distributions (mar-
ginales) jointes f(y,x2)etf(x2,x3),la distribution marginale f(x2), et la distribu-
tion conditionnelle f(x3|x2). Elles sont données63par:
f(y,x2) =
x3f(y,x2,x3), f(x2,x3)=
yf(y,x2,x3),
f(x2) =
x3f(x2,x3)etf(x3|x2)=f(x2,x3)
f(x2)
On obtient:
f(y,x2)1000 1500 2000 2500
x2=120,13 0,23 0,1 0,04
x2=160,08 0,22 0,17 0,03
f(x2,x3)x3=5×3=10f(x2)
x2=12 0,1 0,4 0,5
x2=16 0,4 0,1 0,5
et
f(x3|x2)x3=5×3=10
x2=12 0,2 0,8
x2=16 0,8 0,2
Des distributions jointes f(y,x2,x3)etf(x2,x3), on peut déduire la distribution
conditionnelle et l’espérance conditionnelle de ysachant(x2,x3). De même, de la
distribution jointe f(y,x2)et de la distribution marginale f(x2), on peut déduire la
distribution conditionnelle et l’espérance conditionnel le deysachantx2seulement.
Elles sont données64par:
f(y|x2,x3) =f(y,x2,x3)
f(x2,x3)etE(y|x2,x3)=
yyf(y|x2,x3),
f(y|x2) =f(y,x2)
f(x2)etE(y|x2)=
yyf(y|x2)
63Dans le cas continu, f(y,x2) =∞
−∞f(y,x2,x3)dx3,f(x2,x3) =∞
−∞f(y,x2,x3)dyetf(x2) =∞
−∞f(x2,x3)dx3,f(x3|x2)ayant la même définition.
64Dans le cas continu, E(y|x2,x3) =∞
−∞yf(y|x2,x3)dy,f(y|x2,x3)ayant la même définition, et
E(y|x2)=∞
−∞yf(y|x2)dy,f(y|x2)ayant également la même définition.
100
On obtient:
f(y|x2,x3)1000 1500 2000 2500 E(y|x2,x3)
x2=12×3=50,5 0,3 0,2 0 1350
x3=100,2 0,5 0,2 0,1 1600
x2=16×3=50,2 0,5 0,3 0 1550
x3=100 0,2 0,5 0,3 2050
et
f(y|x2)1000 1500 2000 2500 E(y|x2)
x2=120,26 0,46 0,2 0,08 1550
x2=160,16 0,44 0,34 0,06 1650
On peut par ailleurs vérifier qu’on a bien:
E(y|x2)=
x3E(y|x2,x3)f(x3|x2)
L’espérance conditionnelle E(y|x2,x3) =g(x2,x3)définit un modèle proba-
biliste de la relation théorique y=f(x2,x3)d’intérêt, dont les variables aléatoires
(y,x2,x3)ont des probabilités de réalisation décrites par la distrib ution jointe in-
connuef(y,x2,x3). On obtient un modèle probabiliste paramétré de la relation
théorique d’intérêt si on suppose une forme fonctionnelle, dépendant de paramètres,
pourg(x2,x3). Defaçonsemblableaumodèlederégressionlinéairesimple ,lemodèle
de régression linéaire multiple standard suppose:
E(y|x2,x3)=β1+β2×2+β3×3(i.e., une fonction linéaire de x2etx3)
Pour cette forme fonctionnelle, on a:
∂E(y|x2,x3)
∂x2=∂g(x2,x3)
∂x2=β2(i.e., une constante)
∂E(y|x2,x3)
∂x3=∂g(x2,x3)
∂x3=β3(i.e., une constante)
∂2E(y|x2,x3)
∂x2
2=∂2E(y|x2,x3)
∂x2
3=0
∂2E(y|x2,x3)
∂x2∂x3=∂2E(y|x2,x3)
∂x3∂x2=0 ( i.e., pas d’interaction)
Autrement dit, les effets marginaux de x2et dex3sont constants, et en particulier
ne présentent pas d’interactions (l’effet marginal de x2ne dépend pas de x3, et
vice-versa).
Si le modèle de régression linéaire multiple est correct, ch aque observation
(yi,xi2,xi3)satisfait le modèle probabiliste:
E(yi|xi2,xi3)=β1+β2xi2+β3xi3, i=1,…,n,
où lesβjsont des paramètres inconnus à estimer et, avant observatio n,(yi,xi2,xi3)
101
sont des variables aléatoires.
Comme dans le cas du modèle de régression simple, on s’appuie sur un en-
semble d’hypothèses statistiques complémentaires qui, po ur l’essentiel, peuvent être
relâchées si nécessaire.
Ces hypothèses sont les suivantes:
1-Var(yi|xi2,xi3)=σ2(i.e., homoscédasticité)
2-Lesxijsont fixes, non-stochastiques (+ une hypothèse d’indépenda nce linéaire,
cf. infra). Cette hypothèse équivaut à raisonner condition nellement aux valeurs
desxijobservées dans l’échantillon65et, comme pour le modèle de régression
simple, permet de recourir à l’écriture simplifiée:
E(yi)=β1+β2xi2+β3xi3
Var(yi)=σ2i=1,…,n
3-Cov(yi,yj)=0,∀i=j(i.e., non-corrélation)
4-De façon optionnelle, yi∼N(β1+β2xi2+β3xi3,σ2) (i.e., normalité)
L’introduction d’un terme d’erreur ei=yi−β1−β2xi2−β3xi3permet de
reformuler le modèle et ses hypothèses de la même façon que da ns le cas du modèle
de régression simple:
A1yi=β1+β2xi2+β3xi3+ei, i=1,…,n
A2E(ei)=0⇔E(yi)=β1+β2xi2+β3xi3, i=1,…,n
A3Var(ei)=σ2=Var(yi), i=1,…,n
A4Cov(ei,ej)=0=Cov(yi,yj),∀i=j
A5 lesxijsont non-stochastiques (+ une hypothèse d’indépendance li néaire,
cf. infra)
A6 (optionnel) ei∼N(0,σ2)⇔yi∼N(β1+β2xi2+β3xi3,σ2), i=
1,…,n
Les remarques faites à la fin de la Section 2.1.4, en particuli er concernant la
(non-)vie propre de l’erreur ei,sa non-observabilité et son origine (variables non
prises en compte et variabilité naturelle), sont ici toujou rs d’application.
6.1.3. Formulation générale du modèle et de ses hypothèses
sous forme matricielle
De façon générale, le modèle de régression linéaire multipl e permet de prendre
en compte un nombre kquelconque de variables explicatives.
65Au sens strict, elle correspond au cas d’un échantillonnage stratifié .
102
On note:
Xi=
1xi2···xik
etβ=
β1
β2…
βk
Par définition, on a:
yi=β1+β2xi2+…+βkxik+ei
⇔yi=Xiβ+ei, i=1,…,n
En empilant les nobservations de l’échantillon, on peut écrire:
Y=
y1
y2
…
yn
, X=
X1
X2
…
Xn
=
1×12···x1k
1×22···x2k
………
1xn2···xnk
ete=
e1
e2
…
en
de sorte que:
y1=β1+β2×12+…+βkx1k+e1
y2=β1+β2×22+…+βkx2k+e1
…
yn=β1+β2xn2+…+βkxnk+e1
⇔
y1
y2
…
yn
=
1×12···x1k
1×22···x2k
………
1xn2···xnk
β1
β2…
βk
+
e1
e2
…
en
soit, de façon compacte:
Y=Xβ+e
Sur base de cette notation matricielle, les hypothèses A1-A 6 du modèle de
régression linéaire multiple s’écrivent:
A1 Y=Xβ+e
A2 E(e)=0⇔E(Y)=Xβ
A3-A4 V(e)=σ2I=V(Y)
A5 Xest non-stochastique et rg (X)=k
A6 (optionnel) e∼N(0,σ2I)⇔Y∼N(Xβ,σ2I)
On voit que, hormis le changement de dimension de Xet deβqui reflète le fait
que l’on permet maintenant d’avoir un nombre kquelconque de variables explica-
tives (intercept compris), rien n’a changé par rapport à la f ormulation sous forme
matricielle du modèle de régression simple et de ses hypothè ses. Celui-ci apparaît
maintenant simplement comme le cas particulier où k=2.
103
Notonsencore,commedanslecasdumodèlederégressionsimp le,quel’hypothèse
rg(X)=krequiert que les kcolonnes de Xsoient linéairement indépendantes, ce
qui est le cas s’il n’existe pas de constantes non nulles c1,c2,…,cktelles que:
c1
1
1
…
1
+c2
x12
x22…
xn2
+…+ck
x1k
x2k…
xnk
=0,
autrement dit si aucune colonne de Xn’est une combinaison linéaire exacte des
autres colonnes de X.
6.2. Estimation MCO des paramètres du modèle
L’estimateur MCO est défini par:
ˆβ=Argminβ(Y−Xβ)′(Y−Xβ)
=Argminβe′e
Il est obtenu en recherchant le minimum de la fonction:
SCR(β) = (Y−Xβ)′(Y−Xβ)
=Y′Y−2β′X′Y+β′X′Xβ
En suivant l’approche de la Section 2.3.3, on vérifie aisémen t (faites-le!) que la
condition de premier ordre définissantˆβs’écrit:
X′(Y−Xˆβ)=X′ˆe=0⇔X′Xˆβ=X′Y ,
soit, sous forme détaillée:
nn
i=1xi2n
i=1xi3···n
i=1xik
n
i=1xi2n
i=1×2
i2n
i=1xi2xi3···n
i=1xi2xik
n
i=1xi3n
i=1xi3xi2n
i=1×2
i3···n
i=1xi3xik
……………
n
i=1xikn
i=1xikxi2n
i=1xikxi3···n
i=1×2
ik
ˆβ1
ˆβ2
ˆβ3…
ˆβk
=
n
i=1yi
n
i=1xi2yi
n
i=1xi3yi
…
n
i=1xikyi
,
et que l’estimateur MCO s’écrit:
ˆβ=(X′X)−1X′Y
On voit qu’à nouveau, hormis le changement de dimension de Xet deβ, rien
104
n’a changé par rapport à la forme matricielle de l’estimateu r MCO du modèle de
régression simple.
Plusieurs remarques méritent encore d’être faites:
1-Sous forme détaillée, la première ligne de la condition X′ˆe= 0définissantˆβ
donne:n
i=1ˆei=0. La somme des résidus de la régression est donc nulle. Notons
que ce n’est pas le cas si le modèle n’inclut pas une constante .
2-Sous forme détaillée, la première ligne de la condition X′Xˆβ=X′Ydéfinissant
ˆβdonne, en réarrangant:
¯y=ˆβ1+ˆβ2¯x2+…+ˆβk¯xk
L’hyperplanderégressionpassedoncparlepointmoyendel’ échantillon. Notons
comme ci-dessus que ce n’est pas le cas si le modèle n’inclut p as une constante.
3-Commedans le casdumodèle derégressionsimple, l’hypoth èse A5querg (X)=
kassure que rg (X′X)=k, soit queX′Xest non-singulière, et donc inversible
(cf. Section 2.3.3).
4-L’estimateur MV de βsous l’hypothèse A6 de normalité est toujours, dans le
cadredumodèlederégressionmultiple,identiqueàl’estim ateurMCO.Demême,
l’estimateur MV de σ2est toujours donné par:
ˆσ2=1
nn
i=1ˆe2
i=ˆe′ˆe
n,ˆe=Y−Xˆβ
5-On peut aisément vérifier (faites-le!) que l’ensemble des résultats complémen-
tairesdécritsàlaSection2.3.4restevalabledanslecadre dumodèlederégression
multiple, et en particulier que la matrice de projection MX=I−X(X′X)−1X′
a la même interprétation et possède les mêmes propriétés que dans le cas du
modèle de régression simple: MXest symétrique et idempotente, et ˆe=MXe.
6.3. Propriétés de l’estimateur MCO
Le passage du modèle de régression de 2àkvariables explicatives ne modifie en
rien les propriétés statistiques de l’estimateur MCO. De mê me, l’interprétation de
ces propriétés reste inchangée.
6.3.1. Propriétés d’échantillonnage
En suivant l’approche de laSection 3.1, onvérifie aisément( faites-le!) que, sous
105
les hypothèses A1, A2 et A5, on a toujours:
E(ˆβ)=
E(ˆβ1)
…
E(ˆβk)
=
β1…
βk
=β,
autrement dit que ˆβest un estimateur non biaisé de β, et que, sous les hypothèses
A1 à A5, on a encore:
V(ˆβ)=
Var(ˆβ1)···Cov(ˆβ1,ˆβk)
………
Cov(ˆβk,ˆβ1)···Var(ˆβk)
=σ2(X′X)−1
On peut montrer que, sous forme détaillée, pour k=3, cela donne:
Var(ˆβ2) =σ2
(1−ρe(xi2,xi3)2)n
i=1(xi2−¯x2)2(6.1)
Var(ˆβ3) =σ2
(1−ρe(xi2,xi3)2)n
i=1(xi3−¯x3)2(6.2)
Cov(ˆβ2,ˆβ3) =−ρe(xi2,xi3)σ2
(1−ρe(xi2,xi3)2)*n
i=1(xi2−¯x2)2*n
i=1(xi3−¯x3)2(6.3)
oùρe(xi2,xi3)désigne la corrélation empirique entre xi2etxi3:
ρe(xi2,xi3)=Cove(xi2,xi3))
Vare(xi2))
Vare(xi3)
Sur base des expressions détaillées (6.1), (6.2) et (6.3), o n peut voir que les
facteurs déterminant V(ˆβ)sont66:
1-La variance σ2du terme d’erreur:
siσ2ր, alorsVar(ˆβ2),Var(ˆβ3)et|Cov(ˆβ2,ˆβ3)|ր
Autrement dit, plus la dispersion des yiautour du plan de régression E(yi)=
β1+β2xi2+β3xi3est grande, moins la précision d’estimation est grande.
2-La dispersion des variables explicatives:
sin
i=1(xi2−¯x2)2etn
i=1(xi3−¯x3)2ր, alorsVar(ˆβ2),Var(ˆβ3)
et|Cov(ˆβ2,ˆβ3)|ց
Autrementdit,plusladispersiondes xijestgrande,pluslaprécisiond’estimation
66L’interceptˆβ1est ici non considéré.
106
est grande.
3-La taille nde l’échantillon:
sinր,n
i=1(xi2−¯x2)2etn
i=1(xi3−¯x3)2ր, alorsVar(ˆβ2),Var(ˆβ3)
et|Cov(ˆβ2,ˆβ3)|ց
Autrement dit, plus la taille d’échantillon est grande, plu s la précision d’estima-
tion est grande.
4-La corrélation entre les variables explicatives:
si|ρe(xi2,xi3)|ր, alorsVar(ˆβ2),Var(ˆβ3)et|Cov(ˆβ2,ˆβ3)|ր
Autrement dit, plus la corrélation entre les variables expl icativesxijest grande,
moins la précision d’estimation est grande.
Nous avions déjà identifié les trois premiers facteurs dans l e cadre du modèle de
régression simple. La seule nouveauté ici est le rôle de la co rrélation entre les vari-
ables explicatives (hors intercept). Intuitivement, si le s variables explicatives sont
fortement corrélées, cela signifie que, dans l’échantillon , leurs valeurs bougent tou-
jours de concert, de sorte qu’il est difficile d’estimer préci sément l’effet marginal
propre (i.e., le paramètre de βj)de chacune d’elles. Pour pouvoir estimer précisé-
ment l’effet propre des différentes variables, il est nécessa ire qu’elles varient, au
moins partiellement, indépendamment les unes des autres.
En suivant l’approche de la Section 3.2, on peut encore aisém ent vérifier (faites-
le!) que le théorème Gauss-Markov est toujours d’applicati on, de sorte que ˆβest
le meilleur estimateur sans biais de β. En d’autres termes, sous les hypothèses A1
à A5:
V(ˆβ∗)≥V(ˆβ),
pour toutautre estimateur linéaire sans biais ˆβ∗deβque l’estimateur MCO ˆβ.Cela
implique que pour tout vecteur ade dimension k×1, on a:
Var(a′ˆβ∗)≥Var(a′ˆβ),
autrement dit que la variance de toute combinaison linéaire deˆβ∗est toujours
supérieure ou égale à la variance de la même combinaison liné aire deˆβ, et donc
en particulier que:
Var(ˆβ∗
j)≥Var(ˆβj), j=1,…,k
Finalement, en suivant l’approche des Sections 3.3 et 3.4, o n peut à nouveau
aisément vérifier (faites-le!) que si, aux hypothèses A1 à A5 , on ajoute l’hypothèse
A6 de normalité, on a de façon exacte en échantillon fini :
ˆβ∼N(β,σ2(X′X)−1),
tandis que, sous les seules hypothèses A1 à A5 (sans invoquer A6 donc), on a
107
asymptotiquement :
ˆβp−→β
et$
V(ˆβ)%−1
2
ˆβ−β
d−→N(0,I),
soit, exprimé sous forme d’approximation utilisable en éch antillon fini pour n
suffisamment grand(au moins n>30):
ˆβ≈N(β,σ2(X′X)−1)
6.3.2. Estimateur de σ2et deV(ˆβ)
On peut estimer la matrice de variance-covariance V(ˆβ) =σ2(X′X)−1de
l’estimateur MCO ˆβen remplaçant la variance σ2du terme d’erreur du modèle
par un estimateur de cette quantité.
Un estimateur naturel de σ2est donné par l’estimateur MV:
ˆσ2=1
nn
i=1ˆe2
i=ˆe′ˆe
n,ˆe=Y−Xˆβ
En suivant l’approche de la Section 3.5.1, on peut aisément v érifier (faites-le!)
que, bien que convergent, cet estimateur est biaisé puisque , sous les hypothèses A1
à A5, on a:
E(ˆσ2) =E
e′MXe
n
(carˆe=MXe,cf. Section 2.3.4)
=σ2
ntr[MX]
=n−k
nσ2<σ2(6.4)
De (6.4), on peut déduire que, sous les hypothèses A1 à A5, un e stimateur
convergent etnon biaisé deσ2est donné par:
ˆs2=1
n−kn
i=1ˆe2
i=ˆe′ˆe
n−k
Dans le cas du modèle de régression simple, on avait simpleme ntk=2.
Sur base de l’estimateur ˆs2, sous les hypothèses A1 à A5 ,un estimateur conver-
gentetnon biaisé deV(ˆβ)=σ2(X′X)−1est donné par:
ˆV(ˆβ)=ˆs2(X′X)−1
108
Des éléments diagonaux Vˆar(ˆβj)(j=1,…,k) de cet estimateur ˆV(ˆβ), on ob-
tient des estimateurs convergents , maispas non biaisés des écarts-types s.e.(ˆβj)des
différentsˆβjen prenant:
s.ˆe.(ˆβj)=(
Vˆar(ˆβj), j=1,…,k
6.4. Intervalles de confiance et tests d’hypothèse
deβj
On sait que, sous les hypothèses A1 à A6 (y.c. donc l’hypothès e de normalité),
on a de façon exacte:
ˆβ∼N(β,σ2(X′X)−1),
ce qui implique, pour j=1,…,k, que:
ˆβj∼N(βj,Var(ˆβj)),
oùVar(ˆβj)=σ2qjj, avecqjj=[(X′X)−1]jj, de sorte que:
ˆz=ˆβj−βj
s.e.(ˆβj)∼N(0,1),
oùs.e.(ˆβj)=(
Var(ˆβj)=)
σ2qjj. En particulier, lorsque βj=βo
j, on a:
ˆzo=ˆβj−βo
j
s.e.(ˆβj)∼N(0,1),
et lorsqueβj=β∗
j=βo
j, on a:
ˆzo=ˆβj−βo
j
s.e.(ˆβj)∼N
β∗
j−βo
j
s.e.(ˆβj),1
En suivant l’approche de la Section 4.1.2, on peut aisément v érifier (faites-le!)
que, sous les hypothèses A1 à A6, on a:
ˆe′ˆe
σ2=e′MXe
σ2∼χ2(n−k)
⇔ˆv=(n−k)ˆs2
σ2∼χ2(n−k)(carˆe′ˆe=(n−k)ˆs2)
Dans le cas du modèle de régression simple, on avait simpleme ntk=2.
On peut encore montrer que ˆzetˆvsont indépendamment distribués, de sorte
109
que de la définition de la loi de Student, on a:
ˆt=ˆz*
ˆv
n−k=ˆβj−βj)
σ2qjj*
ˆs2
σ2∼t(n−k),
soit, en simplifiant:
ˆt=ˆβj−βj)
ˆs2qjj=ˆβj−βj
s.ˆe.(ˆβj)∼t(n−k)
En particulier, lorsque βj=βo
j, on a:
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)∼t(n−k),
tandis que lorsque βj=β∗
j=βo
j, on peut montrer qu’on a:
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)∼t(δ∗,n−k),
oùt(δ∗,n−k)désigne la loi de Student non-centrale à ( n−k) degrés de liberté et
le paramètre de non-centralité δ∗est égal àδ∗=β∗
j−βo
j
s.e.(ˆβj).
On voit que, mis à part la modification du nombre de degrés de li berté sur les
lois de Student impliquées ( (n−k)au lieu de(n−2)), les résultats ci-dessus sont
en tout point identiques aux résultats sur lesquels nous nou s sommes appuyés au
Chapitre 4 pour construire des intervalles de confiance pour βj(j= 1,2) et des
tests d’hypothèses (bilatéraux et unilatéraux) pour βj(j=1,2) dans le modèle de
régression linéaire simple.
On en conclut qu’au nombre de degrés de libertés près ( (n−k)au lieu de
(n−2)), les procédures décrites au Chapitre 4 pour les intervalle s de confiance pour
βj(cf. Section 4.1.2) et pour les tests d’hypothèses de βj(cf. Section 4.2.2) restent
d’application (leseul changementnotable est le nombre de d egrés de liberté de laloi
deStudentimpliqué: (n−k)aulieude(n−2))danslacadredumodèlederégression
linéaire multiple. De même, l’interprétation de ces procéd ures reste identique.
Si on renonce à l’hypothèse A6 de normalité , on sait que, sous les seules hy-
pothèses A1 à A5, on a toujours asymptotiquement:
$
V(ˆβ)%−1
2
ˆβ−β
d−→N(0,I),oùV(ˆβ)=σ2(X′X)−1,
ce qui implique, pour j=1,…,k, que:
ˆz=ˆβj−βj)
σ2qjjd−→N(0,1),oùqjj=
(X′X)−1
jj,
110
soit, sous forme d’approximation utilisable en échantillo n fini pour nsuffisamment
grand:
ˆz=ˆβj−βj
s.e.(ˆβj)≈N(0,1),oùs.e.(ˆβj)=)
σ2qjj,
et donc:
ˆzo=ˆβj−βo
j
s.e.(ˆβj)≈N(0,1), siβj=βo
j
ˆzo=ˆβj−βo
j
s.e.(ˆβj)≈N
β∗
j−βo
j
s.e.(ˆβj),1
,siβj=β∗
j(=βo
j)
Asymptotiquement,lorsque nestgrand,onpeutencoremontrerqueleremplace-
ment deσ2par son estimateur convergent et non biaisé ˆs2ne modifie pas les distri-
butionsd’échantillonnageenjeu, desortequ’onaaussi, so usformed’approximation
utilisable en échantillon fini pour nsuffisamment grand:
ˆt=ˆβj−βj
s.ˆe.(ˆβj)≈N(0,1),oùs.ˆe.(ˆβj)=)
ˆs2qjj,
et donc:
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)≈N(0,1), siβj=βo
j
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)≈N
β∗
j−βo
j
s.e.(ˆβj),1
,siβj=β∗
j(=βo
j)
On sait par ailleurs que lorsque n→∞, la loi de Student t(n−k)tend vers la
loi normale N(0,1), de sorte que les quantiles de la loi de Student t(n−k)et de la
loi normale N(0,1)s’égalisent.
Comme àlaSection 4.3du Chapitre 4, de ces éléments, on peut c onclure que les
procédures d’intervalles de confiance pour βj(j=1,…,k) et de tests d’hypothèse
deβj(j= 1,…,k) suggérées ci-dessus, qui sont exactes en échantillon fini sous
l’hypothèse de normalité A6, restent valables asymptotiquement , à titre approxi-
matif, pour ngrand, sous les seules hypothèses A1 à A5. En bref, toujours r ien de
nouveau, sinon le changement du nombre de degrés de liberté d e la loi de Student
impliqué:(n−k)au lieu de(n−2).
On notera finalement que les remarques de terminologie et d’i nterprétation
développées à la Section 4.2.3 dans le cadre du modèle de régr ession simple restent
d’application dans le cadre du modèle de régression linéair e multiple. Ainsi, en
particulier:
1-Le test bilatéral de H 0:βj=0contre H1:βj=0pourj=2,…,k(pourβ1, ce
test a généralement peu de sens) revient, dans le cadre du mod èle de régression
111
linéaire multiple, à tester, pour par exemple j=2etk=3:
H′
0:E(yi|xi2,xi3)=β1+β3xi3, i.e.,E(yi|xi2,xi3)ne dépend
pas dexi2et est linéaire en xi3
contre H′
1:E(yi|xi2,xi3)=β1+β2xi2+β2xi3i,i.e.,E(yi|xi2,xi3)est une
fonction linéaire de xi2etxi3
2-Le fait de trouver les ˆβjsignificatifs (pour j=2,…,k) ne garantit en rien que
E(yi|xi2,…,xik)est bien une fonction linéaire des xij.
3-A contrario, le fait de ne pas trouver un ˆβjsignificatif ne signifie pas nécessaire-
ment queE(yi|xi2,…,xik)ne dépend pas de xij. C’est seulement une absence
de preuve que E(yi|xi2,…,xik)dépend de xij.
4-Il ne faut pas confondre ‘ ˆβjest (très) significatif’ et ‘ xija un effet (très) im-
portant sur E(yi|xi2,…,xik)’. Pas question donc d’évaluer l’importance relative
des effets des variables xijsurE(yi|xi2,…,xik)sur base de la plus ou moins
grande significativité de leur paramètre estimé ˆβj. On notera au passage que
comparer l’importance relative des effets des variables xijsurE(yi|xi2,…,xik)
est une opération délicate lorsque les variables en jeu ne so nt pas directement
comparables (par exemple, le revenu et le nombre de membres d ’un ménage).
5-Pour conclure, on rappellera que des modèles impliquant d es variables explica-
tives (ensembles conditionnants) différentes étant des mod èles différents (cf. les
commentaires de la Section 6.1.2), le fait que le paramètre e stimé d’une variable
donnée apparaisse significatif (par abus de langage, on dit s ouvent: que la vari-
able apparaisse significative) dans un modèle et pas dans un a utre n’a a priori
rien de contradictoire.
6.5. Prévision et intervalles de prévision
Comme dans le cadre du modèle de régression linéaire simple, le prédicteur:
ˆy0=ˆβ1+ˆβ2×02+…+ˆβkx0k=X0ˆβ,oùX0=1×02···x0k
,
peut à la fois être utilisé comme estimateur/prédicteur de:
E(y0)=β1+β2×02+…+βkx0k,
càd. de l’espérance de ysachant (x02,…x0k), et comme prédicteur de:
y0=β1+β2×02+…+βkx0k+e0,
càd. de la valeur de ysachant (x02,…x0k).
En suivant l’approche de la Section 5.1, on peut aisément vér ifier (faites-le!)
que les erreurs de prévision ˆp0= ˆy0−E(y0)etˆf0= ˆy0−y0sont, dans le modèle
de régression multiple, toujours telles que, sous les hypot hèses A1 à A6 (y.c. donc
112
l’hypothèse de normalité), on a:
E(ˆp0) = 0,i.e.ˆy0est un estimateur/prédicteur non biaisé de E(y0)
E(ˆf0) = 0,i.e.ˆy0est un prédicteur non biaisé de y0
Var(ˆp0) =X0V(ˆβ)X′
0=σ2X0(X′X)−1X′
0
Var(ˆf0) =σ2+X0V(ˆβ)X′
0=σ2(1+X0(X′X)−1X′
0)
ˆp0∼N(0,Var(ˆp0))⇔ˆzp0=ˆp0)
σ2X0(X′X)−1X′
0∼N(0,1)
ˆf0∼N(0,Var(ˆf0))⇔ˆzf0=ˆf0)
σ2(1+X0(X′X)−1X′
0)∼N(0,1)
Toujoursensuivantl’approchedelaSection5.1,etennotan tqu’onpeutmontrer
queˆzp0etˆzf0sont indépendamment distribués de ˆv=(n−k)ˆs2
σ2∼χ2(n−k)(sur le
résultatˆv∼χ2(n−k), voir la Section 6.4), on vérifie aisément (faites-le!) que, sous
les hypothèses A1 à A6, on a encore:
ˆtp0=ˆp0)
ˆs2X0(X′X)−1X′
0=ˆy0−E(y0)
s.ˆe.(ˆp0)∼t(n−k)
et
ˆtf0=ˆf0)
ˆs2(1+X0(X′X)−1X′
0)=ˆy0−y0
s.ˆe.(ˆf0)∼t(n−k)
On voit à nouveau que, mis à part la modification du nombre de de grés de
liberté de la loi de Student impliquée ( (n−k)au lieu de(n−2)), et évidemment le
changement de dimension de Xet deX0, les résultats ci-dessus sont en tout point
identiquesauxrésultatssurlesquelsnousnoussommesappu yésàlaSection5.1pour
construire des intervalles de prévision pour E(y0)ety0dans le cadre du modèle de
régression linéaire simple.
Onenconclutqu’aunombrededegrésdelibertés( (n−k)aulieude(n−2))età
ladimension de Xet deX0près, les intervalles de prévision pour E(y0)ety0décrits
respectivement à la Section 5.1.1.2 et à la Section 5.1.2.2 r estent d’application (le
changement le plus notable est le nombre de degrés de liberté de la loi de Student
impliqué:(n−k)au lieu de(n−2)) dans le cadre du modèle de régression linéaire
multiple. De même, l’interprétation de ces intervalles de p révision reste inchangée.
Sionrenonceàl’hypothèseA6denormalité,comme ˆp0=ˆy0−E(y0)=X0(ˆβ−β)
est une combinaison linéaire de ˆβet queˆβest toujours asymptotiquement distribué
de façon normale, on a encore que ˆp0estasymptotiquement distribué de façon nor-
male. Ainsi, formellement, sous les hypothèses A1 à A5, on a:
ˆp0)
σ2X0(X′X)−1X′
0=ˆy0−E(y0)
s.e.(ˆp0)d−→N(0,1),
113
soit, sous forme d’approximation utilisable en échantillo n fini pour nsuffisamment
grand:
ˆy0−E(y0)
s.e.(ˆp0)≈N(0,1),
oùs.e.(ˆp0) =)
σ2X0(X′X)−1X′
0=(
X0V(ˆβ)X′
0, et, comme lorsque nest grand,
on peut montrer que le remplacement de σ2par son estimateur convergent et non
biaiséˆs2ne modifie pas la distribution d’échantillonnage en jeu, on a aussi, sous
forme d’approximation:
ˆy0−E(y0)
s.ˆe.(ˆp0)≈N(0,1),
oùs.ˆe.(ˆp0)=)
ˆs2X0(X′X)−1X′
0=(
X0ˆV(ˆβ)X′
0.
Etant donné la convergence de la loi de Student t(n−k)vers la loi normale
N(0,1)lorsquen→∞, commeàlaSection5.1.1.2, onpeutconclurequel’interval le
de prévision pour E(y0)suggéré ci-dessus, qui est exact en échantillon fini sous
l’hypothèse A6 de normalité, reste encore valable asymptotiquement , à titre appro-
ximatif, pour ngrand, sous les seules hypothèses A1 à A5.
On notera pour terminer que pour les mêmes raisons que celles invoquées à la
Section5.1.2.2,unmêmerésultatasymptotique ne tient pas danslecasdel’intervalle
de prévision pour y0.
6.6. Exemple: les ventes d’une chaîne de fast-food
de HGL (2008)
Hill, Griffiths et Lim (2008) s’intéressent67à l’effet de la politique de prix et de
publicité sur les ventes d’une chaîne de fast-food. Le modèl e considéré est:
yi=β1+β2xi2+β3xi3+ei
oùyidésigne les recettes mensuelles de vente (en milliers de $), xi2le prix de vente
unitaire (en $), et xi3le montant des dépenses publicitaires mensuelles (en milli ers
de $).
L’échantillon est composé d’observations (en coupe) de (yi,xi2,xi3)dans 75 suc-
cursales de la chaîne de fast-food situées dans des petites v illes américaines de taille
comparable.
Les questions d’intérêt sont:
1-La demande est-elle rigide ( β2>0) ou au contraire élastique ( β2<0)?
2-Les dépenses publicitaires sont-elles efficaces ( β3>0)? rentables ( β3>1)?
67Voir p.106 et suivantes.
114
En utilisant le logiciel GRETL, on obtient comme statistiqu e descriptive:
Summary statistics, using the observations 1 – 75
Mean Median Minimum Maximum
y 77.375 76.500 62.400 91.200
x2 5.6872 5.6900 4.8300 6.4900
x3 1.8440 1.8000 0.5000 3.1000
Std. Dev. C.V. Skewness Ex. kurtosis
y 6.4885 0.083859 -0.010631 -0.74467
x2 0.51843 0.091158 0.061846 -1.3328
x3 0.83168 0.45102 0.037087 -1.2951
et comme tableau de résultats d’estimation:
Model 1:
OLS, using observations 1-75
Dependent variable: y
coefficient std. error t-ratio p-value
const 118.914 6.35164 18.72 2.21e-029 ***
x2 -7.90785 1.09599 -7.215 4.42e-010 ***
x3 1.86258 0.683195 2.726 0.0080 ***
Mean dependent var 77.37467 S.D. dependent var 6.488537
Sum squared resid 1718.943 S.E. of regression 4.886124
R-squared 0.448258 Adjusted R-squared 0.432932
F(2, 72) 29.24786 P-value(F) 5.04e-10
Log-likelihood -223.8695 Akaike criterion 453.7390
Schwarz criterion 460.6915 Hannan-Quinn 456.5151
L’interprétation des coefficients estimés est la suivante:
•ˆβ1=l’intercept(ordonnéeàl’origine): ilreprésenteicileni veaumoyen théorique
desventespourunprixetunmontantdedépensespublicitair esnulles. Ceniveau
théorique est estimé à 118914$ (attention aux unités de mesure !). Ce montant
n’a pas d’interprétation économique.
•ˆβ2=l’effet marginal de xi2(xi3étant maintenu constant): il représente ici
la recette marginale obtenue d’un accroissement unitaire d u prix. Dans cet
exemple, il est estimé qu’une augmentation du prix de 1$ diminue les recettes
mensuelles de vente moyenne de 7907,85$ (attention aux unités de mesure !).
•ˆβ3=l’effetmarginalde xi3(xi2étantmaintenuconstant): ilreprésenteicilare-
cette marginale obtenue d’un accroissement unitaire des dé penses publicitaires.
Dans cet exemple, il est estimé qu’une augmentation des dépe nses publicitaires
de1000$ accroît les recettes mensuelles de vente moyenne de 1862,58$ (atten-
tion aux unités de mesure !).
115
Surbasedutableaudesrésultatsd’estimation,sionnote68quepour(n−k)=72
etα=0,05, on atn−k;1−α
2=t72;0,975=1,993ettn−k;1−α=t72;0,95=1,666, on peut:
1-calculer un intervalle de confiance à 95% pour β2:
ˆβ2±tn−k;1−α
2s.ˆe.(ˆβ2) =−7,908±1,993×1,096
= [−10,092;−5,724]
2-calculer un intervalle de confiance à 95%pourβ3:
ˆβ3±tn−k;1−α
2s.ˆe.(ˆβ3) = 1,863±1,993×0,683
= [0,502;3,224]
3-voir que la statistique de test ˆtodut-test de H 0:β2=0contre H1:β2=0est
égale à -7,215, et que H 0peut être rejetée au seuil minimum de4,42e-010 (=
P-valeur du test). On peut donc rejeter l’hypothèse nulle que E(yi|xi2,xi3)=
β1+β3xi3, càd. que E(yi|xi2,xi3)ne dépend pas de xi2.
4-voir que la statistique de test ˆtodut-test de H 0:β3=0contre H1:β3=0est
égaleà2,726,etqueH 0peutêtrerejetéeau seuil minimum de0,008(=P-valeur
du test). On peut donc rejeter l’hypothèse nulle que E(yi|xi2,xi3)=β1+β2xi2,
càd. queE(yi|xi2,xi3)ne dépend pas de xi3.
5-effectuer un test de H 0:β2≥0contre H1:β2<0. On aˆto=-7,215, et la
P-valeurdutestestégaleà4,42e-010
2=2,21e-010,desorteH 0peutêtrerejetéeau
seuil minimum de2,21e-010. On peut donc affirmer que ˆβ2est statistiquement
significativement inférieur à 0, autrement dit que le demand e est élastique.
6-effectuer un test de H 0:β3≤0contre H 1:β3>0. On aˆto= 2,726, et
laP-valeur du test est égale à0,008
2= 0,004, de sorte H 0peut être rejetée
auseuil minimum de0,004. On peut donc affirmer que ˆβ3est statistiquement
significativementsupérieurà0,autrementditquelesdépen sespublicitairessont
efficaces (elles accroissent les ventes).
7-effectuer un test de H 0:β3≤1contre H1:β3>1. On obtient:
ˆto=1,863−1
0,683=1,264
On ne peut pas rejeter H 0au seuil de5%carˆto=1,264<tn−k;1−α=t72;0,95=
1,666. LaP-valeur du test69est en fait égale à 0,105, de sorte H 0ne peut être
rejetée qu’au seuil minimum de0,105. Sauf à prendre un risque de première
espèce relativement élevé (supérieur à 0,105), on ne peut donc pas affirmer que
ˆβ3est statistiquement significativement supérieur à 1, autre ment dit que les
dépenses publicitaires sont rentables (elles accroissent les recettes d’un montant
au moins égal à leur coût). Si le paramètre estimé ˆβ3(=1,863) suggèrent bien
qu’elles sont rentables, il apparaît que sa précision d’est imation est trop faible
pour pouvoir conclure avec confiance que c’est bien le cas.
68Pour rappel, les quantiles de la loi de Student peuvent être o btenus en utilisant les ‘Statistical tables’
de GRETL.
69Pour rappel, la P-valeur peut être calculée en utilisant le ‘p-value finder’ d e GRETL.
116
Toujours sur base du tableau des résultats d’estimation, on peut encore calculer
ˆs2et le prédicteur des recettes mensuelles de vente ˆy0=ˆβ1+ˆβ2×02+ˆβ3x03pour un
prix de5,5$, soitx02=5,5, et un montant de dépenses publicitaires de 1800$, soit
x03=1,8(ces valeurs sont proches du point moyen de l’échantillon, c f. le tableau
des statistiques descriptives) :
ˆs2=1718,94
(75−3)=23,874
ˆyi= 118,91−7,91×5,5+1,86×1,8=78,753
Toujours en utilisant GRETL, on obtient pour ˆV(ˆβ):
Covariance matrix of regression coefficients:
const x2 x3
40.3433 -6.79506 -0.748421 const
1.2012 -0.0197422 x2
0.466756 x3
Sur base de ce résultat complémentaire, on peut calculer70, toujours pour x02=
5,5etx03=1,8:
1-un intervalle de prévision à 95% pour E(y0):
ˆy0±tn−k;1−α
2s.ˆe.(ˆp0) = ˆy0±tn−k;1−α
2(
X0ˆV(ˆβ)X′
0
= 78,753±1,993×0,601
= [77,555;79,951]
2-un intervalle de prévision à 95% pour y0:
ˆy0±tn−k;1−α
2s.ˆe.(ˆf0) = ˆy0±tn−k;1−α
2(
ˆs2+X0ˆV(ˆβ)X′
0
= 78,753±1,993×4,923
= [68,941;88,565]
On constate à nouveau, et pour les mêmes raisons que celles dé jà évoquées,
que l’intervalle de prévision pour y0est bien plus large que l’intervalle de prévision
pourE(y0): l’intervalle de prévision pour les recettes de vente moyen ne (sachant
x02= 5,5etx03= 1,8) donne l’intervalle 77555$ -79951$, soit un intervalle
assez précis, tandis que l’intervalle de prévision pour les recettes de ventes d’une
succursale prise au hasard (parmi celles pour lesquelles x02= 5,5etx03= 1,8)
donne l’intervalle 69941$ -88565$, soit un intervalle bien plus large.
70Pour rappel, notons que s.ˆe.(ˆp0)ets.ˆe.(ˆf0)peuvent aisément être calculés en utilisant les capacités d e
calcul matriciel de GRETL.
117
6.7. Le coefficient de détermination multiple: R2
En suivant l’approche de la Section 5.2, on peut aisément vér ifier (faites-le!)
que, comme dans le modèle de régression simple, de la décompo sition deyien une
partie expliquée ˆyiet une partie résiduelle ˆei:
yi=ˆyi+ˆei
⇔Y=ˆY+ˆe=Xˆβ+ˆe,
on peut obtenir la décomposition:
n
i=1(yi−¯y)2
!"#
SCT=n
i=1(ˆyi−ˆy)2
!"#
SCE+n
i=1ˆe2
i
!"#
SCR,
où SCT désigne la somme des carrés totaux (centrés), SCE la so mme des carrés
expliqués (centrés), et SCR la somme des carrés des résidus, qu’on peut encore
écrire sous la forme de l’équation d’analyse de la variance:
Vare(yi) !"#
Variance totale=Vare(ˆyi) !"#
Variance expliquée+Vare(ˆei) !"#
Variance résiduelle
oùVare(.)désigne la variance empirique. On se rappellera que cette dé composition
n’est pas valable si le modèle n’inclut pas une constante (un intercept).
On peut dès lors pareillement définir un coefficient de détermination multiple ,
toujours noté R2:
R2=SCE
SCT=1−SCR
SCT=Vare(ˆyi)
Vare(yi)
qui mesure la part de la variance desyiexpliquée par la régression, ou plus précisé-
ment, la part de la variance des yiqui peut être linéairement associée à la variation
des variables ( xi2,…,xik). Par construction, sauf si le modèle n’inclut pas une cons-
tante, on a toujours:
0≤R2≤1
avec: -R2=1si et seulement si SCR =0.
-R2=0si et seulement si SCE =0, soit si et seulement si SCT =SCR.
Plusieurs points méritent encore d’être épinglés:
1-On rappellera que le R2est unemesure descriptive (rien de plus), et est souvent
interprété comme une mesure globale (mais imparfaite, cf. S ection 5.2) de la
‘capacité prédictive’ du modèle.
2-On peut encore montrer que le R2est toujours égal au carré du coefficient de
corrélation empirique ρe(yi,ˆyi)entreyietˆyi:
R2=(ρe(yi,ˆyi))2
En d’autres termes, le R2reflète toujours le degré de corrélation entre yiet son
118
prédicteurˆyi.
3-LeR2augmentedefaçonautomatiquelorsqu’onaugmentelenombre devariables
explicativesdansunerégressionmultiple. Pourcontourne rceproblème,ondéfini
parfois un R2ajusté, noté¯R2, comme71:
¯R2=1−SCR
(n−k)
SCT
(n−1)
Le¯R2est parfois utilisé pour sélectionner, sur base de sa ‘capac ité prédictive’,
parmi des régressions incluant différents ensembles de vari ables explicatives, le
modèle qui présente le ¯R2le plus élevé. Ils’agit d’unepratique assez peu recom-
mandable.
4-Il existe des décompositions du R2visant à attribuer aux différentes variables
explicatives la part de la variance expliquée par la régress ion. On parle alors de
R2partiels. Commele R2,cesmesuressontpurementdescriptivesetimparfaites.
6.8. Unités de mesure
Comme dans le cas du modèle de régression simple, les paramèt res et les statis-
tiques calculées dans le cadre du modèle de régression linéa ire multiple ne sont pas
sans unités de mesure: ils dépendent des unités de mesure des observations.
Il est intuitif et pas très difficile de vérifier que les modifica tions d’unités de
mesuredesvariablesontlemêmeeffetdanslecadredumodèled erégressionlinéaire
multiple que dans le cadre du modèle de régression linéaire s imple. Ainsi:
1-Une modification des unités de mesure de yiou l’ajout d’une constante à yia
les mêmes effets que dans le modèle simple.
2-Une modification des unités de mesure ou l’ajout d’une cons tante à une des
variables explicatives xija les mêmes effets que dans le modèle simple. Il en
est de même d’une modification simultanée des unités de mesur es de plusieurs
variablesexplicatives(simpleadditiondeseffets,pasd’i nteractions). Danslecas
de l’ajout simultané de constantes à plusieurs variables ex plicatives, les effets
‘s’accumulent’ sur l’intercept du modèle.
6.9. Forme fonctionnelle
On a vu à la Section 5.4, dans le cadre du modèle de régression l inéaire simple,
que l’on pouvait, en transformant de façon adéquate yet/oux, modéliser des re-
lations non-linéaires entre les variables xety, tout en gardant un modèle linéaire
dans les paramètres .
71Il est reporté par GRETL sous la rubrique ‘Adjusted R-square d’.
119
Il va de soi que cette possibilité est également d’applicati on dans le cadre du
modèle de régression multiple.
En pratique, les modèles de ce type les plus couramment utili sés sont :
1-Le modèle log-log:
lnyi=β1+β2lnxi2+…+βklnxik+ei,(xij>0, yi>0)
On notera qu’il ne peut être utilisé que si tous les xijet tous les yisont stricte-
mentpositifs. Unexempleclassiquedesonutilisationestd onnéparl’estimation
d’une fonction de production Cobb-Douglas:
y=Akαlβ
⇔lny=lnA+αlnk+βlnl,
oùydésigne la valeur ajouté de la firme, kson stock de capital et lson nombre
de travailleurs.
2-Le modèle log-lin:
lnyi=β1+β2xi2+…+βkxik+ei,(yi>0)
On notera qu’il ne peut être utilisé que si tous les yisont strictement positifs.
Un exemple classique de son utilisation est donné par l’esti mation d’une fonc-
tion de salaire (log du salaire en fonction du niveau d’étude et d’expérience
professionnelle).
3-Le modèle lin-log:
yi=β1+β2lnxi2+…+βklnxik+ei,(xij>0)
On notera qu’il ne peut être utilisé que si tous les xijsont strictement positifs.
Les variantes de ces modèles, où les variables explicatives sont pour partie sous
formelogarithmiqueetpourpartienon-transformées, sont égalementtrèscourantes.
Bien entendu, l’interprétation des paramètres de ces différ ents modèles (en par-
ticulier en termes d’élasticité, de semi-élasticité, ou en core de dérivée) est semblable
à celle développée à la Section 5.4.
Onnoteraencoreque, commedéveloppéàlaSection5.4.4pour lecasdumodèle
régression simple, les modèles log-log et log-lin correspo ndent, pour yilui-même, à
des modèles non seulement non-linéaires , mais aussi hétéroscédastiques . De même,
on notera que pour ces modèles, du prédicteur ponctuel -lny0et de l’intervalle de
prévision pour lny0obtenus de la façon habituelle, on peut déduire, en prenant
simplement l’exponentielle du prédicteur ponctuel et des b ornes de l’intervalle de
prévision pour lny0,un prédicteur ponctuel et un intervalle de prévision pour y0
lui-même.
120
6.9.1. Régression polynomiale
Transformer la variable dépendante et/ou les variables exp licatives du modèle
de régression standard n’est pas le seul moyen de modifier la f orme fonctionnelle du
modèle, tout en gardant un modèle linéaire dans les paramètr es. On peut encore le
faireenajoutantdespuissanceset/oudesproduitscroisés desvariablesexplicatives.
Revenons un instant au cas du modèle de régression linéaire s imple standard:
yi=β1+β2xi+ei
On sait qu’on peut modéliser une relation non-linéaire entr exetyen trans-
formantxiet/ouyi. Alternativement, on peut utiliser un modèle de régression
polynomiale du type:
yi=β1+β2xi+β3×2
i+β4×3
i+…+ei
oùx2
i,x3
i,… sont traités comme des variables explicatives addition nelles. Pour cette
forme fonctionnelle, on a:
dE(yi|xi)
dxi=β2+2β3xi+3β4×2
i+…,
autrement dit, l’effet de xisuryin’est pas constant, mais lui-même une fonction de
xi.
Pourmodéliserunefonctiondecoût(minimum)correspondan tàdesrendements
non-proportionnels, on peut par exemple utiliser le modèle de régression polyno-
miale:
Ci=β1+β2qi+β3q2
i+β4q3
i+ei,
oùCidésigne le coût total de production, et qile volume de production. Sur base
de ce modèle, pour le coût marginal, on a:
dE(Ci|qi)
dqi=β2+2β3qi+3β4q2
i
A priori, on s’attend à obtenir β2>0,β3<0etβ4>0, autrement dit, un coût
marginal d’abord décroissant, puis croissant. Graphiquem ent:
121
CM :coût moyen
q 0C
q 0Cm :coût marginal Cm
CM
Graphique 36: Fonction de coût avec rendements non-proport ionnels
De la même façon, outre la possibilité de transformer la vari able dépendante
et/ou les variables explicatives, la forme fonctionnelle d ’un modèle de régression
linéaire multiple standard tel que:
yi=β1+β2xi2+β3xi3+ei
peut être modifiée en considérant le modèle régression multiple polynomiale (ici
quadratique):
yi=β1+β2xi2+β3xi3+β4×2
i2+β5×2
i3+β6(xi2xi3)+ei
où, de même, x2
i2,x2
i3et(xi2xi3)sont traités comme des variables explicatives addi-
tionnelles. Pour cette forme fonctionnelle, on a:
∂E(yi|xi2,xi3)
∂xi2=β2+2β4xi2+β6xi3,i.e., une fonction (ici linéaire)
dexi2etxi3
∂E(yi|xi2,xi3)
∂xi3=β3+2β5xi3+β6xi2,i.e., une fonction (ici linéaire)
dexi2etxi3
∂2E(yi|xi2,xi3)
∂x2
i2= 2β4, i.e., une constante
∂2E(yi|xi2,xi3)
∂x2
i3= 2β5, i.e., une constante
∂2E(yi|xi2,xi3)
∂xi2∂xi3=∂2E(yi|xi2,xi3)
∂xi3∂xi2=β6,i.e., existence d’une interaction
entrexi2etxi3
Parexemple,dansunefonctiondesalaire,onpeuts’attendr eàcequenonseule-
ment le niveau d’éducation ( =Educi) et d’expérience professionnelle ( =Expei) in-
fluence le salaire ( =Sali) moyen de façon non-linéaire, mais aussi à ce que ces deux
facteursinteragissent(l’effetdel’éducationsurlesalai redépenddel’expériencepro-
fessionnelle, et de même, l’effet de l’expérience professio nnelle sur le salaire dépend
de l’éducation). Pour capturer ces caractéristiques, on pe ut considérer le modèle:
Sali=β1+β2Educi+β3Expei+β4Educ2
i+β5Expe2
i+β6(EduciExpei)+ei
122
On peut évidemment aussi combiner régression polynomiale e t transformations
de variables. Ainsi, un modèle couramment utilisé, par exem ple pour modéliser une
fonction de production plus générale que la fonction Cobb-D ouglas, est le modèle
log-log polynomial (ici quadratique), aussi appelé modèle ‘translog’:
lnyi=β1+β2lnxi2+β3lnxi3+β4(lnxi2)2+β5(lnxi3)2+β6(lnxi2lnxi3)+ei
Un autre modèle couramment utilisé, par exemple pour modéli ser une fonction de
salaire, est le modèle log-lin polynomial (ici quadratique ):
lnyi=β1+β2xi2+β3xi3+β4×2
i2+β5×2
i3+β6(xi2xi3)+ei
Les propriétés de ces formes fonctionnelles peuvent être an alysées de la même
façon que ci-dessus. A ce propos, on notera que, dans une régr ession polynomiale,
pour facilité l’interprétation des paramètres, il est util e de centrer (par exemple
autour de leur moyenne) les variables explicatives du modèl e. Ainsi, dans le cas du
modèle translog, si les variables explicatives sont centré es enx∗
i2etx∗
i3, la partie
systématique du modèle s’écrit:
lnyi=β1+β2(lnxi2−lnx∗
i2)+β3(lnxi3−lnx∗
i3)+β4(lnxi2−lnx∗
i2)2
+β5(lnxi3−lnx∗
i3)2+β6[(lnxi2−lnx∗
i2)(lnxi3−lnx∗
i3)]
de sorte qu’on a:
∂lnyi
∂lnxi2=β2+2β4(lnxi2−lnx∗
i2)+β6(lnxi3−lnx∗
i3),i.e., une fonction
delnxi2etlnxi3
∂lnyi
∂lnxi3=β3+2β5(lnxi3−lnx∗
i3)+β6(lnxi2−lnx∗
i2),i.e., une fonction
delnxi2etlnxi3
etdoncque β2etβ3s’interprètentdirectementcommel’élasticité72deyiparrapport
à respectivement xi2etxi3, pourxi2=x∗
i2etxi3=x∗
i3. Si les variables explicatives
n’étaient pas centrées, β2etβ3s’interpréteraient de la même façon, mais pour
xi2= 1etxi3=1(⇔lnxi2=lnxi3=0), ce qui sauf exception correspond à un
point(xi2,xi3)sans intérêt.
72qui n’est pas constante, mais varient en fonction de xi2etxi3.
123
Chapitre7
Test de Fisher, colinéarité et problèmes
de spécification
7.1. Le test de Fisher ( F-test)
Dans le chapitre précédent, on a vu comment tester séparémen t les paramètres
βj(j=1,…,k), par exemple comment tester H 0:β2=0contre H1:β2=0dans
le modèle de régression:
yi=β1+β2xi2+β3xi3+ei,
ce qui revient à tester:
H′
0:E(yi|xi2,xi3)=β1+β3xi3, i.e.,E(yi|xi2,xi3)ne dépend
pas dexi2et est linéaire en xi3
contre H′
1:E(yi|xi2,xi3)=β1+β2xi2+β3xi3,i.e.,E(yi|xi2,xi3)est une
fonction linéaire de xi2etxi3
On peut souhaiter tester des hypothèses plus élaborées. Par exemple, dans le
modèle de fonction de production Cobb-Douglas:
lnyi=β1+β2lnxi2+β3lnxi3+ei,
oùyidésigne la valeur ajouté de la firme, xi2son stock de capital et xi3son nombre
de travailleurs, on peut souhaiter tester non seulement:
(1) H0:β2=0contre H1:β2=0et H0:β3=0contre H1:β3=0,
autrement dit la significativité de ˆβ2et deˆβ3, mais encore:
124
(2) H0:β2=β3=0contre H1:β2=0et/ouβ3=0, ce qui revient à tester:
H′
0:E(lnyi|xi2,xi3)=β1, i.e.,E(lnyi|xi2,xi3)ne dépend
ni dexi2, ni dexi3
contre H′
1:E(lnyi|xi2,xi3)=β1+β2lnxi2
+β3lnxi3,i.e.,E(lnyi|xi2,xi3)est une fonct.
linéaire delnxi2etlnxi3
càd. la significativité de la régression dans son ensemble.
(3) H0:β2+β3=1contre H1:β2+β3=1, ce qui revient à tester:
H′
0:E(lnyi|xi2,xi3)=β1+β2lnxi2+(1−β2)lnxi3
contre H′
1:E(lnyi|xi2,xi3)=β1+β2lnxi2+β3lnxi3
càd. que les rendements d’échelle sont égaux à 1.
(4) H0:β2−β3=0contre H1:β2−β3=0, ce qui revient à tester:
H′
0:E(lnyi|xi2,xi3)=β1+β2(lnxi2+lnxi3)
contre H′
1:E(lnyi|xi2,xi3)=β1+β2lnxi2+β3lnxi3
càd. que les élasticités partielles de yipar rapport à xi2etxi3sont égales.
Ces différents tests sont tous des cas particuliers du test général :
H0:R0β=r0
contre H1:R0β=r0,i.e., au moins 1 des q
restrictions est fausse
dans le modèle de régression:
Y=Xβ+e,
oùR0est une matrice q×kde constantes ( q≤k;q=le nbr. de restrictions et k=
le nbr. de paramètres) et r0un vecteur q×1de constantes.
Dans l’exemple du modèle de fonction de production Cobb-Dou glas décrit ci-
dessus,k=3et on obtient les tests (1), (2), (3) et (4) en prenant:
•pour les tests (1): respectivement R0=
0 1 0
etr0= 0, etR0=
0 0 1
etr0=0.
•pour le test (2): R0=
0 1 0
0 0 1
etr0=
0
0
.
•pour le test (3): R0=0 1 1
etr0=1.
•pour le test (4): R0=0 1−1
etr0=0.
125
7.1.1. La procédure de test
7.1.1.1. Cas où σ2est connu
Pour simplifier, on commence par considérer le cas où σ2est connu.
On sait que, sous les hypothèses A1 à A6, on a :
ˆβ∼N(β,V(ˆβ)),
oùV(ˆβ)=σ2(X′X)−1, de sorte que:
(R0ˆβ−r0)∼N(R0β−r0,σ2R0(X′X)−1R′
0)
Eneffet,(R0ˆβ−r0)estunecombinaisonlinéairede ˆβ. Ilestdonclui-mêmedistribué
selon une loi normale et:
E(R0ˆβ−r0) =R0E(ˆβ)−r0
=R0β−r0
et
V(R0ˆβ−r0) =V(R0ˆβ)=R0V(ˆβ)R′
0 (7.1)
=σ2R0(X′X)−1R′
0
Ainsi, lorsque la vraie valeur de βest telle que R0β=r0, càd. que H0est vraie,
de la propriété (2.18) de la loi normale multivariée73, on a:
ˆχ2
0= (R0ˆβ−r0)′$
R0V(ˆβ)R′
0%−1
(R0ˆβ−r0)
=1
σ2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)∼χ2(q),(7.2)
oùχ2(q)désigne la loi du khi-carré74àqdegrés de liberté, tandis que si la vraie
valeur deβest telle que R0β=r0, càd. que H0est fausse , on peut montrer qu’on
a:
ˆχ2
0= (R0ˆβ−r0)′$
R0V(ˆβ)R′
0%−1
(R0ˆβ−r0)
=1
σ2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)∼χ2(δ∗,q),(7.3)
oùχ2(δ∗,q)désigne la loi du khi-carré non-centrale75àqdegrés de liberté et le
paramètre de non-centralité δ∗est égal àδ∗=(R0β−r0)′$
R0V(ˆβ)R′
0%−1
(R0β−r0).
73Cf. Section 2.3.1.
74Cf. l’annexe B de Hill, Griffiths et Lim (2008).
75Par définition, si X∼N(m,Σ), oùXest un vecteur de dimension q×1, alors:X′Σ−1X∼χ2(δ,q),
oùδ=m′Σ−1m.
126
Autrement dit, si H 0est vraie (i.e., R0β=r0),ˆχ2
0suit une loi du khi-carré
standard, tandis que si H 0est fausse (i.e., R0β=r0), le mêmeˆχ2
0suit une loi
du khi-carré non-centrale, dont le paramètre de non-centra litéδ∗est d’autant plus
grand que H 0est fausse. En effet, δ∗= (R0β−r0)′$
R0V(ˆβ)R′
0%−1
(R0β−r0)est
une forme quadratique dont la matrice$
R0V(ˆβ)R′
0%−1
est définie positive76. Cela
implique que plus R0β−r0est différent de zéro (i.e., R0β=r0), plusδ∗est grand.
Graphiquement:
02 0f02Distribution de 02
qDistribution de 02
lorsque R0r0Distribution de 02
lorsque R0r0
q
Graphique 37: Distribution de ˆχ2
0
Etant donné ses propriétés, on peut utiliser ˆχ2
0commestatistique de test pour
tester H0:R0β=r0contre H1:R0β=r0(i.e., au moins 1 des qcontraintes est
fausse).
Un test au seuil αde H0:R0β=r0contre H1:R0β=r0est donné par la règle
de décision: .- Rejet de H0siˆχ2
0>χ2
q;1−α
– Non-rejet de H0sinon
oùlavaleur critique χ2
q;1−αestlequantiled’ordre 1−αde laloiχ2(q), càd. lavaleur
χ2
q;1−αtelle que IP(v≤χ2
q;1−α)=1−α, oùv∼χ2(q). Graphiquement:
76De (7.1), on a V(R0ˆβ)=R0V(ˆβ)R′
0. Autrement dit, R0V(ˆβ)R′
0est la matrice de variance-covariance
deR0ˆβ, et est donc une matrice définie positive (sauf dans le cas pat hologique où R0ouXn’est pas
de rang plein). Comme l’inverse d’une matrice définie positi ve est elle-même toujours définie positive,
R0V(ˆβ)R′
0−1
est donc aussi une matrice définie positive.
127
0fv
q;12v2q
v
Graphique 38: Quantile d’ordre 1−αde la loiχ2(q)
Parconstruction, leseuil αdutestestégalau risque de première espèce dutest:
IP(RH0|H0est vraie)=α
Graphiquement:
0
q;121ère espèce Risque de f02Distribution de 02
02Distribution de 02lorsque
R0r0 H0vraie
Non-rejet de H 0Rejet de H 0
Graphique 39: Risque de première espèce du χ2-test
Soitˆχ2∗
0la valeur de la statistique de test ˆχ2
0obtenue pour un échantillon parti-
culier. Pour cet échantillon particulier , laP-valeur du test est donnée par:
pˆχ2∗
0=IP(v >ˆχ2∗
0),oùv∼χ2(q)
128
Graphiquement:
p
02
0
02fv
vlorsque R0r0
Une réalisation particulière
de 02: 02
q;12
test au seuil Valeur critique d'un du test Pvaleur v2q
= Distribution de 02
Graphique 40: P-valeur du χ2-test
Comme toujours, la P-valeurpˆχ2∗
0du test est la valeur minimale du seuilαdu
test pour laquelle on peut, pour un échantillon particulier , rejeter H 0.
Pourαfixé, lapuissance du test , càd.IP(RH0|H0est fausse), serad’autantplus
grandequeleparamètredenon-centralité δ∗=(R0β−r0)′$
R0V(ˆβ)R′
0%−1
(R0β−r0)
est grand, càd. que:
1-H0est fausse (i.e., |R0β−r0|est grand).
2-laprécisiond’estimationde βestgrande(i.e., V(ˆβ)estpetite,ausensmatriciel).
Graphiquement:
02 0f02Distribution de 02
qDistribution de 02
lorsque R0r0Distribution de 02
lorsque R0r0
qdu test Puissance
q;12
Non-rejet de H 0Rejet de H 0
Graphique 41: Puissance du χ2-test
Comme pour tout test, plus on peut rejeter H 0pourαpetit, plus on peut être
129
confiantdanslefaitqueH 0esteffectivementfausse. Cependant,ilfautsegarder,en
particulier lorsque la précision d’estimation n’est pas tr ès grande, d’interpréter un
non-rejet de H 0comme une preuve convaincante que H 0est vraie (car au contraire
du risque de première espèce, la puissance du test n’est pas s ous contrôle). On
gardera aussi à l’esprit que lorsque la précision d’estimat ion est grande, un rejet de
H0, même très marqué, ne signifie pas nécessairement qu’on en es t loin.
7.1.1.2. Cas où σ2est inconnu
En pratique, la variance du terme d’erreur σ2est inconnue. Comme d’habitude,
on peut cependant la remplacer par son estimateur convergen t et non biaisé ˆs2.
On a vu à la section précédente que, sous les hypothèses A1 à A6 , lorsque la
vraie valeur de βest telle que R0β=r0, càd. que H 0est vraie, on a:
ˆχ2
0=1
σ2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)∼χ2(q)
et on sait par ailleurs que, toujours sous les hypothèses A1 à A6, on a aussi(cf.
Section 6.4):
ˆv=(n−k)ˆs2
σ2∼χ2(n−k)
On peut encore montrer que ˆχ2
0etˆvsont indépendamment distribuées, de sorte
que, de la définition de la loi de Fisher77, sous les hypothèses A1 à A6, lorsque la
vraie valeur de βest telle que R0β=r0, càd. que H 0est vraie, on a:
ˆF0=ˆχ2
0
q
ˆv
n−k=1
qσ2(R0ˆβ−r0)′[R0(X′X)−1R′
0]−1(R0ˆβ−r0)
ˆs2
σ2
=1
qˆs2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)
=1
q(R0ˆβ−r0)′$
R0ˆV(ˆβ)R′
0%−1
(R0ˆβ−r0)∼F(q,n−k),
tandisquelorsquelavraievaleurde βesttelleque R0β=r0, càd. queH 0estfausse,
on peut montrer qu’on a:
77Siv1∼χ2(m1),v2∼χ2(m2)et quev1etv2sont indépendamment distribués, alors: F=v1
m1v2
m2∼
F(m1,m2). Cf. l’annexe B de Hill, Griffiths et Lim (2008).
130
ˆF0=1
qˆs2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)
=1
q(R0ˆβ−r0)′$
R0ˆV(ˆβ)R′
0%−1
(R0ˆβ−r0)∼F(δ∗,q,n−k),
oùF(δ∗,q,n−k)désigne la loi de Fisher non-centrale78àqet(n−k)degrés de
liberté,etle paramètre de non-centralité δ∗estégalàδ∗=(R0β−r0)′$
R0V(ˆβ)R′
0%−1
(R0β−r0). Graphiquement:
F00fF0Distribution de F0
1qDistribution de F0
lorsque R0r0Distribution de F0
lorsque R0r0
1
Graphique 42: Distribution de ˆF0
On constate qu’à la transposition loi du khi-carré /loi de Fisher près, le com-
portement de la statistique ˆF0– qui, notez-le, est égale à la statistique ˆχ2
0divisée
parqet oùσ2est remplacé par ˆs2– est en tout point semblable à celui de le
statistiqueˆχ2
0.
Ainsi, de façon semblable au cas où σ2est connu, un test au seuil αde H0:
R0β=r0contre H1:R0β=r0est donné par la règle de décision:
/
– Rejet de H0siˆF0>Fq,n−k;1−α
– Non-rejet de H0sinon
où lavaleur critique Fq,n−k;1−αest le quantile d’ordre 1−αde la loi de Fisher
F(q,n−k), càd. la valeur Fq,n−k;1−αtelle que IP(F≤Fq,n−k;1−α) = 1−α, où
F∼F(q,n−k). Graphiquement:
78Par définition, Si v1∼χ2(δ,m1),v2∼χ2(m2)et quev1etv2sont indépendamment distribués, alors:
F=v1
m1v2
m2∼F(δ,m1,m2).
131
0fF
Fq,nk ;1FFq,nk
F
Graphique 43: Quantile d’ordre 1−αde la loiF(q,n−k)
LaP-valeurde ce test, pour un échantillon particulier , est donnée par:
pˆF∗
0=IP(F >ˆF∗
0),oùF∼F(q,n−k)
Graphiquement:
pF0
0F0fF
Florsque R0r0
Une réalisation particulière
de F0: F0
Fq,nk ;1
test au seuil Valeur critique d'un du test Pvaleur FFq,nk
= Distribution de F0
Graphique 44: P-valeur du F-test
Les interprétations en termes de risque de première espèce, de puissance, ainsi
que l’interprétation de la P-valeur de ce test sont identiques à celles développées
pour le cas où σ2est connu.
Pour conclure, on notera que la statistique de test:
ˆF0=1
q(R0ˆβ−r0)′$
R0ˆV(ˆβ)R′
0%−1
(R0ˆβ−r0) (7.4)
peut être réécrite sous une forme différente. On peut en effet m ontrer que:
ˆF0=(ˆe′
cˆec−ˆe′ˆe)/q
ˆe′ˆe/(n−k)=(SCRc−SCR)/q
SCR/(n−k)(7.5)
132
où: SCR=la somme des carrés des résidus de la régression
Y=Xβ+e.
SCRc=la somme des carrés des résidus de la régression
Y=Xβ+e, oùβest estimé sous la contrainte R0β=r0
(moindres carrés contraints).
La somme des carrés des résidus contraints (= SCR c) est très facile à obtenir
lorsque la contrainte R0β=r0est de forme simple. Par exemple, pour le test de
H0:β2=β3=0contre H1:β2=0et/ouβ3=0dans la régression:
yi=β1+β2xi2+β3xi3+β4xi4+ei,
SCRcest simplement donné par la somme des carrés des résidus de la régression
contrainte:
yi=β1+β4xi4+ei,
càd. de la régression initiale d’où on a retiré les variables xi2etxi3(puisque sous la
contrainte, β2=β3=0).
La forme (7.5) du F-test montre que ce test peut être regardé comme un test
qui examine si l’imposition des contraintes impliquées par H0:R0β=r0accroît
significativement ou non (si elle l’accroît trop fortement, on rejette H 0) la somme
des carrés des résidus d’une régression.
La plupart des logiciels économétriques (GRETL en particul ier) permettent de
calculer de façon très simple le F-test sous sa forme générale (7.4). Il suffit de
spécifierlescontraintes R0β=r0,etlelogicielreportealorslavaleurdelastatistique
ˆF0et laP-valeur du test. La forme (7.5) du F-test n’est en pratique vraiment utile
que lorqu’on ne dispose pas d’un logiciel qui permet de le cal culer de façon simple
sous sa forme générale (7.4).
7.1.2.F-test et non-normalité
Nous avons obtenu le F-test en supposant que, outre les hypothèses A1 à A5,
l’hypothèse optionnelle de normalité A6 du modèle était sat isfaite. Qu’en est-il si,
commeonpeutcouramments’yattendreenpratique, cetteder nièrehypothèsen’est
pas remplie?
Comme nous allons le voir, lorsqu’on renonce à l’hypothèse A 6 de normalité, le
F-test reste valable, mais seulement asymptotiquement, en g rand échantillon.
On sait que, sous les hypothèses A1 à A5, sans faire appel à l’h ypothèse A6 de
normalité, on a asymptotiquement (lorsquen→∞):
$
V(ˆβ)%−1
2
ˆβ−β
d−→N(0,I),oùV(ˆβ)=σ2(X′X)−1,
soit, sous forme d’approximation utilisable en échantillo n fini pour nsuffisamment
133
grand:
ˆβ≈N(β,σ2(X′X)−1),
de sorte qu’on a encore, sous forme d’approximation:
(R0ˆβ−r0)≈N(R0β−r0,σ2R0(X′X)−1R′
0)
Ainsi, lorsque la vraie valeur de βest telle que R0β=r0, càd. que H0est vraie,
on a toujours, sous forme d’approximation:
ˆχ2
0= (R0ˆβ−r0)′$
R0V(ˆβ)R′
0%−1
(R0ˆβ−r0)
=1
σ2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)≈χ2(q),(7.6)
tandis que si la vraie valeur de βest telle que R0β=r0, càd. que H0est fausse , on
peut montrer qu’on a encore, sous forme d’approximation:
ˆχ2
0= (R0ˆβ−r0)′$
R0V(ˆβ)R′
0%−1
(R0ˆβ−r0)
=1
σ2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)≈χ2(δ∗,q),(7.7)
oùδ∗=(R0β−r0)′$
R0V(ˆβ)R′
0%−1
(R0β−r0).
Lesrésultats(7.6)et(7.7)sontdes versions asymptotiques (valablesuniquement
pourngrand) des résultats exacts de distribution d’échantillonnage (7.2) et (7.3)
sur lesquels nous nous sommes appuyés pour obtenir un χ2-test sous l’hypothèse A6
de normalité et dans le cas où σ2est connu.
Sous l’hypothèse A6 de normalité et pour le cas où σ2n’est pas connu, nous
avons vu que, pour l’essentiel, le remplacement de σ2par son estimateur convergent
et non biaisé ˆs2faisait passer de la statistique ˆχ2
0à la statistique ˆF0et de lois
khi-carrés à des lois de Fisher79.
Asymptotiquement, lorsque nest grand, on peut montrer que le remplacement
deσ2par son estimateur convergent et non biaisé ˆs2ne modifie pas les distributions
d’échantillonnageenjeu,desortequ’onaaussi,sousforme d’approximation,lorsque
H0est vraie (i.e., R0β=r0):
ˆχ2′
0= (R0ˆβ−r0)′$
R0ˆV(ˆβ)R′
0%−1
(R0ˆβ−r0)
=1
ˆs2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)≈χ2(q),
79Pour rappel, la statistique ˆF0est égale à la statistique ˆχ2
0divisée par q, et oùσ2est remplacé par ˆs2.
134
et lorsque H 0est fausse (i.e., R0β=r0):
ˆχ2′
0= (R0ˆβ−r0)′$
R0ˆV(ˆβ)R′
0%−1
(R0ˆβ−r0)
=1
ˆs2(R0ˆβ−r0)′
R0(X′X)−1R′
0−1(R0ˆβ−r0)≈χ2(δ∗,q),
oùδ∗=(R0β−r0)′$
R0V(ˆβ)R′
0%−1
(R0β−r0).
Ainsi, leχ2-testobtenusousl’hypothèseA6denormalitéetdanslecaso ùσ2est
connu reste valable asymptotiquement , à titre approximatif pour ngrand, sous les
seules hypothèses A1 à A5 et avec σ2remplacé par ˆs2.Ceχ2-test est couramment
appelétest du khi-carré ou encore test de Wald .
LeF-test décrit à la section précédente, qui est exact en échantillon fini sous
l’hypothèse de normalité A6, est, pour ngrand,asymptotiquement équivalent à ce
χ2-test. En effet, on a d’une part:
ˆF0=ˆχ2′
0
q,
et d’autre part, lorsque n→∞:
Fq,n−k;1−α≃χ2
q;1−α
q⇔qFq,n−k;1−α≃χ2
q;1−α,
oùFq,n−k;1−αetχ2
q;1−αdésignent les quantiles d’ordre 1−αde respectivement la loi
F(q,n−k)et la loiχ2(q). Ce dernier résultat vient du fait que si F∼F(m1,m2),
lorsquem2→∞,onam1Fd−→χ2(m1), autrementdit, quesiunevariablealéatoire
FestdistribuéeselonuneloideFisher F(m1,m2),lorsquem2→∞,lavariablealéa-
toirem1Ftend en distribution vers la loi χ2(m1), soit sous forme d’approximation
pourngrand:m1F≈χ2(m1).
On en déduit que le F-test, qui est exact en échantillon fini sous l’hypothèse A6
de normalité, reste également valable asymptotiquement , à titre approximatif, pour
ngrand, sous les seules hypothèses A1 à A5.
En pratique, pour tester en grand échantillon H 0:R0β=r0contre H0:R0β=
r0sans faire appel à l’hypothèse A6 de normalité, on peut ainsi indifféremment
utiliserleχ2-test (basé surlastatistique ˆχ2′
0)ouleF-test. L’usageveutqu’on utilise
généralement le F-test, car il est non seulement valable, à titre approximati f, pour
ngrand et sans faire appel à l’hypothèse de normalité, mais au ssi exact (quel que
soitn, en particulier npetit)si l’hypothèse de normalité tient (ce qui n’est pas le
cas duχ2-test).
135
7.1.3. Cas particuliers du F-test
7.1.3.1. Le F-test de la significativité d’un paramètre
On considère le test de H 0:βj=0contre H1:βj=0dans la régression:
yi=β1+β2xi2+…+βkxik+ei,
càd. le test de la significativité de ˆβj.
On a vu que ce test pouvait être réalisé à l’aide d’un t-test (test de Student).
Il peut également être réalisé à l’aide d’un F-test, qui est totalement équivalent au
t-test.
Sous sa forme générale (7.4), la statistique de test ˆF0de H0:βj=0contre H1:
βj= 0est obtenue en prenant q= 1,r0= 0etR0=
0···1···0
, i.e.,
pourR0, un vecteur1×kavec un 1 en jièmeposition et des 0 partout ailleurs. Pour
ces valeurs, on a:
R0ˆβ=
0···1···0
ˆβ1…
ˆβj…
ˆβk
=ˆβj
et
R0ˆV(ˆβ)R′
0=
0···1···0
Vˆar(ˆβ1)···Cˆov(ˆβ1,ˆβk)
………
Cˆov(ˆβk,ˆβ1)···Vˆar(ˆβk)
0
…
1
…
0
=Vˆar(ˆβj)=ˆs2qjj,oùqjj=
(X′X)−1
jj,
de sorte que:
ˆF0=ˆβ2
j
Vˆar(ˆβj)=ˆβj
s.ˆe.(ˆβj)2
=ˆt2
o,oùs.ˆe.(ˆβj)=)
ˆs2qjj
On constate que la statistique ˆF0est tout simplement égale au carré de la sta-
tistiqueˆtosur laquelle est fondé le t-test. Sachant que si t∼t(ν), alorst2∼F(1,ν),
ce qui implique que F1,n−k;1−α=&
tn−k;1−α
2'2, oùF1,n−k;1−αest le quantile d’ordre
1−αde la loiF(1,n−k)ettn−k;1−α
2est le quantile d’ordre 1−α
2de la loit(n−k),
on voit que le t-test et leF-test de H 0:βj=0contre H1:βj=0sont totalement
équivalents.
136
On peut vérifier (faites-le! )que l’équivalence t-test/F-test tient également pour
le test de H 0:βj=βo
jcontre H 1:βj=βo
j, quelle que soit la valeur de βo
j. On
notera encore que le F-test n’est équivalent qu’au t-testbilatéral, pas à un t-test
unilatéral .
LeF-test de H 0:βj= 0contre H 1:βj= 0peut également être facilement
obtenu de la forme (7.5) de la statistique ˆF0. Dans ce cas, outre la somme des
carrés des résidus de la régression non-contrainte ( =SCR), on a besoin de la somme
des carrés des résidus de la régression contrainte ( =SCRc), qui est ici simplement
donnée par la somme des carrés des résidus de la régression:
yi=β1+…+βj−1xi(j−1)+βj+1xi(j+1)+…+βkxik+ei,
càd. de la régression initiale d’où on a retiré la variable xij(puisque sous la con-
trainte,βj=0). Dans le cas d’un test de H 0:βj=βo
jcontre H1:βj=βo
j, SCRc
serait donné par la somme des carrés des résidus de la régress ion:
(yi−βo
jxij)=β1+…+βj−1xi(j−1)+βj+1xi(j+1)+…+βkxik+ei,
càd. la régression initiale d’où on a retiré la variable xijet dont la variable dépen-
danteyiest remplacée par (yi−βo
jxij).
7.1.3.2. Le F-test d’une combinaison linéaire scalaire de paramètres
Onconsidèreàtitred’exempleletestdeH 0:β2+β3=1contreH1:β2+β3=1
dans la régression:
yi=β1+β2xi2+β3xi3+…+βkxik+ei
Sous sa forme générale (7.4), la statistique de test ˆF0de H0:β2+β3=1contre
H1:β2+β3=1estobtenueenprenant q=1,r0=1etR0=
0 1 1 0···0
,
oùR0est un vecteur 1×k. Pour ces valeurs, on a:
R0ˆβ=
0 1 1 0···0
ˆβ1…
…
ˆβk
=ˆβ2+ˆβ3
et
R0ˆV(ˆβ)R′
0=
0 1 1 0···0
Vˆar(ˆβ1)···Cˆov(ˆβ1,ˆβk)
………
Cˆov(ˆβk,ˆβ1)···Vˆar(ˆβk)
0
1
1
0
…
0
137
=Vˆar(ˆβ2)+2Cˆov(ˆβ2,ˆβ3)+Vˆar(ˆβ3)
=Vˆar(ˆβ2+ˆβ3)=Vˆar(R0ˆβ)
de sorte que:
ˆF0=
(ˆβ2+ˆβ3)−12
Vˆar(ˆβ2+ˆβ3)=
(ˆβ2+ˆβ3)−1
s.ˆe.(ˆβ2+ˆβ3)2
=ˆt2
o,
oùs.ˆe.(ˆβ2+ˆβ3)=(
Vˆar(ˆβ2+ˆβ3).
On constate que la statistique ˆF0apparaît à nouveau comme le carré de ce qui
ressemble fort àlastatistique d’un t-test qui testerait l’égalité à 1de la combinaison
linéaire scalaire R0β=β2+β3:ˆt0=R0β−1
s.ˆe.(R0ˆβ).
Ce résultat suggère qu’un test de l’égalité à une constante r0d’une combinaison
linéairescalaireR0βdeβ, càd. un test de H 0:R0β=r0contre H1:R0β=r0, où
R0est un vecteur 1×k(i.e., un vecteur ligne; donc une seule restriction), peut ê tre
réalisé au travers d’un t-test, et que ce t-test (bilatéral) est totalement équivalent
auF-test de cette même restriction sur les paramètres.
C’est bien le cas. En effet, sous les hypothèses A1 à A6, on sait qu’on a (cf.
Section 6.4):
ˆβ∼N(β,σ2(X′X)−1),
de sorte que, si R0est un vecteur 1×k, on a:
R0ˆβ∼N(R0β,σ2R0(X′X)−1R′
0)
⇔ˆz=R0ˆβ−R0β
s.e.(R0ˆβ)∼N(0,1),
oùs.e.(R0ˆβ)=(
Var(R0ˆβ)=)
σ2R0(X′X)−1R′
0=(
R0V(ˆβ)R′
0.
En particulier, lorsque R0β=r0, on a:
ˆzo=R0ˆβ−r0
s.e.(R0ˆβ)∼N(0,1),
tandis que lorsque R0β=r0, on a:
ˆzo=R0ˆβ−r0
s.e.(R0ˆβ)∼N
R0β−r0
s.e.(R0ˆβ),1
Par ailleurs, on sait que, sous les hypothèses A1 à A6, on a aus si (cf. Section
138
6.4):
ˆv=(n−k)ˆs2
σ2∼χ2(n−k),
et on peut encore montrer que ˆzetˆvsont indépendamment distribués, de sorte que,
de la définition de la loi de Student, on a:
ˆt=ˆz*
ˆv
n−k=R0ˆβ−R0β
s.ˆe.(R0ˆβ)∼t(n−k),
oùs.ˆe.(R0ˆβ)=(
Vˆar(R0ˆβ)=)
ˆs2R0(X′X)−1R′
0=(
R0ˆV(ˆβ)R′
0.
En particulier, lorsque R0β=r0, on a:
ˆto=R0ˆβ−r0
s.ˆe.(R0ˆβ)∼t(n−k),
tandis que lorsque R0β=r0, on peut montrer qu’on a:
ˆto=R0ˆβ−r0
s.ˆe.(R0ˆβ)∼t(δ∗,n−k),oùδ∗=R0β−r0
s.e.(R0ˆβ)
On voit qu’au remplacement de βjparR0β, deˆβjparR0ˆβet deβo
jparr0
près, les résultats ci-dessus sont identiques à ceux sur les quels nous nous sommes
appuyés à la Section 6.4 pour construire des t-tests (bilatéral et unilatéral) de βjet
un intervalle de confiance pour βj.
On en conclut que, lorsque R0est un vecteur 1×k(i.e., un vecteur ligne; donc
une seule restriction):
1-Un test de H 0:R0β=r0contre H1:R0β=r0peutêtreeffectué au travers d’un
t-testbilatéralstandard basé sur la statistique:
ˆto=R0ˆβ−r0
s.ˆe.(R0ˆβ),oùs.ˆe.(R0ˆβ)=)
ˆs2R0(X′X)−1R′
0=(
R0ˆV(ˆβ)R′
0,
et que pour la même raison que celle évoquée à la section précé dente (i.e., si
t∼t(ν), alorst2∼F(1,ν), ce qui implique que F1,n−k;1−α=&
tn−k;1−α
2'2), ce
test est totalement équivalent au F-test de la même restriction.
2-Des tests de H 0:R0β≥r0contre H1:R0β <r0et de H0:R0β≤r0contre H1:
R0β > r0peuvent pareillement être effectués au travers de t-testsunilatéraux
standards, toujours basé sur la même statistique ˆto=R0ˆβ−r0
s.ˆe.(R0ˆβ).
3-Un intervalle de confiance à (1−α)×100%pourR0βest de façon semblable
donné par (vérifiez-le!):
$
R0ˆβ−tn−k;1−α
2s.ˆe.(R0ˆβ);R0ˆβ+tn−k;1−α
2s.ˆe.(R0ˆβ)%
139
On peut aisément vérifier, en reproduisant un raisonnement s emblable à ceux
réalisés à plusieurs reprises (faites-le!), que les t-tests et l’intervalle de confiance ci-
dessus, qui sont exacts en échantillon fini sous l’hypothèse A6 de normalité, restent
valables asymptotiquement , à titre approximatif pour ngrand, sous les seules hy-
pothèses A1 à A5.
Enrevenantànotreexemplededépart,onnoteraquele F-testdeH 0:β2+β3=
1contre H1:β2+β3=1dans la régression:
yi=β1+β2xi2+β3xi3+…+βkxik+ei
peutégalementêtrefacilementobtenudelaforme(7.5)dela statistiqueˆF0. Dansce
cas, outre la somme des carrés des résidus de la régression no n-contrainte ( =SCR),
on aà nouveau besoin de la somme des carrés des résidus de la ré gression contrainte
(=SCRc), qui est ici simplement donnée par la somme des carrés des ré sidus de la
régression(en utilisant β2=1−β3):
(yi−xi2)=β1+β3(xi3−xi2)+…+βkxik+ei,
ou, de façon équivalente, de la régression (en utilisant β3=1−β2):
(yi−xi3)=β1+β2(xi2−xi3)+…+βkxik+ei
7.1.3.3. Le F-test de la significativité de la régression dans son ensembl e
On considère le test de H 0:β2=β3=…=βk=0contre H1:β2=0et/ou
β3=0et/ou … et/ou βk=0dans la régression:
yi=β1+β2xi2+…+βkxik+ei
càd. un test de la significativité de la régression dans son en semble.
Sous sa forme générale (7.4), la statistique de test ˆF0de ce test est obtenue en
prenantq=k−1,
R0=
0 1 0···0
0 0 1···0
……………
0 0 0···1
etr0=
0
…
…
0
oùR0est une matrice (k−1)×ketr0est un vecteur (k−1)×1. Pour ces valeurs,
on a:
R0ˆβ=
0 1 0···0
0 0 1···0
……………
0 0 0···1
ˆβ1…
…
ˆβk
=
ˆβ2…
ˆβk
140
et
R0ˆV(ˆβ)R′
0
=
0 1 0···0
0 0 1···0
……………
0 0 0···1
Vˆar(ˆβ1)···Cˆov(ˆβ1,ˆβk)
………
Cˆov(ˆβk,ˆβ1)···Vˆar(ˆβk)
0 0···0
1 0···0
0 1···0
…………
0 0···1
=
Vˆar(ˆβ2)···Cˆov(ˆβ2,ˆβk)
………
Cˆov(ˆβk,ˆβ2)···Vˆar(ˆβk)
de sorte que:
ˆF0=1
k−1ˆβ2···ˆβk
Vˆar(ˆβ2)···Cˆov(ˆβ2,ˆβk)
………
Cˆov(ˆβk,ˆβ2)···Vˆar(ˆβk)
−1
ˆβ2…
ˆβk
On peut aisément vérifier (faites-le!) que tout F-test de la nullité jointe (ou
de l’égalité à des constantes) d’un sous-ensemble des param ètres du modèle a la
même structure – une forme quadratique avec au centre l’inve rse de la matrice de
variance-covariance des paramètres considérés – que ci-de ssus.
Sous la forme (7.5) de la statistique ˆF0, ce test est particulièrement simple
puisque la somme des carrés des résidus de la régression cont rainte (=SCRc) est
ici tout simplement la somme des carrés des résidus de yisur une constante, qui est
égale à la somme des carrés totaux SCT de la régression initia le, de sorte que:
(SCRc−SCR)=SCT−SCR=SCE,
et donc que:
ˆF0=(ˆe′
cˆec−ˆe′ˆe)/(k−1)
ˆe′ˆe/(n−k)=SCE/(k−1)
SCR/(n−k)
LeF-test de la significativité de la régression dans son ensembl e est reporté en
standard par virtuellement tous les logiciels économétriq ues80.
7.1.4. Test joint versus tests individuels
Il est important de bien voir les différences entre un test joi nt de paramètres et
des tests individuels de ces mêmes paramètres.
On considère à titre d’exemple le F-test joint de H 0:β2=β3=0contre H1:
80Il est reporté par GRETL sous les rubriques ‘F(.,.)’ (= stati stique de test ˆF0) et ‘P-value(F)’ (=
P-valeur du test).
141
β2=0et/ouβ3=0et les tests individuels ( t-test ouF-test: ils sont équivalents)
de H1
0:β2= 0contre H1
1:β2= 0et de H2
0:β3= 0contre H2
1:β3= 0dans le
modèle de régression:
yi=β1+β2xi2+β3xi3+β4xi4+ei
On notera les éléments suivants:
1-LeF-test joint de H 0et les tests individuels de H1
0et H2
0ne répondent pas à la
même question. Bien qu’ils partagent la même hypothèse alte rnative:
H′
1=H1′
1=H2′
1:E(yi|xi2,xi3,xi4)=β1+β2xi2+β3xi3+β4xi4,
autrement dit que E(yi|.)est une fonction linéaire de xi2,xi3etxi4, sans
restrictions sur β1,β2,β3etβ4, ils reviennent à tester des hypothèses nulles
différentes:
a-dans le cas du test joint:
H′
0:E(yi|xi2,xi3,xi4)=β1+β4xi4,
autrement dit que E(yi|.)est une fonction linéaire de xi4, sans restrictions
surβ1etβ4, et qui ne dépend ni de xi2, ni dexi3.
b-dans le cas des tests individuels, d’une part:
H1′
0:E(yi|xi2,xi3,xi4)=β1+β3xi3+β4xi4,
autrement dit que E(yi|.)est une fonction linéaire de xi3etxi4, sans
restrictions sur β1,β3etβ4, et qui ne dépend pas de xi2, et d’autre part:
H2′
0:E(yi|xi2,xi3,xi4)=β1+β2xi2+β4xi4,
autrement dit que E(yi|.)est une fonction linéaire de xi2etxi4, sans re-
strictions sur β1,β2etβ4, et qui ne dépend pas de xi3.
2-LeF-test joint de H 0ne se réduit pas à une simple addition ou combinaison des
F-tests (out-tests) individuels de H1
0et de H2
0. En effet, les statistiques ˆF01et
ˆF02desF-tests de H1
0et de H2
0sont données par (cf. Section 7.1.3.1):
ˆF01=ˆβ2
2
Vˆar(ˆβ2)etˆF02=ˆβ2
3
Vˆar(ˆβ3),
tandisquelastatistiques ˆF0duF-testdeH 0estdonnéepar(cf. Section7.1.3.3):
ˆF0=1
2ˆβ2ˆβ3
Vˆar(ˆβ2)Cˆov(ˆβ2,ˆβ3)
Cˆov(ˆβ3,ˆβ2)Vˆar(ˆβ3)−1ˆβ2
ˆβ3
On remarquera en particulier le fait que ˆF0fait intervenir la covariance entre ˆβ2
etˆβ3, ce qui n’est le cas ni de ˆF01, ni deˆF02.
3-Onpeutsefaireunidée plus précise des différences entrel eF-testjointdeH 0et
les (F- out-) tests individuels de H1
0et de H2
0en examinant graphiquement leur
142
région respective d’acceptation (et donc de rejet). En gran d échantillon (pour
ngrand), les régions d’acceptation (i.e., de non-rejet) des F-tests individuels au
seuilαsont données par les ensembles de valeurs de ˆβj(j=2,3) qui sont telles
que81:
ˆF′
0j=ˆβ2
j
Var(ˆβj)≃ˆF0j≤F1,n−k;1−α,
oùF1,n−k;1−αest le quantile d’ordre 1−αde la loi de Fisher F(1,n−k), et la
région d’acceptation du F-test joint au seuil αest donnée par l’ensemble des
couples de valeurs (ˆβ2,ˆβ3)qui sont telles que:
ˆF′
0=1
2ˆβ2ˆβ3
Var(ˆβ2)Cov(ˆβ2,ˆβ3)
Cov(ˆβ3,ˆβ2)Var(ˆβ3)−1ˆβ2
ˆβ3
≃ˆF0≤F2,n−k;1−α,
oùF2,n−k;1−αest le quantile d’ordre 1−αde la loi de Fisher F(2,n−k).
Graphiquement:
023
02
(t-test) 3
Région d'acceptation
du F-test de H 01Cov 2,30
du F-test de H 0
(t-test)
Région d'acceptation
du F-test de H 01(t-test) Région d'acceptation
du F-test de H 02Région d'acceptation Cov 2,30
Région d'acceptation
du F-test de H 02
(t-test)
Graphique 45: Région d’acceptation du test joint et des test s individuels
On voit en particulier que la région d’acceptation du F-test joint dépend forte-
ment de la covariance entre ˆβ2etˆβ3. Lorsque cette covariance est égale à zéro
(et que les variances de ˆβ2et deˆβ3sont égales), la région d’acceptation du
F-test joint estun cercle, qui est proche du carré formé par l’ intersection des ré-
gions d’acceptation des tests individuels. Lorsque cette c ovariance est différente
de zéro (positive ou négative), la région d’acceptation du F-test joint est une
ellipse, inclinée vers le bas (si Cov(ˆβ2,ˆβ3)<0) ou vers le haut (si Cov(ˆβ2,ˆβ3)>
0), et dont la surface est (fortement si |Cov(ˆβ2,ˆβ3)|est très différente de zéro)
plus petitequelasurfaceducarréformé parl’intersection desrégions d’accepta-
tion des tests individuels.
81Ci-dessous, poursimplifier, on fait commesilesvariancese t covariancesdesparamètresétaient connues.
Pourngrand, cela n’a en fait aucune importance (le comportement a symptotique des statistiques de tests
est le même que les variances et covariances soient connues o u doivent être estimées).
143
4-On pourrait être tenté de tester l’hypothèse nulle jointe H0en s’appuyant sur
les tests individuels de H1
0et de H2
0. Plutôt que d’utiliser le F-test joint, on
pourrait ainsi décider d’accepter H 0si H1
0et H2
0sonttoutes les deux acceptées,
et de rejeter H 0siune au moins des hypothèses nulles H1
0et H2
0est rejetée.
Graphiquement, cela reviendrait à accepter H 0lorsque(ˆβ2,ˆβ3)appartient au
carré formé par l’intersection des régions d’acceptation d es tests individuels, et
àrejeterH 0sinon. Testerl’hypothèsenullejointeH 0surbased’untel test induit
(plutôt que sur base du F-test joint) n’est pas une très bonne idée. Pour deux
raisons:
a-Contrairement à ce qu’on pourrait croire, le risque de première espèce αI
d’un tel test induit n’est pas égal au seuil αdes tests individuels qui le
composent, mais compris entre αet2α. On a en effet82:
αI=IP(RH0|H0est vraie)=IP(RH1
0ou RH2
0|H0est vraie)
=IP(RH1
0|H0est vraie)+IP(RH2
0|H0est vraie)
−IP(RH1
0et RH2
0|H0est vraie)
=α+α−IP(RH1
0et RH2
0|H0est vraie)
= 2α−IP(RH1
0et RH2
0|H0est vraie)
oùIP(RH1
0et RH2
0|H0est vraie)est toujours compris entre 0etα, et
est égal à α2si RH1
0et RH2
0sont indépendants (i.e., pour ngrand, si
Cov(ˆβ2,ˆβ3)=0).
Ainsi, si chacun des tests individuels est effectué au seuil d e5%, le test
induitauraunrisquedepremièreespèce αIcomprisentre 5%et10%. Pour
avoir un test induit dont le risque de première espèce αIest au maximum
de5%(et donc comparable au F-test joint au seuil de 5%), chacun des
tests individuels devrait être effectué au seuil de 2,5%.
b-A risque de première espèce comparable, càd. si les seuils de tests indi-
viduels sont ajustés comme suggéré ci-dessus de façon à ce qu eαIsoit
au maximum égal au seuil αduF-test joint, la puissance d’un tel test
induit est quasi-toujours inférieure à celle du F-test joint, et cela est
d’autant plus vrai que la valeur absolue de la covariance ent reˆβ2etˆβ3
est élevée. Graphiquement, la plus grande puissance du F-test est liée au
fait que la surface de la région d’acceptation du F-test joint est (forte-
ment si|Cov(ˆβ2,ˆβ3)|est très différente de zéro) plus petite que la surface
du carré formé par l’intersection des régions d’acceptatio n des tests indi-
viduels. Le F-test étant généralement plus puissant, il est évidemment
préférable au test induit.
5-Etantdonnélesélémentsdéveloppésci-dessus,ondevine queleF-testjointetles
testsindividuelspeuventaboutiràdesconclusionsappare mmentcontradictoires.
En pratique, il est très rare que le F-test joint ne rejette pas l’hypothèse nulle
jointe H0alors que l’une au moins des hypothèses nulles H1
0et de H2
0est rejetée
82Pour rappel, de la théorie du calcul des probabilités, pour AetBdésignant deux événements quelcon-
ques, on a: (1) IP(AouB)=IP(A)+IP(B)−IP(AetB), (2)IP(AetB)≤IP(A)etIP(AetB)≤IP(B),
et (3) siA,Bsont deux événements indépendants, alors IP(AetB)=IP(A)IP(B). Les mêmes règles de
calcul tiennent pour les probabilités conditionnelles.
144
sur base des tests individuels83. Par contre, il est relativement fréquent (chaque
fois queVar(ˆβ2),Var(ˆβ3)et|Cov(ˆβ2,ˆβ3)|sont élevées, voir la Section 7.3 ci-
dessous pour un exemple typique) que le F-test joint rejette l’hypothèse nulle
jointe H0alors que ni l’hypothèse nulle H1
0ni l’hypothèse nulle H2
0n’est rejetée
sur base des tests individuels84.
Pourconclure,onnoteraquel’ensembledesconsidérations développéesci-dessus
vaut pour tout F-test joint d’une hypothèse nulle multiple (i.e., testant c onjointe-
ment plusieurs restrictions) comparé aux tests individuel s des hypothèses nulles qui
le composent (i.e., les différentes restrictions prises sép arément).
7.2. Exemple: les ventes d’une chaîne de fast-food
de HGL (2008)
Hill, Griffiths et Lim (2008) considèrent85une extension de leur modèle visant
à évaluer l’effet de la politique de prix et de publicité sur le s ventes d’une chaîne de
fast-food. Le modèle considéré est:
yi=β1+β2xi2+β3xi3+β4×2
i3+ei (7.8)
oùyidésigne les recettes mensuelles de vente (en milliers de $), xi2le prix de vente
unitaire (en $), et xi3le montant des dépenses publicitaires mensuelles (en milli ers
de $).
La conjecture sous-jacente à cet extension est que l’effet de s dépenses publi-
citaires sur les recettes n’est probablement pas linéaire ( i.e., l’effet marginal de xi3
n’est probablement pas constant), comme le suppose le modèl e initial (cf. Section
6.6).
Dans le modèle étendu (7.8), on s’attend à avoir β3>0etβ4<0, de sorte
que l’effet marginal des dépenses publicitaires sur les rece ttes, mesuré par∂E(yi)
∂xi3=
β3+2β4xi3, soit une fonction décroissante des dépenses publicitaire s.
En utilisant le logiciel GRETL, on obtient:
83Cela se produit lorsque le couple (ˆβ2,ˆβ3)obtenu pour un échantillon particulier appartient à la régi on
d’acceptation de test joint (cercle ou ellipse, cf.le Graph ique 45), mais n’appartient pas au carré formé par
l’intersection des régions d’acceptation des tests indivi duels.
84Cela se produit lorsque le couple (ˆβ2,ˆβ3)obtenu pour un échantillon particulier n’appartient pas à l a
région d’acceptation de test joint (cercle ou ellipse, cf.l e Graphique 45), mais appartient au carré formé
par l’intersection des régions d’acceptation des tests ind ividuels.
85Voir p.140 et suivantes.
145
Model 2:
OLS, using observations 1-75
Dependent variable: y
coefficient std. error t-ratio p-value
const 109.719 6.79905 16.14 1.87e-025 ***
x2 -7.64000 1.04594 -7.304 3.24e-010 ***
x3 12.1512 3.55616 3.417 0.0011 ***
x3_2 -2.76796 0.940624 -2.943 0.0044 ***
Mean dependent var 77.37467 S.D. dependent var 6.488537
Sum squared resid 1532.084 S.E. of regression 4.645283
R-squared 0.508235 Adjusted R-squared 0.487456
F(3, 71) 24.45932 P-value(F) 5.60e-11
Log-likelihood -219.5540 Akaike criterion 447.1080
Schwarz criterion 456.3780 Hannan-Quinn 450.8094
et
Null hypothesis: the regression parameters are zero for the variables
x3, x3_2
Asymptotic test statistic:
Wald chi-square(2) = 16.8827, with p-value = 0.000215757
F-form: F(2,71) = 8.44136, with p-value = 0.000514159
Sur base des résultats reportés ci-dessus, on peut:
1-voir que la statistique de test ˆF0duF-test de H 0:β2=β3=β4=0contre H1:
β2= 0et/ouβ3= 0et/ouβ4= 0est égale à24,45932, et que H 0peut être
rejetéeau seuil minimum de5,60e-11(= P-valeurdutest). Onpeutdoncrejeter
l’hypothèse nulle que E(yi|xi2,xi3)=β1, càd. que E(yi|xi2,xi3)ne dépend pas
ni dexi2, ni dexi3. Autrement dit, il apparaît que la régression est fortement
significative dans son ensemble.
2-voirquelastatistiquedetest ˆF0duF-testdeH 0:β3=β4=0contreH1:β3=0
et/ouβ4=0est égale à8,44136, et que H 0peut être rejetée au seuil minimum
de 0.000514159 (= P-valeur du test). On peut donc rejeter l’hypothèse nulle
queE(yi|xi2,xi3) =β1+β2xi2, càd. que E(yi|xi2,xi3)ne dépend pas de xi3.
Autrement dit, il apparaît que les dépenses publicitaires o nt un effet fortement
significatif sur les recettes (à prix de vente constant).
3-voir que la statistique de test ˆtodut-test de H 0:β2=0contre H1:β2=0est
égale à -7,304, et que H 0peut être rejetée au seuil minimum de 3,24e-010 (=
P-valeur du test). On peut donc rejeter l’hypothèse nulle que E(yi|xi2,xi3)=
β1+β3xi3+β4×2
i3, càd. que E(yi|xi2,xi3)ne dépend pas de xi2. Autrement dit,
il apparaît que le prix de vente a un effet fortement significat if sur les recettes
(à dépenses publicitaires constantes).
146
4-effectuer un test de H 0:β3≤0contre H 1:β3>0. On aˆto= 3,417, et
laP-valeur du test est égale à0,0011
2= 0,00055, de sorte H 0peut être rejetée
auseuil minimum de0,00055. Il apparaît donc que ˆβ3est, comme attendu,
statistiquement significativement supérieur à 0.
5-effectuer un test de H 0:β4≥0contre H 1:β4<0. On aˆto=-2,943, et
laP-valeur du test est égale à0,0044
2= 0,0022, de sorte H 0peut être rejetée
auseuil minimum de0,0022. Il apparaît donc que ˆβ4est, comme attendu,
statistiquement significativement inférieur à 0.
Le bénéfice, en termes de recettes, d’une unité supplémentai re de dépenses
publicitaires est donné par:
∂E(yi)
∂xi3=β3+2β4xi3
Le coût additionnel de cette unité supplémentaire de dépens es publicitaires est le
coût de la publicité elle-même, plus le coût de production de s unités supplémen-
taires qui seront vendues grâce à la publicité. Si on néglige ce second aspect, le
montant optimal x∗
i3de dépenses publicitaires doit satisfaire (recette margin ale =
coût marginal):
β3+2β4x∗
i3=1
Une estimation du montant optimal de dépenses publicitaire s est peut être obtenue
en remplaçant β3etβ4par leur estimation:
ˆx∗
i3=1−ˆβ3
2ˆβ4=1−12,1512
2(−2,76796)=2,014
Le montant optimal de dépenses publicitaires est donc estim é à2014$ (attention
aux unités de mesure !).
Sur base de son expérience, un manager de la chaîne de fast-fo od pense que le
niveauoptimaldesdépensespublicitaires estde 1900$, etquepourunprixdevente
conjointement fixé à 6$, on devrait obtenir en moyenne une recette de 80000$. On
peut tester la compatibilité de ces conjectures avec les don nées en testant:
H0:β3+2β4(1,9)=1etβ1+β2(6)+β3(1,9)+β4(1,9)2=80
contre H1: au moins 1 des deux restrictions est fausse
En utilisant le logiciel GRETL, on obtient:
Restriction set
1: b[x3] + 3.8*b[x3_2] = 1
2: b[const] + 6*b[x2] + 1.9*b[x3] + 3.61*b[x3_2] = 80
Test statistic: F(2,71) = 5.74123, with p-value = 0.0048846 6
On voit que la statistique de test ˆF0duF-test joint est égale à 5,74123, et que
147
H0peut être rejetée au seuil minimum de 0,00488466 (= P-valeur du test). On
peut donc rejeter l’affirmation du manager, càd. l’hypothèse nulle jointe que le
niveauoptimaldesdépensespublicitaires estde 1900$, etquepourunprixdevente
conjointement fixé à 6$, on devrait obtenir en moyenne une recette de 80000$.
Le rejetde l’hypothèse nulle jointe est-elle due à la conjec ture relative au niveau
optimal des dépenses publicitaires, à la conjecture relati ve à la recette moyenne
obtenue pour un prix de vente de 6$ et des dépenses publicitaires de 1900$, ou
aux deux conjectures? On peut tenter de répondre à cette ques tion en testant
séparément, d’une part:
H0:β3+2β4(1,9)=1contre H1:β3+2β4(1,9)=1,
et d’autre part:
H0:β1+β2(6)+β3(1,9)+β4(1,9)2=80
contre H1:β1+β2(6)+β3(1,9)+β4(1,9)2=80
En utilisant encore le logiciel GRETL, on obtient:
Restriction
b[x3] + 3.8*b[x3_2] = 1
Test statistic: F(1,71) = 0.936195, with p-value = 0.336543
et
Restriction
b[const] + 6*b[x2] + 1.9*b[x3] + 3.61*b[x3_2] = 80
Test statistic: F(1,71) = 10,8721, with p-value = 0,0015269 3
Onconstatequesilaconjecturerelativeauniveauoptimald esdépensespublicitaires
ne peut pas (à moins de prendre un risque de première espèce de 33% ou plus) être
rejetée, la conjecture relative à la recette moyenne obtenu e pour un prix de vente
de6$ et des dépenses publicitaires de 1900$ apparaît elle très fortement rejetée par
les données.
7.3. Colinéarité
Onditqu’ilya colinéarité parfaite entrelesrégresseursd’unerégressionmultiple
lorsque une (ou plusieurs) des variables explicatives de la régression est une combi-
naison linéaire exacte des (ou d’un sous-ensemble des) autres variables explicati ves
du modèle. Dans cette situation, l’hypothèse A5 rg (X)=kn’est pas satisfaite (i.e.,
rg(X)=k), de sorte que la matrice (X′X)est singulière et donc non-inversible, et
l’estimateur MCO ˆβ=(X′X)−1X′Yn’est tout simplement pas défini (cf. Section
6.2).
On parle (d’un problème) de colinéarité lorsqu’on est proch e d’une situation de
148
colinéarité parfaite.
Par exemple, si on cherche à expliquer la consommation d’un m énage (=yi)
en fonction de son revenu ( =xi2) et de sa fortune mobilière ( =xi3) au travers du
modèle:
yi=β1+β2xi2+β3xi3+ei,
ilyadeforteschanceque,dansunéchantillondedonnéesenc oupe,xi2etxi3varient
systématiquement ensemble, autrement dit que la corrélati on empirique ρe(xi2,xi3)
entrexi2etxi3soit très élevée (de l’ordre 0,95 ou plus), ce qui traduit le f ait quexi2
etxi3sont proches de satisfaire une relation linéaire exacte.
Lorsque deux ou plusieurs variables explicatives d’une rég ression multiple sont
(fortement) colinéaires, on observera typiquement en prat ique que:
1-les variances et covariances (en valeurs absolues) de leu rs paramètres sont (très)
élevées. Ainsi, malgré un R2éventuellement élevé, les coefficients estimés de ces
variables apparaîtront individuellement peu ou pas significatifs. Par contre, ils
pourraient très bien apparaître conjointement (au travers d’un F-test joint de
leur nullité) significatifs. De même, certaines fonctions d e ces paramètres (en
particulier, X0β=E(y0)pour des valeurs de X0proches des valeurs observées
dans l’échantillon) pourraient très bien être estimées de f açon (très) précise.
Ainsi, pour l’exemple donné ci-dessus, conformément aux ex pressions (6.1) –
(6.3) de la Section 6.3.1, si ρe(xi2,xi3)est proche de 1, les variances Var(ˆβ2)
etVar(ˆβ3)seront (très) élevées, et la covariance Cov(ˆβ2,ˆβ3)sera négative et
également (très) élevée en valeur absolue. Les paramètres e stimésˆβ2etˆβ3ont
donc toutesles chances d’apparaître individuellementpeu oupas significatifs, ce
quitraduitsimplementlefaitqu’étantdonnéque xi2etxi3varientsystématique-
ment ensemble, il est difficile de séparer leur effet marginal p ropre – d’où des
estimations peu précises – sur yi. Par contre, il est fort probable qu’on pourra
estimer de façon précise leur effet marginal conjoint β2+β3=∂E(yi)
∂xi2+∂E(yi)
∂xi2.
En effet, on a:
Var(ˆβ2+ˆβ3)=Var(ˆβ2)+Var(ˆβ2)+2Cov(ˆβ2,ˆβ3),
de sorte que la covariance, fortement négative, peut très bi en compenser les
variances élevées. Pour le même type de raison, ˆβ2etˆβ3apparaîtront très
certainement conjointement (au travers du F-test de la significativité de la ré-
gression dans son ensemble) significatifs, et pour des valeu rs deX0proches des
valeurs observées dans l’échantillon, les prévisions ˆy0=X0ˆβseront probable-
ment (en tout cas en tant qu’estimateur/prédicteur de E(y0)) assez précises.
2-lesrésultatsd’estimationsont(très)sensiblesàlasup pressiondequelquesobser-
vationset/oud’unevariableapparemmentnonpertinente(c arnonsignificative).
Cela découle simplement du fait que les paramètres sont esti més de façon peu
précise, et sont donc très variables d’un échantillon à l’au tre.
149
On notera encore les points suivants:
1-Ce qui caractérise fondamentalement les effets de la colin éarité, ce n’est pas
que les variances des paramètres sont élevées, ou que les rés ultats d’estimation
sont peu robustes à la suppression de quelques observations : un échantillon
de (très) petite taille ou une (très) faible dispersion des v ariables explicatives
produit les mêmes effets. Ce qui caractérise fondamentaleme nt les effets de la
colinéarité, c’est que les variances des paramètres sont él evées, et que simul-
tanément les valeurs absolues des covariances des paramètr es sont également
élevées. C’estcelaquirendpossiblelefaitquedesparamèt respeuventapparaître
individuellement peu ou pas significatifs, tout en étant con jointement très si-
gnificatifs.
2-Une colinéarité importante au sein des variables explica tives n’implique pas
nécessairement des variances élevées pour les paramètres, et donc des estima-
tions individuelles peu précises de ces paramètres. De ce po int de vue, une forte
colinéarité (dans l’exemple ci-dessus, ρe(xi2,xi3)est proche de 1)peut très bien
être compensée par la grande taille de l’échantillon et/ou u ne forte dispersion
des variables explicatives.
3-Lesdonnéesdontondisposeétantpresquetoujoursdenatu renon-expérimentale,
il existe quasi toujours un certain degré de colinéarité au s ein des variables ex-
plicatives d’une régression. Cette colinéarité n’est pas e n soi un problème. Elle
ne devient un problème que si elle est (le principal) respons able d’une forte
imprécision des paramètres estimés, qui rendent les résult ats obtenus peu ex-
ploitables.
4-Pour identifier les relations éventuelles de colinéarité au sein d’un ensemble de
variables explicatives, on peut:
a-examiner les corrélations entre les différentes variable s explicatives prises
deux à deux.
b-si les relations à la base de la colinéarité semblent plus c omplexes (i.e.,
impliquent simultanément plusieurs variables), examiner les régressions –
enparticulierleur R2–dechacunedesvariablesexplicativessurlesautres
variables explicatives.
5-Lorsqu’on est confronté à un problème de colinéarité, on p eut:
a-chercher à obtenir de ‘meilleures’ données: moins coliné aires, plus nom-
breuses, plus dispersées. En pratique, ce n’est le plus souv entpas possible.
b-atténuer le problème en imposant des contraintes sur les p aramètres. On
peut en effet montrer qu’une estimation contrainte (moindre s carrés sous
contrainte) des paramètres d’un modèle de régression améli ore toujours
la précision d’estimation des paramètres. Malheureusemen t, imposer des
contraintes sur les paramètres crée des biais si les contrai ntes sont incor-
rectes. Cette solution n’est donc envisageable que dans les situations où
la théorie suggère des restrictions a priori pertinentes su r les paramètres86,
ce qui est loin d’être en pratique souvent le cas.
86Pour un exemple de ce type, voir la Section 6.5 de Hill, Griffith s et Lim (2008). Nous n’en dirons pas
plus dans le cadre de ce cours.
150
c-simplement reconnaître, comme l’indique la forte impréc ision d’estimation
des paramètres, que l’information contenue dans l’échanti llon dont on dis-
pose est trop faible pour pouvoir obtenir des estimations pr écises, ou
autrement dit, que le modèle est trop complexe en regard de l’ information
contenue dans l’échantillon.
7.4. Problèmes de spécification
7.4.1. Forme fonctionnelle
Supposons que l’on cherche à expliquer le salaire yid’un individu en fonction
de son niveau d’éducation xi2et de son niveau d’expérience professionnelle xi3. On
le sait, le modèle de régression définit comme contrepartie e mpirique de la rela-
tion théorique d’intérêt l’espérance conditionnelle de yisachant(xi2,xi3). De façon
générale, on a:
E(yi|xi2,xi3)=g(xi2,xi3) (i.e., une fonction de xi2etxi3)
Le modèle de régression linéaire standard suppose, au trave rs des hypothèses87A1
et A2, que la fonction g(xi2,xi3)est linéaire:
E(yi|xi2,xi3)=β1+β2xi2+β3xi3,
de sorte que la relation théorique d’intérêt peut être estim ée sur base du modèle de
régression standard:
yi=β1+β2xi2+β3xi3+ei (7.9)
En pratique, rien n’assure que cette hypothèse de forme fonc tionnelle est bien
correcte. Elle peut cependant aisément être testée.
Pour tester que la forme fonctionnelle du modèle de régressi on standard (7.9)
est bien correcte, il suffit de considérer le modèle étendu:
yi=β1+β2xi2+β3xi3+β4×2
i2+β5×2
i3+β6(xi2xi3)+ei,
càd. le modèle original (7.9) auquel sont ajoutés les carrés et le produit croisé des
variables(xi2,xi3), et de tester à l’aide d’un F-test H0:β4=β5=β6=0contre
H1:β4=0et/ouβ5=0et/ouβ6=0.
De façon générale, pour tester la forme fonctionnelle du mod èle de régression
linéaire multiple:
yi=β1+β2xi2+β3xi3+…+βkxik+ei, (7.10)
87auxquelles il convient d’ajouter l’hypothèse A5 que Xest non-stochastique pour pouvoir écrire de façon
simplifiée E(yi)=β1+β2xi2+β3xi3.
151
il suffit de considérer un modèle étendu comprenant, outre le m odèle original (7.10),
tous les carrés et produits croisés des variables (xi2,xi3,…,xik), et de tester à l’aide
d’unF-test l’hypothèse nulle que les paramètres associés aux var iables ajoutées –
les carrés et produits croisés des variables (xi2,xi3,…,xik)– sont égaux à zéro.
Notons que dans le modèle original (7.10), rien n’empêche le s variables
(xi2,xi3,…,xik)d’être des transformations d’autres variables (comme dans un mo-
dèle lin-log ou log-log), ou encore de correspondre aux diffé rentes variables d’une
régression elle-même polynomiale. On peut donc de la sorte t ester la forme fonc-
tionnelle de n’importe quelle forme de régression linéaire multiple (standard, avec
des variables totalement ou partiellement transformées, p olynomiale, etc…).
Cette façon de tester la forme fonctionnelle du modèle devie nt vite peu pratique
lorsque le modèle original contient beaucoup de variables e xplicatives: le modèle
étendu contient alors un très grand nombre de variables expl icatives.
Une approche alternative, plus parcimonieuse, est donnée p ar le test RESET
de Ramsey (1969)88. Plutôt que d’ajouter les carrés et les produits croisés des
variablesdumodèleoriginal, letestRESETsuggèredeconsi dérerunmodèleétendu
obtenu en ajoutant au modèle original les puissances ˆy2
i,ˆy3
i, … de la valeur prédite
ˆyi=Xiˆβpar le modèle original, et comme précédemment, de tester à l’ aide d’un
F-test l’hypothèse nulle que les paramètres associés aux var iables ajoutées – ici,
les puissances ˆy2
i,ˆy3
i, … des valeurs prédites ˆyi=Xiˆβ– sont égaux à zéro. Pour
tester la forme fonctionnelle du modèle de régression stand ard (7.9), en utilisant les
puissances de ˆyijusqu’à l’ordre 3, cela signifie considérer le modèle étendu :
yi=β1+β2xi2+β3xi3+β4ˆy2
i+β5ˆy3
i+ei,
oùˆyi=ˆβ1+ˆβ2xi2+ˆβ3xi3, et tester à l’aide d’un F-test H0:β4=β5=0contre
H1:β4= 0et/ouβ5= 0.En pratique, on utilise rarement les puissances de ˆyi
au delà de l’ordre 4. On notera que la valeur prédite ˆyi=Xiˆβelle-même (i.e., la
puissance d’ordre 1 de ˆyi) ne peut pas être inclue dans le modèle étendu car elle est
par définition parfaitement colinéaire avec les variables d u modèle original ( ˆyiest
une combinaison linéaire exacte de ces variables). L’idée à la base de cette façon
de procéder est que si la forme fonctionnelle du modèle origi nal est incorrecte, les
variablesˆy2
i,ˆy3
i, … – qui, si on les développe, apparaissent comme des fonct ions
polynomialesdesvariablesdumodèleoriginal89–devraientgénéralementaméliorer
l’ajustement du modèle, et donc apparaître statistiquemen t significatives.
Deux points méritent encore d’être soulignés:
1-Toute fonction des variables du modèle original peut être utilisée dans le mo-
dèle étendu qui sert à tester la forme fonctionnelle du modèl e original. Ainsi,
on pourrait très bien tester la forme fonctionnelle du modèl e original (7.9) en
prenant comme variables additionnelles dans le modèle éten duln(xi2),ln(xi3),
88Ramsey J.B. (1969), “Tests for Specification Errors in Class ical Linear Least Squares Regression Analy-
sis”,Journal of the Royal Statistical Society , Serie B, 31, p.350-371. Notons que ‘RESET’ est l’acronyme
de ‘Regression Specification Error Test’.
89Pour l’exemple du test RESET du modèle de régression standar d (7.9), on a ainsi: ˆy2
i=(ˆβ1+ˆβ2xi2+
ˆβ3xi3)2=ˆβ2
1+2ˆβ1ˆβ2xi2+2ˆβ1ˆβ3xi3+ˆβ2
2×2
i2+2ˆβ2ˆβ3xi2xi3+ˆβ2
3×2
i3.
152
ainsi qu’éventuellement les carrés et le produit croisé de c es variables. On ne
peutparcontrepasincluredanslemodèleétendudesvariabl es(oudesfonctions
de ces variables) qui n’étaient pas présentes dans le modèle original. Ainsi par
exemple, pour tester la forme fonctionnelle de modèle origi nal (7.9), on ne peut
pas considérer comme modèle étendu:
yi=β1+β2xi2+β3xi3+β4xi4+ei,
oùxi4est une variable qui n’était pas présente dans le modèle orig inal, et tester
à l’aide d’un F-test (ou d’un t-test) H0:β4=0contre H1:β4=0. En effet,
dans ce cas, on ne teste plus:
H′
0:E(yi|xi2,xi3)=β1+β2xi2+β3xi3,
autrement dit que E(yi|xi2,xi3)est une fonction linéaire de xi2etxi3, mais
plutôt:
H′′
0:E(yi|xi2,xi3,xi4)=β1+β2xi2+β3xi3,
autrement dit que E(yi|xi2,xi3,xi4)est une fonction linéaire de xi2etxi3, et
qu’elle ne dépend pas de xi4. Or, on peut très bien simultanément avoir que H′
0
estvraieetqueH′′
0estfausse(àcauseduchangementdel’ensembledesvariable s
conditionnantes).
2-Lorsqu’onrejettel’hypothèsenullequelaformefonctio nnelledumodèleoriginal
estcorrecte,pouridentifierplusprécisémentlaformedela mauvaisespécification
du modèle, il peut être utile d’examiner des graphiques des r ésidusˆeidu modèle
originalenfonctiondesesdifférentesvariablesexplicati ves,ouencoreenfonction
de la valeur prédite ˆyi=Xiˆβ(du modèle original).
7.4.2. Variables omises
Supposons à nouveau que l’on cherche à expliquer le salaire yid’un individu en
fonction de son niveau d’éducation xi2et de son niveau d’expérience professionnelle
xi3. Supposons par ailleurs que toutes les hypothèses (en parti culier les hypothèses
A1 et A2 concernant la forme fonctionnelle) du modèle de régr ession linéaire stan-
dard soient correctes, de sorte que la relation théorique d’ intérêt peut être estimée
sur base du modèle de régression standard:
yi=β1+β2xi2+β3xi3+ei (7.11)
Supposons encore que l’on soit en particulier intéressé par le paramètre β2qui
indiquel’effetd’uneannéed’étudesupplémentairesurlesa lairemoyend’unindividu,
à niveau d’expérience professionnelle constant (= l’effet m arginal de xi2,xi3étant
maintenu constant). Supposons finalement que l’on estime le paramètre β2, non pas
153
à l’aide de l’estimateur MCO ˆβdu modèle (7.11):
ˆβ=
ˆβ1
ˆβ2
ˆβ3
=(X′X)−1X′Y ,oùY=
…
yi
…
etX=
………
1xi2xi3
………
,(7.12)
mais à l’aide de l’estimateur MCO ˆβ∗
12du modèle de régression:
yi=β1+β2xi2+ei, (7.13)
où, pour une raison quelconque90, la variable xi3est omise. L’estimateur MCO du
modèle (7.13), où la variable xi3est omise, est donné par:
ˆβ∗
12=
ˆβ∗
1
ˆβ∗
2
=(X′
12X12)−1X′
12Y ,oùY=
…
yi
…
etX12=
……
1xi2
……
On sait que, le modèle (7.11) étant correctement spécifié (en particulier les
hypothèses A1, A2 et A5 étant correctes), l’estimateur MCO ˆβ2est un estimateur
non biaisé du paramètre d’intérêt β2. Peut-on en dire autant de l’estimateur MCO
ˆβ∗
2du modèle (7.13), où la variable xi3a été omise? La réponse à cette question est
non, sauf dans deux cas particuliers.
Pour le voir, il suffit de calculer l’espérance de ˆβ∗
12. Notons tout d’abord que,
sous forme matricielle, on peut écrire le modèle (7.11):
Y=Xβ+e=X12β12+X3β3+e,oùβ12=
β1
β2
etX3=
…
xi3…
,
de sorte qu’on a:
ˆβ∗
12= (X′
12X12)−1X′
12Y
= (X′
12X12)−1X′
12(X12β12+X3β3+e)(carY=X12β12+X3β3+e)
= (X′
12X12)−1X′
12X12β12+(X′
12X12)−1X′
12X3β3+(X′
12X12)−1X′
12e
=β12+(X′
12X12)−1X′
12X3β3+(X′
12X12)−1X′
12e,
et donc:
E(ˆβ∗
12) =E$
β12+(X′
12X12)−1X′
12X3β3+(X′
12X12)−1X′
12e%
=β12+(X′
12X12)−1X′
12X3β3+(X′
12X12)−1X′
12E(e)(carX12etX3fixes)
=β12+(X′
12X12)−1X′
12X3β3 (carE(e)=0),
90Par exemple, parce que la variable xi3n’est en pratique pas disponible.
154
soit:
E(ˆβ∗
12) =β12+β3ˆδ
⇔
E(ˆβ∗
1)
E(ˆβ∗
2)
=
β1
β2
+β3ˆδ1
ˆδ2
oùˆδ=(X′
12X12)−1X′
12X3n’est autre que l’estimateur MCO ˆδde la régression de la
variable omise xi3surxi2(et une constante):
xi3=δ1+δ2xi2+ei
De l’équation (2.9) de la Section 2.2.1, on a ˆδ2=Cove(xi2,xi3)
Vare(xi2), de sorte qu’en ce
qui concerne l’estimateur ˆβ∗
2du paramètre d’intérêt β2, on obtient finalement:
E(ˆβ∗
2)=β2+β3Cove(xi2,xi3)
Vare(xi2)
On constate que l’estimateur MCO ˆβ∗
2du modèle de régression (7.13) – où
la variable xi3a été omise – est un estimateur généralement biaisé du paramè tre
d’intérêtβ2du modèle (7.11), sauf si l’une au moins des deux conditions s uivantes
est remplie:
1-β3=0dans le modèle de régression (7.11). Dans ce cas, on a E(yi|xi2,xi3)=
β1+β2xi2, autrement dit, E(yi|xi2,xi3)est une fonction linéaire de xi2, et ne
dépend pas de xi3. Il n’est donc pas étonnant qu’omettre la variable xi3du
modèle ne crée pas de biais.
2-La variable omise xi3est non corrélée avec xi2(i.e.,Cove(xi2,xi3)=0)91. Il y a
en pratique peu de chance que cette condition soit remplie.
Si aucune de ces deux conditions n’est remplie, l’estimateu r MCOˆβ∗
2est biaisé,
et son biais est donné par:
Biais(ˆβ∗
2)=E(ˆβ∗
2)−β2=β3Cove(xi2,xi3)
Vare(xi2)
Le tableau ci-dessous résume le signe du biais de ˆβ∗
2en fonction des signes de β3
et de la corrélation empirique ρe(xi2,xi3)entrexi2etxi3.
Biais(ˆβ∗
2)Cove(xi2,xi3)>0
⇔ρe(xi2,xi3)>0Cove(xi2,xi3)<0
⇔ρe(xi2,xi3)<0
β3>0 positif négatif
β3<0 négatif positif
Ainsi,dansnotreexemplededépartoù yidésignelesalaired’unindividu, xi2son
91Pour rappel, deux variables sont non corrélées si et seuleme nt si leur covariance est nulle.
155
niveau d’éducation et xi3son niveau d’expérience professionnelle, on peut supposer
queβ3>0, et on peut également s’attendre à avoir en pratique92ρe(xi2,xi3)<0.
Par conséquent, l’effet d’une année d’étude supplémentaire sur le salaire moyen
d’un individu, à niveau d’expérience professionnelle cons tant (=β2dans le mo-
dèle (7.11)), s’il est estimé sur base du modèle (7.13) où la v ariable de niveau
d’expérience professionnelle ( =xi3) a été omise, a toutes les chances d’être sous-
évalué (=Biais(ˆβ∗
2)<0).
L’analyse ci-dessus peut aisément être généralisée au cas d e l’omission d’une ou
plusieursvariablesexplicativesdansunerégressioncont enantunnombrequelconque
kde variables explicatives. Dans ce cas général, on peut pare illement montrer que
l’estimateur MCO ˆβ∗
(.)des paramètres du modèle où une ou plusieurs variables ex-
plicativesontétéomisesestunestimateurbiaisédesparam ètresdumodèled’intérêt
original, sauf si l’une au moins des deux conditions suivant es est remplie:
1-Dans le modèle d’intérêt original, le paramètre de chacunedes variables omises
est égal à zéro (i.e., les variables omises sont en fait non pe rtinentes).
2-Chacune des variables omises est non corrélée avec chacunedes autres variables
du modèle d’intérêt original.
Dans ce cas général, le signe des biais est cependant netteme nt plus compliqué à
déterminer.
En résumé, lorsqu’on désire estimer l’effet marginal sur yid’une variable xij,
d’autres variables ( xi2,…,xij−1,xij+1,…,xik) étant maintenues constantes, sauf cas
particulier, il est indispensable de bien inclure ces autre s variables dans la régres-
sion. Si on ne le fait pas, ou que l’on ne le fait que partiellem ent (omission de
certaines variables seulement), on obtiendra généralemen t des estimations biaisées93
des effets que l’on cherche à estimer. Ce résultat général ava it déjà été suggéré à
la Section 6.1.2, où on a souligné que des modèles ayant des en sembles de variables
conditionnantes différents, sont des modèles différents, et répondent à des questions
différentes.
Nousvenonsdevoirqu’omettredesvariablespertinentes(i .e., dontleparamètre
est différent de zéro) d’un modèle de régression crée des biai s à l’estimation. Pour
conclure, on considère brièvement le cas de l’inclusion, à t ort, de variables non
pertinentes dans une régression.
Supposons à nouveau qu’on s’intéresse aux paramètres du mod èle de régression
standard (7.11), que l’on suppose toujours correctement sp écifié, mais que plutôt
que d’estimer ces paramètres à l’aide de l’estimateur MCO (7 .12), on estime ces
paramètres à l’aide de l’estimateur MCO standard ˆβ∗du modèle:
yi=β1+β2xi2+β3xi3+β4xi4+ei, (7.14)
92Les individus les plus éduqués sont les individus les plus je unes (effet de génération). Etant les plus
jeunes, ils ont forcément un niveau d’expérience plus faibl e que les individus les plus âgés, qui sont en
moyenne moins éduqués.
93Notons que l’expression estimations biaisées est un abus de language. Au sens strict, c’est l’estimateur
utilisé qui est biaisé.
156
où a été inclu une variable non pertinente xi4, càd. une variable telle que
E(yi|xi2,xi3,xi4)=β1+β2xi2+β3xi3, ce qui implique que dans (7.14), le paramètre
β4=0.
On sait que, le modèle (7.11) étant correctement spécifié, l’ estimateur MCO
(7.12) est un estimateur non biaisé de β= (β1,β2,β3)′. Le modèle (7.11) étant
correctement spécifié, et la variable xi4étant non pertinente, le modèle de régres-
sion (7.14) est aussi correctement spécifié, de sorte l’esti mateur MCO de ce modèle
incluant la variable non pertinente xi4est aussi non biaisé:
E(ˆβ∗)=
E(ˆβ∗
1)
E(ˆβ∗
2)
E(ˆβ∗
3)
E(ˆβ∗
4)
=
β1
β2
β3
0
Simplement, comme β4=0, on aE(ˆβ∗
4)=0. En d’autres termes, l’inclusion, à tort,
d’une variable non pertinente dans le modèle ne crée pas de bi ais d’estimation.
L’inclusion,àtort,delavariablenonpertinente xi4n’estcependantpassanscon-
séquence. En effet, du Théorème Gauss-Markov, on sait que le m eilleur estimateur
linéaire sans biais de βdans le modèle correctement spécifié (7.11) est l’estimateu r
MCO (7.12). On a donc nécessairement:
V(ˆβ∗
123)≥V(ˆβ),oùˆβ∗
123=
ˆβ∗
1
ˆβ∗
2
ˆβ∗
3
Autrement dit, l’estimateur MCO ˆβ∗
123du modèle (7.14) incluant la variable non
pertinente xi4a nécessairement, pour le vecteur de paramètre β=(β1,β2,β3)′, une
matrice de variance-covariance supérieure ou égale (au sen s matriciel) à celle de
l’estimateur MCO ˆβdu modèle (7.11). Ce résultat est également valable dans le c as
de l’inclusion, à tort, de plusieurs (plutôt qu’une seule) v ariables non pertinentes
dans une régression.
En résumé, contrairement au cas de l’omission de variables ( pertinentes)94,
l’inclusiondevariablesnonpertinentesnecréepasdebiai sd’estimation, maisréduit
généralement la précision d’estimation, ce qui n’est évide mment pas souhaitable, et
est donc à éviter.
7.4.3. Hétéroscédasticité et auto-corrélation
Comme on peut le voir des développements des Sections 3.1 et 6 .3.1, les seules
hypothèses nécessaires pour obtenir un estimateur non biai sé (et convergent) du
94Si elles sont non pertinentes, on est dans un des deux cas part iculiers où cela ne pose pas de problème.
157
vecteur de paramètres βdu modèle de régression:
Y=Xβ+e (7.15)
sont les hypothèses A1 et A2 (+ par commodité l’hypothèse A5 q ueXest non-
stochastique), qui assurent que la forme fonctionnelle du m odèle est correctement
spécifiée. Nil’hypothèseA3d’homoscédasticité,nil’hypo thèseA4denon-corrélation
nesontnécessaires pourquel’estimateurMCOstandard ˆβ=(X′X)−1X′Ysoitnon
biaisé.
Ces hypothèses d’homoscédasticité et de non-corrélation s ont cependant cru-
ciales pour la validité de toutes les procédures d’inférenc e (intervalles de confiance,
tests d’hypothèse et intervalles de prévision) que nous avo ns établies. Sous ces hy-
pothèses additionnelles, nous avons montré que la matrice d e variance-covariance
de l’estimateur MCO ˆβest donnée par:
V(ˆβ)=σ2(X′X)−1, (7.16)
etqu’unestimateurnonbiaiséetconvergentdecettematric edevariance-covariance
est donné par:
ˆV(ˆβ)=ˆs2(X′X)−1(7.17)
Cetestimateurdelamatricedevariance-covariancede ˆβ(oudesélémentsdecelle-ci,
comme les variances ou les écarts-types estimésdes différen ts paramètres)intervient
dans toutes les procédures d’inférence que nous avons étudi és.
Ainsi, si les hypothèses additionnelles A3 et A4 d’homoscéd asticité et de non-
corrélationne sontpas satisfaites, les procédures d’infé renceque nous avons établies
ne sont plus valables. Par ailleurs, lorsque ces hypothèses additionnelles A3 et A4
ne sont pas satisfaites, on a aussi que les conditions du Théo rème Gauss-Markov
ne sont plus remplies, de sorte que l’estimateur MCO ˆβn’est plus le meilleur esti-
mateur linéaire sans biais de β. Comme on vient de le voir, l’estimateur MCO ˆβ
est toujours non biaisé, et peut donc toujours être utilisé, mais il n’est plus celui
qui a la plus petite (au sens matriciel) matrice de variance- covariance parmi les es-
timateurs linéaires sans biais de β. On peut montrer que dans ce cas le meilleur
estimateur linéaire sans biais est un estimateur appelé l’ estimateur des Moindres
Carrés Généralisés (MCG). Nous ne développerons pas ici cet estimateur. Nous
allons par contre voir comment on peut modifier les procédure s d’inférence stan-
dards associées à l’estimateur MCO de façon à ce qu’elles res tent valables lorsque
les hypothèses additionnelles A3 et A4 ne sont pas satisfait es.
Lorsque l’hypothèse A3-A4 V(e)=V(Y)=σ2Id’homoscédasticité et de non-
corrélationdumodèlestandardn’estpassatisfaite,onpeu tdefaçongénéraleavoir:
V(e)=V(Y)=Ω=
σ2
1···γ1i···γ1n…………
γi1···σ2
i···γin…………
γn1···γni···σ2
n
, (7.18)
158
oùσ2
ietγij, qui désignent respectivement les variances et covariance s (condition-
nelles) des observations, peuvent être des fonctions de X. La forme générale (7.18)
permet d’avoir n’importe quelle forme d’hétéroscédastici té et de corrélation entre
les observations95. Elle est donc par définition toujours correcte. Dans le cas p ar-
ticulier où l’hypothèse A3-A4 d’homoscédasticité et de non -corrélation est remplie,
on a simplement Ω=σ2I.
On peut aisément obtenir la matrice de variance-covariance de l’estimateur
MCOˆβpour ce cas général. Sous les hypothèses A1, A2 et A5, on a:
ˆβ=β+(X′X)−1X′eetE(ˆβ)=β,
de sorte qu’on obtient:
V(ˆβ) =E$
(ˆβ−E(ˆβ))(ˆβ−E(ˆβ))′%
=E$
(ˆβ−β)(ˆβ−β)′%
(carE(ˆβ)=β)
=E$
(X′X)−1X′ee′X(X′X)−1%
(carˆβ−β=(X′X)−1X′e))
= (X′X)−1X′E(ee′)X(X′X)−1(carXfixe)
= (X′X)−1X′ΩX(X′X)−1(carE(ee′)=V(e)=Ω)
Sous les seules hypothèses A1, A2 et A5, sans faire aucune hyp othèse spécifique
sur les variances et covariances (conditionnelles) des obs ervations, la matrice de
variance-covariance de l’estimateur MCO ˆβest donc donnée par:
V(ˆβ)=(X′X)−1X′ΩX(X′X)−1, (7.19)
tandis qu’elle se réduit à la formule standard V(ˆβ) =σ2(X′X)−1si l’hypothèse
A3-A4 d’homoscédasticité et de non-corrélation est rempli e, càd. siΩ=σ2I.
Des procédures d’inférence (intervalles de confiance, test s d’hypothèse et in-
tervalles de prévision96) valables sous les seules hypothèses A1, A2 et A5 – donc
sans faire appel aux hypothèses A3 et A4 – peuvent être obtenu es en utilisant,
dans les calculs de toutes ces procédures, un estimateur con vergent de la matrice
de variance-covariance générale (7.19), en lieu et place de l’estimateur standard
ˆV(ˆβ)= ˆs2(X′X)−1, qui n’est valable que sous les hypothèses additionnelles A 3 et
A4.
Dans la quête d’un estimateur convergent de la matrice de var iance-covariance
générale (7.19), on distingue deux cas: le cas où on peut cons idérer que les obser-
vations sont non corrélées, mais peuvent être hétérocédast iques, et le cas général où
les observations peuvent à la fois être corrélées et hétéros cédastiques.
95Notons que si Ωpeut être généralement quelconque, comme c’est une matrice de variance-covariance,
elle doit tout de même nécessairement être symétrique et (se mi-) définie positive.
96Pour l’intervalle de prévision de E(y0)sachant(x02,…,x0k), maispaspour l’intervalle de prévision de
y0sachant(x02,…,x0k).
159
7.4.3.1. Hétéroscédasticité
Lorsqu’on analyse des données en coupe , on peut généralement considérer, pour
des raisons d’échantillonnage97ou de modélisation, que les observations sont in-
dépendantes d’un individu à l’autre, et donc non corrélées. L’hypothèse A4 de
non-corrélation est donc automatiquement satisfaite, et s eule une possible violation
de l’hypothèse A3 d’homoscédasticité est à considérer. Dan s ce cas, la matrice de
variance-covariance V(e)=V(Y)=Ωdes observations est une matrice diagonale,
etlamatricedevariance-covariancegénérale(7.19)del’e stimateurMCO ˆβseréduit
à:
V(ˆβ) = (X′X)−1X′ΩX(X′X)−1
= (X′X)−1n
i=1X′
iXiσ2
i
(X′X)−1, (7.20)
oùσ2
iest la variance (conditionnelle) de l’observation ietXi=1xi2···xik
désigne lai-ième ligne de la matrice des observations X.
On peut montrer, sous des conditions de régularité générale s, qu’un estimateur
convergent (mais pas non biaisé) de cette matrice (7.20) de v ariance-covariance de
l’estimateur MCO ˆβest donné par:
ˆVHC(ˆβ)=(X′X)−1n
i=1X′
iXiˆe2
i
(X′X)−1, (7.21)
oùˆei=yi−Xiˆβ. Cet estimateur, qui est dû à White98, est généralement appelé99
estimateur robuste à l’hétéroscédasticité de la matrice de variance-covariance de
l’estimateur MCO ˆβ.
Si,danslescalculsdesdifférentesprocéduresd’inférence quenousavonsétudiées,
on remplace l’estimateur standard ˆV(ˆβ) = ˆs2(X′X)−1de la matrice de variance-
covariance de ˆβpar cet estimateur robuste ˆVHC(ˆβ)100, on obtient des procédures
d’inférence101qui sont valables sous les seules hypothèses A1, A2 et A5, don c sans
faire appel à l’hypothèse A3 d’homoscédasticité, étant ent endu qu’avec des don-
nées en coupe l’hypothèse A4 de non-corrélation est sensée ê tre automatiquement
97Si les observations sont obtenues par tirage aléatoire avec remise – ou sans remise, si l’échantillon
est petit par rapport à la population – d’individus dans une p opulation, elles sont par construction
indépendantes.
98White H. (1980), “A Heteroskedasticity-Consistent Covari ance Matrix Estimator and a Direct test for
Heterosckedasticity”, Econometrica , 48, p.817-838.
99En anglais, on dit heteroskedasticity robust covariance matrix estimator ou encore heteroskedasticity
consistent covariance matrix estimator , la deuxième appellation étant à la source de l’abréviation ‘HC’ (=
Heteroskedasticity Consistent).
100Par exemple, pour le calcul de l’intervalle de confiance d’un paramètre βj,cela signifie remplacer
l’estimateur standard s.ˆe.(ˆβj)de l’écart-type du paramètre par l’estimateur robuste s.ˆe.HC(ˆβj), qui est
donné par la racine carrée de l’élément (j,j)deˆVHC(ˆβ).
101Pour toutes les procédures d’inférence que nous avons étudi ées, excepté l’intervalle de prévision de y0
sachant(x02,…,x0k).
160
satisfaite. Notons cependant que ces procédures ainsi modi fiées ne sont valables
qu’asymptotiquement , à titre approximatif pour ngrand, et ce même si les yisont
distribués de façon normale. La plupart des logiciels écono métriques (GRETL en
particulier) permettent de calculer, de façon optionnelle , la matrice de variance-
covariance – et les écart-types – robustes à l’hétéroscédas ticité des paramètres
estimés102.
L’estimateurrobuste(7.21)estunestimateurconvergentd eV(ˆβ)quelquesoitla
formed’hétéroscédasticitéprésentedanslesdonnées. C’e stégalementunestimateur
convergent de V(ˆβ)si l’hypothèse A3 d’homoscédasticité est en réalité satisf aite.
Dans ce dernier cas, il vaut cependant mieux utiliser l’esti mateur standard ˆV(ˆβ)=
ˆs2(X′X)−1, car il est plus précis. Pour savoir en pratique quel estimat eur deV(ˆβ)
utiliser, on peut tester si l’hypothèse A3 d’homoscédastic ité est ou non remplie.
Un test de l’hypothèse A3 d’homoscédasticité peut être effec tué sur base de la
régression auxiliaire:
ˆe2
i=δ1+δ2xi2+δ3xi3+…+δkxik+vi (7.22)
càd. de la régression du carré des résidus ˆe2
isur une constante et les différentes
variables explicatives du modèle d’intérêt (7.15).
Si l’hypothèse A3 d’homoscédasticité est vraie, on a Var(ei)=E(e2
i)=σ2(i.e.,
une constante), pourtout i=1,…,n. Commeˆe2
iestun estimateurconvergentde e2
i,
danslarégressionauxiliaire(7.22),ons’attend,sil’hyp othèseA3d’homoscédasticité
est vraie, à ce que tous les paramètres sauf l’intercept soie nt non significativement
différents de zéro.
Cela peut être formellement testé au travers d’un simple F-test de H 0:δ2=
…=δk= 0contre H1:δ2= 0et/ou … et/ou δk= 0. Une autre statistique de
test, asymptotiquement équivalente au F-test, est cependant plus souvent utilisée
pour formellement tester la significativité jointe des para mètresδ2, …,δkdans la
régression auxiliaire (7.22). Il s’agit de la statistique103:
LMH=n×R2
oùnest la taille d’échantillon et R2est le coefficient de détermination multiple
de la régression auxiliaire (7.22). On peut montrer que, sou s l’hypothèse nulle H 0
d’homoscédasticité104,LMH∼χ2(k−1), où(k−1)estégalaunombre devariables
(hors intercept) incluses dans la régression auxiliaire (7 .22), de sorte que la règle de
décision du test au seuil αestdonnée par:
.- Rejet de H0siLMH>χ2
k−1;1−α
– Non-rejet de H0sinon
102L’estimateur robuste ˆVHC(ˆβ)utilisé par les logiciels économétriques peut en pratique ê tre une variante
– asymptotiquement équivalente – de l’estimateur donné par (7.21).
103L’abbréviation ‘ LM’ de cette statistique vient du fait qu’il s’agit d’un test di tdu Multiplicateur de
Lagrange (Lagrange Multiplier test en anglais).
104Si l’hypothèse nulle H 0d’homoscédasticité est fausse, LMHsuit une loi du khi-carré non-centrale.
161
où la valeur critique χ2
k−1;1−αest le quantile d’ordre 1−αde la loiχ2(k−1), et la
P-valeur de ce test, pour un échantillon particulier où la statistique de test prend
la valeur particulière LM∗
H, est donnée par:
pLMH=IP(v >LM∗
H),oùv∼χ2(k−1)
Ce test est connu sous le nom de test d’hétéroscédasticité de Breusch-Pagan ,
bien qu’il s’agisse en réalité d’une version modifiée par Koe nker (1981)105du test
original proposé par Breusch et Pagan (1979)106. On notera que ce test, mais aussi
sa version F-test, n’est valable qu’ asymptotiquement , à titre approximatif pour n
grand, et ce même si les yisont distribués de façon normale.
Pour conclure, on notera encore que, dans la régression auxi liaire (7.22), à côté
des différentes variables explicatives (xi2,xi3,…,xik)du modèle d’intérêt (7.15), on
peutencoreajouterlescarrésetlesproduitscroisésdeces variables.Souscetteforme
étendue, letestestappelé test d’hétéroscédasticité de White107. Danslemêmeesprit
que le test RESET,onpeutégalement, dansla régressionauxi liaire(7.22), àcôtéde
l’intercept δ1, plutôt que les variables (xi2,xi3,…,xik), considérer comme variables
explicatives à tester les puissances ˆyi,ˆy2
i,ˆy3
i, … des valeurs prédites ˆyi=Xiˆβdu
modèle d’intérêt (7.15)108. On notera que la valeur prédite ˆyi=Xiˆβelle-même (i.e.,
la puissance d’ordre 1 de ˆyi) peut ici être inclue dans le modèle auxiliaire (pas de
problème de colinéarité parfaite). En pratique, on utilise rarement les puissances de
ˆyiau-delà de l’ordre 4. Cette dernière forme du test est partic ulièrement indiquée
lorsqu’on a des raisons de penser que la variance des observa tions est liée à leur
moyenne.
7.4.3.2. Auto-corrélation
Lorsqu’on analyse des données chronologiques ou séries temporelles au travers
du modèle:
Y=Xβ+e
⇔yt=β1+β2xt2+β3xt3+…+βkxtk+et, t=1,…,T, (7.23)
outre unepossible hétéroscédasticité, lesobservations s ont courammentsériellement
corrélées, càd. corrélées d’une période à l’autre. On parle d’auto-corrélation . Cela
se produit typiquement lorsqu’on considère une modèle statique, càd. un modèle où
les variables explicatives n’incluent aucune variable – dé pendante (telle que yt−1,
yt−2,…) ou indépendante (telle que xt−1j,xt−2j,…) – retardée109.
105Koenker R. (1981), “A Note on Studentizing a Test for Heteros kedasticity”, Journal of Econometrics ,
17, p.107-112.
106Breusch T.S. et Pagan A.R. (1979), “A Simple Test for Heteske dasticity and Random Coefficient
Variation”, Econometrica , 47, p.987-1007.
107Voir note 98 p.159.
108Notons que dans toutes ces variantes, le nombre de degrés de l iberté de la loi du χ2intervenant dans le
test basé sur la statistique LMHest toujours égal au nombre total de variables explicatives (hors intercept)
incluses dans la régression auxiliaire (7.22).
109Dans le cas contraire, on parle d’un modèle dynamique .
162
Ainsi, lorsqu’on analyse des données chronologiques, une p ossible violation à la
fois de l’hypothèse A3 d’homoscédasticité et (surtout) de l ’hypothèse A4 de non-
corrélation est à considérer. Dans ce cas, la matrice de vari ance-covariance V(e)=
V(Y)=Ωdesobservationspeutêtrequelconque(pasderestrictions surlesvariances
et les covariances110), et la matrice de variance-covariance générale de l’estim ateur
MCOˆβest donnée par:
V(ˆβ) = (X′X)−1X′ΩX(X′X)−1
= (X′X)−1T
t=1X′
tXtσ2
t+T−1
τ=1T
t=τ+1(X′
tXt−τγt(t−τ)+X′
t−τXtγ(t−τ)t)
×(X′X)−1, (7.24)
oùσ2
test la variance (conditionnelle) de l’observation t,γt(t−τ)(=γ(t−τ)t)la covari-
ance (conditionnelle) entre les observations tet(t−τ), etXt=1xt2···xtk
désigne lat-ième ligne de la matrice des observations X.
On peut montrer, sous des conditions de régularité générale s, qu’un estimateur
convergent (mais pas non biaisé) de cette matrice (7.24) de v ariance-covariance de
l’estimateur MCO ˆβest donné par:
ˆVHAC(ˆβ) = (X′X)−1
×T
t=1X′
tXtˆe2
t+q
τ=1(1−τ
q+1)T
t=τ+1(X′
tXt−τˆetˆet−τ+X′
t−τXtˆet−τˆet)
×(X′X)−1, (7.25)
oùˆet=yt−Xtˆβ. Cet estimateur, qui est dû à Newey et West111, est généralement
appelé112estimateur robuste à l’hétéroscédasticité et l’auto-corr élationde la matrice
de variance-covariance de l’estimateurMCO ˆβ.Samise enoeuvre pratique requiert
de choisir une valeur (entière) pour le paramètre q. Le choix optimal de qdépend
notammentdel’importancedel’auto-corrélationprésente danslesdonnées. Pourdes
donnéesannuelles,onpeutgénéralementprendreunevaleur faiblepour q(disonsq≤
3). Une valeur plus élevée de qdevrait être choisie pour des données trimestrielles,
et plus encore pour des données mensuelles.
Comme à la section précédente, si, dans les calculs des différ entes procédures
d’inférence que nous avons étudiées, on remplace l’estimat eur standard ˆV(ˆβ) =
ˆs2(X′X)−1de la matrice de variance-covariance de ˆβpar cet estimateur robuste
110Hormis le fait déjà mentionné que Ωdoit nécessairement être symétrique et (semi-) définie posi tive.
111Newey W.K. et West K.D. (1987), “A Simple, Positive Semi-Defi nite Heteroskedasticity and Autocor-
relation Consistent Covariance Matrix”, Econometrica , 55, p.703-708.
112En anglais, on dit heteroskedasticity and autocorrelation robust covarianc e matrix estimator ou encore
heteroskedasticity and autocorrelation consistent covar iance matrix estimator , ladeuxièmeappellationétant
à la source de l’abréviation ‘HAC’ (= Heteroskedasticity an d Autocorrelation Consistent).
163
ˆVHAC(ˆβ)113, onobtientdesprocéduresd’inférence114quisontvalablessouslesseules
hypothèses A1, A2 et A5, donc sans faire appel ni à l’hypothès e A3 d’homoscédasti-
cité, ni à l’hypothèse A4 de non-corrélation. Notons encore que ces procédures
ainsi modifiées ne sont valables qu’ asymptotiquement , à titre approximatif pour n
grand, et ce même si les yisont distribués de façon normale. La plupart des logiciels
économétriques (GRETL en particulier) permettent à nouvea u de calculer, de façon
optionnelle, la matrice de variance-covariance – et les éca rt-types – robustes à
l’hétéroscédasticité et l’auto-corrélation des paramètr es estimés115.
L’estimateurrobuste(7.25)estunestimateurconvergentd eV(ˆβ)quelquesoitla
forme d’hétéroscédasticité et d’auto-corrélation présen te dans les données. Comme
l’estimateurˆVHC(ˆβ)(robuste à l’hétéroscédasticité uniquement), c’est égale ment un
estimateur convergent de V(ˆβ)si les hypothèses A3 et A4 d’homoscédasticité et de
non-corrélation sont en réalité satisfaites. Dans ce derni er cas, il vaut cependant
à nouveau mieux utiliser l’estimateur standard ˆV(ˆβ)= ˆs2(X′X)−1, car il est plus
précis. Pour savoirenpratique quelestimateurde V(ˆβ)utiliser, on peut testersi les
hypothèses A3 et A4 d’homoscédasticité et de non-corrélati on sont ou non remplies.
On a vu à la section précédente comment tester l’hypothèse A3 d’homoscédas-
ticité116. Un test de l’hypothèse A4 de non-corrélation peut être effec tué sur base
de la régression auxiliaire:
ˆet=Xtb+δ1ˆet−1+δ2ˆet−2+…+δpˆet−p+vt (7.26)
càd. delarégressiondesrésidus ˆetsurlesdifférentesvariablesexplicatives(ycompris
l’intercept) du modèle d’intérêt (7.23) et sur les résidus r etardésˆet−1,ˆet−2,…,ˆet−p.
En pratique, ppeut être choisi de façon semblable au paramètre qdeˆVHAC(ˆβ). On
notera que, pour la validité de ce test, il est essentiel de bi en inclure dans cette
régression auxiliaire les différentes variables explicati ves (y compris l’intercept) du
modèle d’intérêt (7.23).
Si l’hypothèse A4 de non-corrélation est vraie, on a Cov(et,et−τ)=E(etet−τ)=
0, pour tout t= 1,…,Tetτ= 1,…,p. Commeˆetest un estimateur convergent
deet, dans la régression auxiliaire (7.26), on s’attend, si l’hy pothèse A4 de non-
corrélation est vraie, à ce que les paramètres δ1,δ2,…,δpdes résidus retardés soient
non significativement différents de zéro.
Cela peut être formellement testé au travers d’un simple F-test de H 0:δ1=
…=δp= 0contre H 1:δ1= 0et/ou … et/ou δp= 0. Comme pour le test
d’hétéroscédasticité, uneautre statistique de test, asym ptotiquement équivalente au
F-test, estcependantplussouventutiliséepourformelleme nttesterlasignificativité
113Par exemple, pour le calcul de l’intervalle de confiance d’un paramètre βj,cela signifie remplacer
l’estimateur standard s.ˆe.(ˆβj)de l’écart-type du paramètre par l’estimateur robuste s.ˆe.HAC(ˆβj), qui est
donné par la racine carré de l’élément (j,j)deˆVHAC(ˆβ).
114A nouveau, pour toutes les procédures d’inférence que nous a vons étudiées, excepté l’intervalle de
prévision de y0sachant(x02,…,x0k).
115L’estimateurrobuste ˆVHAC(ˆβ)utilisépar les logiciels économétriquespeut en pratique ê treune variante
– asymptotiquement équivalente – de l’estimateur donné par (7.25).
116Dans le présent contexte de données chronologiques, il suffit de remplacer l’indice ides observations
par un indice tdes périodes de temps, et le nombre d’observations nparT.
164
jointe des paramètres δ1, …,δpdans la régression auxiliaire (7.26). Il s’agit de la
statistique117:
LMA=T×R2
oùTest la taille d’échantillon et R2est le coefficient de détermination multiple
de la régression auxiliaire (7.26). On peut montrer que, sou s l’hypothèse nulle H 0
de non-corrélation118,LMA∼χ2(p), oùpest égal au nombre des résidus retardés
ˆet−1,ˆet−2,…,ˆet−pinclus dans la régression auxiliaire (7.26), de sorte que la règle de
décision du test au seuil αestdonnée par:
.- Rejet de H0siLMA>χ2
p;1−α
– Non-rejet de H0sinon
où lavaleurcritique χ2
p;1−αestle quantiled’ordre 1−αde laloiχ2(p), etlaP-valeur
de ce test, pour un échantillon particulier où la statistique de test prend la valeur
particulière LM∗
A, est donnée par:
pLMA=IP(v >LM∗
A),oùv∼χ2(p)
Cetestestconnusouslenomde test d’auto-corrélation de Breusch119-Godfrey120.
Onnoteraquecetest,maisaussisaversion F-test,n’estànouveauvalablequ’ asymp-
totiquement , à titre approximatif pour ngrand, et ce même si les ytsont distribués
de façon normale.
7.4.4. Non-normalité
L’hypothèseoptionnelleA6denormaliténousapermisd’obt enirdesprocédures
d’inférence (intervalles de confiance, tests d’hypothèse e t intervalles de prévision)
exactesenéchantillon fini . Toutefois, nous avons vu qu’elle n’était pas essentielle
car, sans cette hypothèse, les mêmes procédures d’inférenc e restent valables asymp-
totiquement , à titre approximatif pour ngrand. Cela est vrai pour toutes les procé-
dures d’inférence que nous avons étudiées, sauf une: l’inte rvalle de prévision pour
la valeur de ysachant (x02,…x0k). La validité de cet intervalle de prévision requiert
en effet que l’hypothèse optionnelle A6 de normalité soit sat isfaite (cf. Section 6.5).
Pour savoir en pratique si cette hypothèse tient ou non, on pe ut la tester.
Un test de l’hypothèse optionnelle A6 de normalité peut être effectué sur base
117L’abréviation‘ LM’decettestatistiquevientànouveaudufait qu’ils’agitd’ untestdit du Multiplicateur
de Lagrange (Lagrange Multiplier test en anglais).
118Si l’hypothèse nulle H 0de non-corrélation est fausse, LMAsuit une loi du khi-carré non-centrale.
119Breusch T.S. (1978), “Testing for Autocorrelation in Dynam ic Linear Models”, Australian Economic
Papers, 17, p.334-355.
120Godfrey L.G. (1978), “Testing for Higher Order Serial Corre lation in Regression Equations when the
Regressors Include Lagged Dependent Variables”, Econometrica , 46, p.1303-1310.
165
de la statistique de test121:
LMN=n
6
ˆα2
1+(ˆα2−3)2
4
,
où:
ˆα1=1
nn
i=1ˆe3
i
ˆσ3,ˆα2=1
nn
i=1ˆe4
i
ˆσ4,ˆei=yi−Xiˆβetˆσ=01121
nn
i=1ˆe2
i
Si l’hypothèse A6 de normalité est vraie, on a ei∼N(0,σ2), de sorte que
α1=E(e3
i
σ3) = 0etα2=E(e4
i
σ4) = 3, pour tout i= 1,…,n, oùα1etα2désignent
respectivementlescoefficientsd’asymétrieetdekurtosisd elaloinormale N(0,σ2)122.
Commeˆα1etˆα2sont des estimateurs convergents de α1etα2, on s’attend, si
l’hypothèse A6 de normalité est vraie, à ce que la statistiqu eLMNprenne des
valeurs proches de zéro. Formellement, on peut montrer que, sous l’hypothèse nulle
H0de normalité123,LMN∼χ2(2), de sorte que la règle de décision du test au seuil
αestdonnée par:.- Rejet de H0siLMN>χ2
2;1−α
– Non-rejet de H0sinon
où lavaleurcritique χ2
2;1−αestlequantile d’ordre 1−αde laloiχ2(2), etlaP-valeur
de ce test, pour un échantillon particulier où la statistique de test prend la valeur
particulière LM∗
H, est donnée par:
pLMN=IP(v >LM∗
H),oùv∼χ2(2)
Cetestestconnusouslenomde test de normalité de Jarque-Bera124. Onnotera
que ce test n’est à nouveau valable qu’ asymptotiquement , à titre approximatif pour
ngrand.
7.4.5. Régresseurs stochastiques
Lorsque nous l’avons introduit, nous avons dit que l’hypoth èse (peu réaliste)
A5 selon laquelle Xest non-stochastique était faite pour des raisons de commod ité
technique,etqu’elleéquivalaitàraisonner,pour Xstochastique,conditionnellement
aux valeurs de Xobservées dans l’échantillon. De fait, l’ensemble des résu ltats que
nousavonsétablispeuventdefaçonéquivalenteêtreobtenu ssurbasedeshypothèses
plus réalistes:
A1′Y=Xβ+e
121L’abréviation‘ LM’decettestatistiquevientànouveaudufait qu’ils’agitd’ untestdit du Multiplicateur
de Lagrange (Lagrange Multiplier test en anglais).
122Cf. l’annexe B de Hill, Griffiths et Lim (2008).
123Si l’hypothèse nulle H 0de normalité est fausse, LMNsuit une loi du khi-carré non-centrale.
124Jarque C.M. et Bera A.K. (1980), “Efficient Tests for Normalit y, Homosckedasticity and Serial Inde-
pendence of Regression Residuals”, Economics Letters , 6, p.255-259.
166
A2′E(e|X)=0⇔E(Y|X)=Xβ
A3′-A4′V(e|X)=σ2I=V(Y|X)
A5′rg(X)=k
A6′(optionnel) e|X∼N(0,σ2I)⇔Y|X∼N(Xβ,σ2I)
Les hypothèses A1′à A6′sont identiques aux hypothèses A1 à A6, à l’exception
du fait que l’hypothèse que Xest non-stochastique est remplacée, pour Xsto-
chastique, par un conditionnement par rapport aux valeurs d eXobservées dans
l’échantillon. Voici, à titre d’exemple, comment on obtien t l’espérance et la ma-
trice de variance-covariance de l’estimateur MCO ˆβsur base de ces hypothèses. De
l’hypothèse A1′Y=Xβ+e, on a:
ˆβ= (X′X)−1X′Y=(X′X)−1X′(Xβ+e)
= (X′X)−1X′Xβ+(X′X)−1X′e
=β+(X′X)−1X′e
de sorte que, de l’hypothèse A2′E(e|X)=0, on obtient125:
E(ˆβ|X) =E$
(β+(X′X)−1X′e)|X%
=β+(X′X)−1X′E(e|X)
=β
CommeE(ˆβ|X)ne dépend pas de X, on a encore126:
E(ˆβ)=E$
E(ˆβ|X)%
=E(β)=β
Si on ajoute l’hypothèse A3′-A4′V(e|X)=σ2I, on obtient par ailleurs:
V(ˆβ|X) =E$
(ˆβ−E(ˆβ|X))(ˆβ−E(ˆβ|X))′|X%
=E$
(ˆβ−β)(ˆβ−β)′|X%
(carE(ˆβ|X)=β)
=E$
(X′X)−1X′ee′X(X′X)−1|X%
(carˆβ−β=(X′X)−1X′e))
= (X′X)−1X′E(ee′|X)X(X′X)−1
=σ2(X′X)−1X′X(X′X)−1(carE(ee′|X)=V(e|X)=σ2I)
=σ2(X′X)−1
Dans les calculs ci-dessus, l’hypothèse A5′n’intervient que pour assurer que
(X′X)est inversible, et donc que l’estimateur MCO est bien défini. On peut, de
façonsemblable,ré-obtenirtouslesrésultatsétablispré cédemment. Ainsi,toutesles
propriétés et procédures d’inférence que nous avons vues so nt de façon équivalente
125Dans le calcul d’une espérance conditionnelle, tout ce qui e st fonction des variables de l’ensemble
conditionnant peut être traité comme une constante.
126Laloi des espérances itérées relie l’espérance conditionnelle et non conditionnelle. D e façon générale,
on a:E(Y)=E[E(Y|X)].
167
valables sous les hypothèses plus réalistes A1′à A5′(+ optionnellement A6′pour
des résultats exacts en échantillon fini).
On notera néanmoins que le conditionnement par rapport à l’e nsemble des
valeurs de X– ou de façon équivalente l’hypothèse que Xest non-stochastique
– n’est pas aussi anodin qu’il n’y paraît à première vue. De fa çon détaillée, pour
chaque observation i, cela signifie par exemple pour l’hypothèse A2′:
E(yi|X)=E(yi|X1,…,Xi,…,Xn)=E(yi|Xi)=Xiβ, i=1,…,n,
oùXi=1xi2···xik
désigne la i-ième ligne de la matrice des observations
X. Autrement dit, cela suppose que E(yi|X)ne dépend en fait que des variables
explicatives Xide l’observation i, et pas des variables explicatives des observations
autres que i. Lorsque cette hypothèse implicite à A2′est satisfaite, on dit que les
variables explicatives sont strictement exogènes .
Si cette hypothèse d’ exogénéité stricte est naturelle lorsqu’on analyse des don-
nées en coupe , où – pour des raisons d’échantillonnage127ou de modélisation –
les observations peuvent être considérées comme indépenda ntes d’un individu ià
l’autre, il n’en va pas de même lorsqu’on analyse des données chronologiques ou
séries temporelles au travers du modèle:
Y=Xβ+e
⇔yt=Xtβ+et, t=1,…,T,
oùXt=1xt2···xtk
désigne la t-ième ligne de la matrice des observations
X.
Dans ce cas, l’hypothèse d’ exogénéité stricte inclue dans A2′requiert que:
E(yt|X)=E(yt|X1,…,Xt,…,XT)=E(yt|Xt)=Xtβ, t=1,…,T,
autrement dit que E(yt|X)ne dépende en fait que des variables explicatives Xt
de la période t, et pas des variables explicatives des périodes autres (pas sées ou
futures) que t.Cette hypothèse est assez restrictive car elle exclut par ex emple
tout phénomène de ‘feedback’ (i.e., la variable ytinfluence les valeurs futures Xt+1,
Xt+2,… des variables explicatives), ou encore la présence de variables dépendantes
retardées parmi les variables explicatives, comme dans le modèle dynamique auto-
régressif(à l’ordre 1):
yt=β1+β2yt−1+et, t=1,…,T (7.27)
En effet, pour ce modèle dynamique, on a Xt=1yt−1
, de sorte que:
E(yt|X) =E(yt|1,y0,y1,…,yt,…,yT−1)=yt
=E(yt|Xt)=β1+β2yt−1, t=1,…,T,
autrement dit, l’hypothèse d’exogénéité stricte n’est pas satisfaite.
127Pour rappel, si les observations sont obtenues par tirage al éatoire avec remise – ou sans remise, si
l’échantillon est petit par rapport à la population – d’indi vidus dans une population, elles sont par
construction indépendantes.
168
Il apparaît ainsi que les hypothèses A1′à A6′– ou de façon équivalente les hy-
pothèsesA1àA6quisupposentque Xestnon-stochastique128–sontgénéralement
trop restrictives pour l’analyse des données chronologiqu es ou séries temporelles.
Heureusement, pour l’analyse de ces séries, on peut montrer que les propriétés et
procédures d’inférence que nous avons établies sont toujou rs valables sous les hy-
pothèses moins restrictives:
A1′′yt=Xtβ+et
A2′′E(et|Xt)=0⇔E(yt|Xt)=Xtβ
A3′′Var(et|Xt)=σ2=V(yt|Xt)
A4′′Cov(et,es|Xt,Xs)=0=Cov(yt,ys|Xt,Xs),∀t=s
A5′′rg(X)=k
A6′′(optionnel) et|Xt∼N(0,σ2)⇔Yt|Xt∼N(Xtβ,σ2)
Comme le conditionnement n’est pas fait sur l’ensemble des v aleurs deX, mais
seulementparrapportà Xt,ceshypothèsesn’incluentaucunehypothèsed’exogénéité
stricte des variables explicatives. On peut montrer que, so us ces hypothèses A1′′à
A5′′(+optionnellementA6′′)lespropriétésetprocéduresd’inférencequenousavons
établies sont toujours valables, mais seulement asymptotiquement , à titre approxi-
matif pour ngrand, et ce même si les ytsont distribués de façon normale129. Ainsi
par exemple, sous ces hypothèses, l’estimateur MCO ˆβn’est plus non biaisé, mais
seulement convergent. Cela ne change cependant en pratique rien quand à la façon
d’estimer les paramètres du modèle, de calculer des interva lles de confiance ou des
tests d’hypothèse, etc…
128Dans le modèle dynamique (7.27) qui comprend la variable dép endante retardée comme variable ex-
plicative, on ne peut évidemment pas supposer que Xest non-stochastique.
129L’hypothèseoptionnelleA6′′n’esticiplusutilequepourl’intervalledeprévisionde y0sachant(x02,…x0k).
169
Chapitre8
Variables binaires et modèle logit/probit
Unevariable binaire (on dit aussi variable dichotomique ouvariable muette )130
est une variable qui peut prendre seulement deux valeurs dis tinctes, par convention
0et1, etqui est utilisée pourindiquerla présence ou l’absenced ’une caractéristique
donnée, ou encore la survenance d’un événement particulier . Par exemple:
Di=.
1si l’individu iest un homme
0sinon
Dt=.
1sit=1940,…,1945(années de guerre)
0sinon
yi=.
1si l’individu iest à l’emploi
0sinon
Commelesuggèrentlesexemplesci-dessus,unevariablebin airepeutêtreutilisée
tant comme variable explicative que comme variable dépenda nte (expliquée).
8.1. Variables explicatives binaires
Les principales utilisations des variables binaires en tan t que variables explica-
tives sont décrites ci-dessous au travers d’exemples.
8.1.1. Comparaison de deux moyennes
Onsupposequ’onsouhaiteestimerlessalairesmoyensdesho mmesetdesfemmes
dansunepopulation, ettesters’ils sontou nondifférents. P ourcela, onpeututiliser
le modèle:
yi=β1+β2Di+ei, (8.1)
130En anglais, binary variable oudummy variable .
170
où:yi=le salaire de l’individu i
Di=1si l’individu iest un homme, 0 sinon
Pour ce modèle, on a:
E(yi|Di=0)=β1 (i.e., le salaire moyen des femmes)
E(yi|Di=1)=β1+β2(i.e., le salaire moyen des hommes)
etuntestde l’égalité des salaires moyens des hommes etdes f emmes revient àtester
H0:β2=0contre H1:β2=0.
On notera les points suivants:
1-En arrangeant les observations de telle sorte que les n1premières regroupent les
femmesetles n2dernièresregroupentleshommes(lenombretotald’observa tions
étantn=n1+n2), la matrice des observations Xdu modèle (8.1) ci-dessus
s’écrit:
X=
1 0
……
1 0
1 1
……
1 1
n1observations
n2observations
Onvérifiedèslorsaisément(faites-le!) quel’estimateurM COˆβ=(X′X)−1X′Y
est égal à:
ˆβ=ˆβ1
ˆβ2
=
n1+n2n2
n2n2−1
n1¯y1+n2¯y2
n2¯y2
=
¯y1
¯y2−¯y1
où¯y1est le salaire moyen des femmes dans l’échantillon, et ¯y2est le salaire
moyen des hommes dans l’échantillon.
2-Au lieu du modèle (8.1), de façon totalement équivalente, on pourrait utiliser le
modèle:
yi=β1D1i+β2D2i+ei, (8.2)
où:D1i=1si l’individu iest une femme, 0 sinon
D2i=1si l’individu iest un homme, 0 sinon
Notons que D2i=1−D1i. Pour ce modèle, on a:
E(yi|D1i=1,D2i=0)=β1(i.e., le salaire moyen des femmes)
E(yi|D1i=0,D2i=1)=β2(i.e., le salaire moyen des hommes)
et un test de l’égalité des salaires moyens des hommes et des f emmes revient
à tester H 0:β1−β2= 0contre H 1:β1−β2= 0. Pour ce modèle (8.2),
en arrangeant les observations comme au point (1) ci-dessus , la matrice des
171
observations Xs’écrit:
X=
1 0
……
1 0
0 1
……
0 1
n1observations
n2observations
et on vérifie aisément (faites-le!) que l’estimateur MCO ˆβ=(X′X)−1X′Yest
égal à:
ˆβ=ˆβ1
ˆβ2
=
n10
0n2−1
n1¯y1
n2¯y2
=
¯y1
¯y2
3-Par contre, on ne peut pas utiliser le modèle:
yi=β1+β2D1i+β3D2i+ei,
car pour ce modèle, les variables de la matrice des observati onsXsontparfaite-
ment colinéaires :
X=
1 1 0
………
1 1 0
1 0 1
………
1 0 1
n1observations
n2observations
Lapremièrecolonnede Xestégaleàlasommedesdeuxdernières( D1i+D2i=1,
∀i).
8.1.2. Comparaison de plusieurs moyennes
On suppose qu’on souhaite estimer les salaires moyens des tr ois régions du pays,
et tester s’ils sont ou non différents. Pour cela, on peut util iser le modèle:
yi=β1+β2DBi+β3DFi+ei, (8.3)
où:yi=le salaire de l’individu i
DBi=1si l’individu iest bruxellois, 0 sinon
DFi=1si l’individu iest flamand, 0 sinon
Pour ce modèle, on a:
E(yi|DBi=0,DFi=0)=β1 (i.e., le salaire moyen des wallons)
E(yi|DBi=1,DFi=0)=β1+β2(i.e., le salaire moyen des bruxellois)
E(yi|DBi=0,DFi=1)=β1+β3(i.e., le salaire moyen des flamands)
172
Pour tester l’égalité des salaires moyens dans les trois rég ions, il suffit de tester
H0:β2=β3=0contre H1:β2=0et/ouβ3=0. Pour tester l’égalité des salaires
moyens entre Wallonie et Flandre, on testera H 0:β3=0contre H1:β3=0, etc…
On notera encore les points suivants:
1-De façon semblable au cas de la comparaison de deux moyenne s, on peut facile-
ment montrer que l’estimateur MCO du modèle (8.3) est simple ment égal à
ˆβ1= ¯yW,ˆβ2= ¯yB−¯yWetˆβ3= ¯yF−¯yW, où¯yW,¯yBet¯yFdésignent, respec-
tivement, le salaire moyen dans l’échantillon des wallons, des bruxellois et des
flamands.
2-Anouveau,aulieudumodèle(8.3),defaçontotalementéqu ivalente,onpourrait
utiliser le modèle (attention au changement de significatio n des paramètres):
yi=β1DWi+β2DBi+β3DFi+ei,
oùDWi=1si l’individu iest wallon, 0 sinon, mais pasle modèle (pour cause
de colinéarité parfaite):
yi=β1+β2DWi+β3DBi+β4DFi+ei
8.1.3. Plusieurs critères de classification
On suppose qu’on souhaite estimer le salaire d’un individu e n fonction de son
sexe et de son niveau d’éducation répartit selon trois nivea ux: primaire, secondaire
et supérieur. Pour cela, on peut utiliser le modèle:
yi=β1+β2DFi+β3DPi+β4DSeci+ei, (8.4)
où:yi=le salaire de l’individu i
DFi=1si l’individu iest une femme, 0 sinon
DPi=1si l’individu ipossède au plus un diplôme
de l’enseignement primaire, 0 sinon
DSeci=1si l’individu ipossède au plus un diplôme
de l’enseignement secondaire, 0 sinon
Pour ce modèle, on a:
E(yi|.)Primaire
(DPi=1,DSeci=0)Secondaire
(DPi=0,DSeci=1)Supérieur
(DPi=0,DSeci=0)
Homme
(DFi=0)β1+β3 β1+β4 β1
Femme
(DFi=1)β1+β2+β3 β1+β2+β4 β1+β2
Sur base de ce modèle, pour tester s’il y a une différence de sal aire moyen entre
les hommes et les femmes, on testera H 0:β2=0contre H1:β2=0. Pour tester
si les diplômés de l’enseignement supérieur ont un salaire m oyen plus élévé que les
173
diplômés de l’enseignement secondaire, on testera H 0:β4≥0contre H1:β4<0,
etc…
Plusieurs points méritent d’être épinglés:
1-Dans le modèle (8.4) ci-dessus, les estimateurs MCO ˆβ1,ˆβ2,ˆβ3etˆβ4ne
correspondent plus, comme précédemment, à des moyennes ou d ifférences de
moyennes des salaires observés par catégorie dans l’échant illon(par exemple, ˆβ1
n’est pas égal au salaire moyen dans l’échantillon des homme s ayant un diplôme
de l’enseignement supérieur): il est en effet impossible de c apturer 6 moyennes
différentes (= nbr. de catégories distinguées) avec seuleme nt 4 paramètres.
2-Anouveau,aulieudumodèle(8.4),defaçontotalementéqu ivalente,onpourrait
utiliser le modèle (attention au changement de significatio n des paramètres):
yi=β1DHi+β2DFi+β3DPi+β4DSeci+ei,
oùDHi= 1si l’individu iest un homme, 0 sinon, mais pasle modèle (pour
cause de colinéarité parfaite):
yi=β1DHi+β2DFi+β3DPi+β4DSeci+β4DSupi+ei,
oùDSupi=1si l’individu ipossède un diplôme de l’enseignement supérieur, 0
sinon. En effet, on a:
(DHi+DFi)=(DPi+DSeci+DSupi),∀i
Le modèle (8.4) ci-dessus suppose que la différence de salair e moyen entre les
hommes et les femmes est la même quel que soit le niveau d’éduc ation, ou ce qui
revientaumême,quelesdifférencesdesalairesmoyensentre lesniveauxd’éducation
sontlesmêmesquelquesoitlesexe. Onpeutrelachercettehy pothèseenconsidérant
le modèle:
yi=β1+β2DFi+β3DPi+β4DSeci+β5(DFiDPi)+β6(DFiDSeci)+ei,(8.5)
Pour ce modèle, on a:
E(yi|.)Primaire
(DPi=1,DSeci=0)Secondaire
(DPi=0,DSeci=1)Supérieur
(DPi=0,DSeci=0)
Homme
(DFi=0)β1+β3 β1+β4 β1
Femme
(DFi=1)β1+β2+β3+β5β1+β2+β4+β6 β1+β2
Sur base de ce modèle, on peut tester la pertinence du modèle p lus restrictif
(8.4) en testant H 0:β5=β6=0contre H1:β5=0et/ouβ6=0. Pour tester s’il
y a une différence de salaire moyen entre les hommes et les femm es, on testera ici
H0:β2=β5=β6=0contre H1:β2=0et/ouβ5=0et/ouβ6=0, etc…
174
On notera pour conclure que dans le modèle (8.5), qui est tota lement non con-
traint (et qui pourrait être reparamétrisé en utilisant une variable binaire pour
chacune des 6catégories distinguées), les estimateurs MCO ˆβjcorrespondent ànou-
veau à des moyennes ou différences de moyennes des salaires ob servés par catégorie
dans l’échantillon(par exemple, ˆβ1est ici égal au salaire moyen dans l’échantillon
des hommes ayant un diplôme de l’enseignement supérieur ).
8.1.4. Modifications d’intercept et/ou de pente dans une
régression standard
On suppose qu’on souhaite estimer une fonction de consommat ion au niveau
macroéconomique sur la période 1930-1950. Durant les année s de guerre (1940-
1945), le niveau de consommation a toutes les chances d’être hors norme. Pour en
tenir compte, on peut utiliser le modèle:
yt=β1+β2Dt+β3xt+et, (8.6)
où:yt=la consommation de l’année t(par habitant)
xt=le revenu (PIB) de l’année t(par habitant)
Dt=1sit=1940,1941,…,1945, 0 sinon
Graphiquement:
xtyt
2(temps de guerre) (temps de paix) yt13xt
= temps de paix
= temps de guerre yt123xt
Graphique 46: La fonction de consommation estimée
Dans le modèle (8.6) ci-dessus, on suppose que les années de g uerre ont modifié
le niveau de consommation (l’intercept), mais pas la propen sion marginale à con-
sommer (la pente). Pour tenir compte de ce dernier élément, o n peut utiliser le
modèle plus général:
yi=β1+β2Dt+β3xt+β4Dtxt+et, (8.7)
175
Graphiquement:
xtyt
34
12Eytxt,Dt13
1Eytxt,Dt0
(Temps de guerre) =12 34xt=13xt
(Temps de paix)
Graphique 47: La forme du modèle (8.7)
Sur base du modèle (8.7), on peut tester si la consommation de s années de
guerre se différencie ou non de la consommation des années de p aix en testant H 0:
β2=β4=0contre H1:β2=0et/ouβ4=0.
Comme autre exemple de l’utilisation de variables binaires pour modifier
l’interceptet/oulapented’unerégressionstandard,supp osonsqu’onsouhaitetester
s’il existe une discrimination salariale entre les hommes e t le femmes. Pour cela, on
peut utiliser le modèle:
yi=β1+β2DFi+β3Educi+β4Expi+ei, (8.8)
où:yi=le salaire de l’individu i
DFi=1si l’individu iest une femme, 0 sinon
Educi=le nbr. d’années d’étude de l’individu i
Expi=le nbr. d’années d’expérience professionnelle de l’indivi dui
Sur base de ce modèle, pour tester s’il y a discrimination (i. e., si les salaires
moyensdeshommesetdesfemmes pour un même niveau d’éducation et d’expérience
professionnelle sont ou non différents), on testera H 0:β2=0contre H1:β2=0.
Le modèle (8.8) ci-dessus suppose que le niveau d’éducation et l’expérience pro-
fessionnelle ont le même effet sur le salaire moyen des hommes et des femmes. Pour
vérifier cette conjecture, et donc la pertinence de ce modèle , on peut utiliser le
modèle plus général:
yi=β1+β2DFi+β3Educi+β4Expi+β5(DFiEduci)+β6(DFiExpi)+ei,(8.9)
Sur base de ce modèle plus général, le test de la conjecture re vient à tester H 0:
β5=β6=0contre H1:β5=0et/ouβ6=0. Par ailleurs, le test de la présence
d’une discrimination salariale – ou à tout le moins de l’exis tence d’une différence
salarialeentreleshommesetlesfemmesdemêmeniveaud’édu cationetd’expérience
professionnelle – revient à tester H 0:β2=β5=β6=0contre H1:β2=0et/ou
β5=0et/ouβ6=0.
176
Lestestsdecederniertype,quiconsisteàtesterl’égalité derégressionsdansdeux
(ouplusieurs)sous-populations(dansnotreexemple,lesh ommesetlesfemmes),sont
appelés des tests de Chow131. Dans le cadre de l’analyse de données chronologiques,
comme dans le cas du test de H 0:β2=β4= 0contre H1:β2= 0et/ouβ4=0
dans le modèle (8.7), on parle de tests de changement structurel .
8.2. Variables binaires dépendantes
L’utilisation d’une variable binaire comme variable dépen dante (expliquée) per-
met de modéliser la probabilité de posséder une caractérist ique donnée, ou la surve-
nance d’un événement particulier, en fonction d’une ou plus ieurs variables explica-
tives.
Supposons qu’on s’intéresse aux chances qu’un jeune trouve un emploi dans les
sixmoissuivantsasortiedesétudes, etcecien fonctiondel alongueurdesesétudes.
C’est notre relation d’intérêt.
Commedanslecasdumodèlederégression(simpleoumultiple ), onchercheune
contrepartie empirique delarelationd’intérêt,unecontrepartieempiriqueprena ntla
forme d’un modèle probabiliste paramétré , et on regarde les données dont on dispose
comme des réalisations particulières des variables aléatoires de ce modèle, pour une
valeur particulière des paramètres du modèle.
Pour examiner les liens existants entre le fait de trouver un emploi dans les six
mois de la sortie des études et le niveau d’éducation, il est n aturel de s’appuyer sur
des données en coupe obtenues par tirages aléatoires d’indi vidus dans la population
des jeunes sortant des études au cours d’une année civile don née.
Notonsyunevariablebinairequiprendlavaleur 1siunjeunesortantdesétudes
trouve un emploi dans les six mois, et 0sinon, etxle niveau d’éducation (nombre
d’années d’études) du jeune.
Au travers de l’épreuve aléatoire ‘tirer un jeune au hasard d ans la population
et noter la valeur de y(1s’il trouve du travail dans les six mois de la sortie de ses
études,0sinon) et de x(son niveau d’éducation)’, on peut représenter lapopulati on
par une distribution de probabilité jointe f(y,x), qui correspond à la distribution de
fréquence des couples de variables (y,x)dans la population.
Lorsqu’on cherche à expliquer yen fonction de x, l’information pertinente est
concentrée dans la distribution conditionnelle f(y|x)qui, pour chaque valeur de
x, correspond à la distribution de fréquence des différentes v aleurs deydans la
population. Comme yest une variable binaire, cette distribution conditionnel le est
simplementuneloi(conditionnelle)deBernoulli B(p(x)),dontlafonctiondedensité
est donnée par:
f(y|x)=p(x)y(1−p(x))1−y,∀y=0,1,
131Chow G.C. (1960), “Tests of Equality Between Sets of Coefficie nts in Two Linear Regressions”, Econo-
metrica, 52, p.221-222.
177
oùp(x)est, pour chaque valeur de x, la probabilité que ysoit égal à 1:
IP(y=1|x)=f(1|x)=p(x),
tandis que la probabilité que ysoit égal à0est donnée par:
IP(y=0|x)=1−IP(y=1|x)=f(0|x)=1−p(x)
La distribution conditionnelle f(y|x)– i.e., la loi (conditionnelle) de Bernoulli
B(p(x))– est entièrement déterminée par la probabilité conditionn elle
IP(y= 1|x) =p(x)qui, pour chaque valeur de x, correspond à la proportion (ou
fréquence) des yqui prennent la valeur 1dans la population, autrement dit, pour
notre exemple, la proportion des jeunes quitrouventun empl oi dans les 6 mois de la
sortie de leurs études. Cette probabilité conditionnelle IP(y=1|x)=p(x)constitue
la contrepartie empirique de la relation d’intérêt.
La probabilité conditionnelle IP(y=1|x)=p(x)définit un modèle probabiliste
de la relation d’intérêt. On obtient un modèle probabiliste paramétré de la relation
d’intérêtsionsupposeuneformefonctionnelle,dépendant deparamètres,pour p(x).
De façon générale:
IP(y=1|x)=p(x,β),
oùβest un vecteur de paramètres. La seule restriction que doit s atisfairep(x,β)
est qu’elle doit toujours être comprise entre 0et1, quels que soient xetβ132.
Nous avons raisonné ci-dessus en supposant, pour faire simp le, qu’il n’y avait
qu’une variable explicative. Lorsqu’on considère plusieu rs variables explicatives
(x2,…,xk), la distribution conditionnelle f(y|x2,…,xk)pertinente est une loi (con-
ditionnelle) de Bernoulli B(p(x2,…,xk)), dontla fonction de densité est donnée par:
f(y|x2,…,xk)=p(x2,…,xk)y(1−p(x2,…,xk))1−y,∀y=0,1,
oùp(x2,…,xk)est, pour chaque valeur de (x2,…,xk), la probabilité que ysoit égal
à 1:
IP(y=1|x2,…,xk)=f(1|x2,…,xk)=p(x2,…,xk),
tandis que la probabilité que ysoit égal à0est donnée par:
IP(y=0|x2,…,xk)=f(0|x2,…,xk)=1−p(x2,…,xk)
Comme dans le cas simple, la distribution conditionnelle f(y|x2,…,xk)est
entièrement déterminée par la probabilité conditionnelle IP(y=1|x2,…,xk)=p(x2,
…,xk)qui, pour chaque valeur des variables (x2,…,xk), correspond à la proportion
(ou fréquence) des yqui prennent la valeur 1dans la population. Cette probabilité
conditionnelle IP(y= 1|x2,…,xk) =p(x2,…,xk)définit un modèle probabiliste de
la relation d’intérêt, et un modèle probabiliste paramétré de cette relation d’intérêt
est obtenu en choisissant une forme fonctionnelle, dépenda nt de paramètres, pour
132Car une probabilité est toujours comprise entre 0et1.
178
p(x2,…,xk). De façon générale:
IP(y=1|x2,…,xk)=p(x2,…,xk;β),
oùβestunvecteurdeparamètres. Anouveau,laseulerestrictio nquedoitsatisfaire
p(x2,…,xk;β)est qu’elle doit toujours être comprise entre 0et1, quels que soient
(x2,…,xk)etβ.
Si les observations sont obtenues par tirages aléatoires d’ individus dans la po-
pulationetquelemodèleestcorrectementspécifié(i.e.,la formefonctionnellechoisie
est correcte), chaque observation (yi,Xi), oùXi=(x2,…,xk), est telle que:
IP(yi=1|Xi)=p(Xi,β) (8.10)
et
f(yi|Xi;β)=p(Xi,β)yi(1−p(Xi,β))1−yi, i=1,…,n, (8.11)
oùβest un vecteur de paramètres inconnus à estimer et, avant obs ervation,yiet
Xisont des variables aléatoires.
8.2.1. Le modèle de probabilité linéaire
Une caractéristique remarquable de la distribution condit ionnelle (8.11) – i.e.,
laloi(conditionnelle)de Bernoulli B(p(Xi,β))–estquep(Xi,β)estnon seulement
égal à la probabilité conditionnelle IP(yi= 1|Xi)queyisoit égal à1sachantXi,
mais aussi à l’espérance conditionnelle E(yi|Xi)deyisachant de Xi. En effet, on a:
E(yi|Xi) =
yiyif(yi|Xi;β)=0×(1−p(Xi,β))+1×p(Xi,β)
=p(Xi,β)=IP(yi=1|Xi)
Ainsi,sionprendpour p(Xi,β)lasimplefonctionlinéaire p(Xi,β)=β1+β2xi2+
…+βkxik, on peut réécrire le modèle, qui est alors appelé modèle de probabilité
linéaire, sous la forme du modèle de régression linéaire:
yi=β1+β2xi2+…+βkxik+ei
=Xiβ+ei, i=1,…,n, (8.12)
oùXiest redéfini de façon à inclure une constante133:Xi=1xi2···xik
.
Si cette forme fonctionnelle linéaire est correcte, les hyp othèses standard A1,
A2 et A5 (ou A1′, A2′et A5′siXest stochastique) de la régression (8.12) sont
satisfaites, de sorte qu’un estimateur non biaisé du vecteu r de paramètres βest
simplement donné par l’estimateur MCO ˆβ=(X′X)−1X′Yde cette régression.
133Dans la suite, Xisera toujours défini de cette façon, y compris lorsque Xireprésente l’ensemble des
variables explicatives, car les ensembles conditionnants (x2,…,xk)et(1,×2,…,xk)sont équivalents (l’ajout
de la constante n’apporte aucune information complémentai re).
179
Cettefaçondeprocéder–choixd’uneformefonctionnelleli néairepour p(Xi,β)
etestimationdesparamètres parl’estimateurMCOstandard –posetoutefois deux
problèmes:
1-le choix de la forme linéaire Xiβpourp(Xi,β)ne garantit pas que laprobabilité
conditionnelle IP(yi=1|Xi)soittoujourscompriseentre0et1. Pourcertains Xi,
elle peut très bien être inférieure à 0, ou supérieure à 1. Vu autrement, la forme
fonctionnelle linéaire p(Xi,β)=Xiβsuppose que l’effet marginal des différentes
variablesxijsur la probabilité que yisoit égal à 1 est constant, i.e.,∂p(Xi,β)
∂xij=βj
(uneconstante). C’estimpossible,carsiceteffetmarginal estconstant,lorsqu’on
augmentexij, on finira forcément par obtenir une probabilité supérieure à1, et
lorsqu’on diminue xij, on finira de même forcément par obtenir une probabilité
inférieure à0. Cet effet marginal ne peut donc pas être constant.
2-SileshypothèsesstandardA1,A2etA5(ouA1′,A2′etA5′siXeststochastique)
de la régression (8.12) sont satisfaites, il n’en va pas de mê me de l’hypothèse A3
(ou A3′siXest stochastique) d’homoscédasticité134. En effet, on a:
Var(yi|Xi) =
yi(yi−E(yi|Xi))2f(yi|Xi;β)
= (0−p(Xi,β))2×(1−p(Xi,β))+(1−p(Xi,β))2×p(Xi,β)
=p(Xi,β)(1−p(Xi,β))=Xiβ(1−Xiβ),
autrement dit, la variance conditionnelle Var(yi|Xi)n’est pas une constante,
mais une fonction de Xi.
Commenousl’avonsvuàlaSection7.4.3,laviolationdel’hy pothèsed’homoscé-
dasticité n’empêche pas l’estimateur MCO standard d’être n on biaisé, et il peut
donc toujours être utilisé. Par contre, (a) cet estimateur n ’est plus celui qui
a la plus petite (au sens matriciel) matrice de variance-cov ariance parmi les
estimateurs linéaires sans biais de βet (b) les procédures d’inférence standard
qui lui sont associées ne sont plus valables. On sait qu’on pe ut résoudre le pro-
blèmedelavaliditédesprocéduresd’inférenceenutilisan tl’estimateurrobusteà
l’hétéroscédasticité ˆVHC(ˆβ)delamatricedevariance-covariancedel’estimateur
MCOenlieuetplacedel’estimateurstandard ˆV(ˆβ)=ˆs2(X′X)−1.Ceproblème
n’en est donc pas vraiment un. Le fait que l’estimateur MCO n’ est pas optimal
en termes de précision d’estimation – on dit qu’il n’est pas efficace– est plus
ennuyeux car ce type de modèle avec une variable binaire dépe ndante requiert
typiquement un échantillon assez grand pour obtenir des est imations précises.
Utiliserunestimateurefficaceestdoncdansleprésentconte xteassezimportant.
Ces limitations n’empêchent pas que le modèle de probabilit é linéaire puisse
utilementêtreutilisédanscertainessituations135. Onluipréfèrecependantgénérale-
ment les modèles logit et probit développés ci-dessous, plu s complexe à interpréter
134Les observations étant supposées être obtenues par tirages aléatoires – avec remise, ou sans remise,
si l’échantillon est petit par rapport à la population – d’in dividus dans la population, elles sont par
construction indépendantes, et donc non-corrélées. L’hyp othèse A4 (ou A4′si X est stochastique) de
non-corrélation est donc sensée être automatiquement sati sfaite.
135Pour une discussion de ce point, voir Wooldridge (2010), Ch 1 5, dont la référence complète est donnée
dans le préambule des notes.
180
et à estimer, mais qui n’ont pas ces limitations.
8.2.2. Les modèles logit et probit I: spécification
Le modèle logit et le modèle probit sont tous les deux un cas pa rticulier du
modèle général:
IP(yi=1|Xi) =p(Xi,β)=G(β1+β2xi2+…+βkxik)
=G(Xiβ)i=1,…,n, (8.13)
oùG(.)est une fonction dont les valeurs sont toujours comprises en tre 0 et 1:
0<G(z)<1, pour tout z.
Danscemodèle,laprobabilitéconditionnelle IP(yi=1|Xi)dépenddeXiunique-
ment au travers de l’ indexXiβ,la fonction G(.)étant la fonction de lien entre cet
index et la probabilité IP(yi= 1|Xi). La fonction de lien G(.)assure que la pro-
babilité IP(yi=1|Xi)est toujours comprise entre 0et1136. On notera que l’index
Xiβest supposé être une fonction linéaire, mais uniquement une fonction linéaire
dans les paramètres , pas nécessairement dans les variables: les variables xijpeuvent
être des transformations – par exemple le logarithme – des va riables originales,
ou inclure des carrés et des produits croisés de variables co mme dans une régression
polynomiale. L’index Xiβpeutégalementincluredesvariablesexplicativesbinaire s.
Diverses fonctions non-linéaires peuvent être utilisées p our la fonction de lien
G(.). Dans le modèle logit , la fonction G(.)est la fonction logistique:
G(z)=ez
1+ez(8.14)
Cette fonction logistique est la fonction de répartition137d’une variable aléatoire
distribuée selon une loi logistique standard138. Dans le modèle probit , la fonction
G(.)estlafonctionde répartitiond’une variable aléatoire nor male standardisée (qui
ne possède pas de forme analytique explicite):
G(z)=z6
−∞φ(x)dx, (8.15)
oùφ(x)est la fonction de densité de la loi normale standardisée: φ(x)=1√
2πe−1
2×2.
136Dans le modèle de probabilité linéaire, G(z)=z, d’où le fait que la probabilité IP(yi=1|Xi)n’est pas
nécessairement comprise entre 0et1.
137Pourrappel, lafonctionderépartition F(x)d’unevariablealéatoire Xestdéfiniepar F(x)=IP(X≤x).
138Une variable aléatoire Xest distribuée selon une loi logistique standard si sa fonct ion de densité est
donnée par f(x) =ex
(1+ex)2. Cette fonction de densité ressemble à celle d’une loi norma le standardisée
(forme en cloche, centrée en zéro et symétrique), mais avec u ne dispersion (variance) plus importante (cf.
le Graphique 49 infra).
181
Graphiquement:
Gz
01
0,5
20probit
4 4 3 1 123 zlogit
Graphique 48: La fonction de lien G(z)des modèles logit et probit
Comme on peut le voir, tant pour la fonction de lien logit que p robit,G(z)est
une fonction strictement croissante de z,G(0)=0,5,G(z)→0lorsquez→−∞,
etG(z)→1lorsquez→+∞.
Lorsque, comme dans le cas du modèle logit et du modèle probit , la fonction
de lienG(z)correspond à la fonction de répartition d’une variable aléa toire dont la
fonction de densité est symétrique par rapport à zéro, le mod èle général (8.13) peut
être interprété comme dérivé du modèle à variable latente :
.
y∗
i=Xiβ+ei
yi=1siy∗
i>0, 0 sinon, (8.16)
oùy∗
iest une variable non observable, ou latente, qui est supposée être égale à
une fonction linéaire Xiβdes variables explicatives Xiplus un terme d’erreur ei
indépendant de Xi, etyiune variable binaire observable, qui prend la valeur 1si
y∗
i>0, 0 sinon.
Un exemple classique d’un tel modèle est un modèle de décisio n basé sur une
fonctiond’utilitéaléatoire. Supposonsque y∗
idésignel’utilitéd’unindividu ilorsqu’il
se rendau travail entransportencommun(plutôt qu’avec una utre moyen detrans-
port). Cette utilité est supposée dépendre, d’une part, au t ravers deXiβ,d’un
certain nombre de variables telles que le temps de trajet sup plémentaire (qui peut
être négatif) que représente le fait de prendre les transpor ts en commun (plutôt
qu’un autre moyen de transport), du sexe de l’indivdu, de son âge, etc…, et d’autre
part, d’un terme aléatoire eiqui représente les préférences personnelles de l’individu
i.La présence de ce terme aléatoire eifait que l’utilité y∗
iest aléatoire. L’utilité y∗
i
de l’individu ilorsqu’il se rend au travail en transport en commun (plutôt q u’avec
un autre moyen de transport) n’est pas observable. Mais son c hoix, représenté par
la variable binaire yi, de prendre ou non les transports en commun l’est, et on sup-
pose qu’il prend les transports en commun (yi=1)si son utilité y∗
iest positive, et
qu’il prend un autre moyen de transport (yi=0)sinon.
182
Si la distribution du terme d’erreur ei– qui dans notre exemple représente
les préférences personnelles de l’individu i– est symétrique par rapport à zéro,
et que l’on désigne par G(z)la fonction de répartition de cette distribution, i.e.,
G(z)=IP(ei≤z), on a:
1−G(−z)=G(z)(car la distrib. de eiest symétrique),
de sorte qu’on obtient:
IP(yi=1|Xi) =IP(y∗
i>0|Xi)=IP(Xiβ+ei>0|Xi)
=IP(ei>−Xiβ|Xi)=1−IP(ei≤−Xiβ|Xi)
= 1−IP(ei≤−Xiβ)(careiest indépendant de Xi)
= 1−G(−Xiβ)=G(Xiβ),
ce qui est exactement le modèle (8.13). Dans le cas du modèle l ogit, la distribution
du terme d’erreur eicorrespond à une loi logistique standard, et dans le cas du
modèle probit, à une loi normale standardisée.
Dans la plupart des applications empiriques des modèles log it et probit, on
est avant tout intéressé par l’effet marginal des différentes variables explicatives xij
– les autres variables étant maintenues constantes – sur la p robabilité
IP(yi= 1|Xi). La formulation du modèle dans les termes du modèle à variabl e
latente (8.16) pourrait laisser croire qu’on est avant tout intéressé par l’effet mar-
ginal des différentes variables explicatives xijsur la variable latente y∗
i.Ce n’est
généralement pas le cas. La variable latente y∗
iest, le plus souvent, une construc-
tion de l’esprit (comme dans le modèle de décision basé sur un e fonction d’utilité
aléatoire): elle est typiquement non observable et possède rarement une unité de
mesure bien définie, de sorte que les valeurs précises des par amètresβ1,…,βkn’ont
en elles-mêmes que peu d’intérêt. Comme nous le verrons ci-d essous, le signe ou
l’éventuelle nullité de ces paramètres est par contre impor tant. En bref, sauf cas
(très) particulier, il ne faut pas accorder trop d’importan ce à l’interprétation en
termes de variable latente des modèles logit et probit.
Lecalculdel’effetmarginaldesdifférentesvariablesexpli cativesxij–lesautres
variables étant maintenues constantes – sur la probabilité IP(yi=1|Xi)est rendu
compliqué par la forme non-linéaire (8.13) des modèles logi t et probit. L’effet mar-
ginal de la variable xijsur la probabilité IP(yi=1|Xi)est donné par:
∂IP(yi=1|Xi)
∂xij=g(Xiβ)βj, (8.17)
oùg(z)=dG(z)
dzest donné, pour le modèle logit, par:
g(z)=ez
(1+ez)2, (8.18)
et pour le modèle probit, par:
g(z)=1√
2πe−1
2z2, (8.19)
183
càd. par la fonction de densité de, respectivement, la loi lo gistique standard et la
loi normale standardisée. Graphiquement:
gz
02probit
4 4 30,2
123 zlogit
10,3 0,4
0,1
Graphique 49: La fonction g(z)=dG(z)
dzdes modèles logit et probit
Comme la fonction g(.)est toujours positive, l’effet marginal∂IP(yi=1|Xi)
∂xijest
toujours du même signe que βj. Son ampleur varie cependant en fonction de toutes
les variables explicatives Xiau travers de g(Xiβ).Tant dans le modèle logit que
dans le modèle probit, pour βjfixé, l’effet marginal est maximum lorsque Xiβ=0,
soit lorsque IP(yi= 1|Xi) = 0,5, et décroît lorsque |Xiβ|grandit, soit lorsque
IP(yi=1|Xi)s’écarte de0,5(i.e., tend vers 0ou1).
Lorsque l’index Xiβcontientdes variables transformées et/ou des polynômes, l a
formule (8.17) de l’effet marginal doit être adaptée. Par exe mple, pour le modèle:
IP(yi=1|Xi)=G&
β1+β2xi2+β3lnxi3+β4xi4+β5×2
i4'
,
on a139:
∂IP(yi=1|Xi)
∂xi2=g(Xiβ)β2
∂IP(yi=1|Xi)
∂xi3=g(Xiβ)β3
xi3
∂IP(yi=1|Xi)
∂xi4=g(Xiβ)(β4+2β5xi4)
Onnoterafinalementquepourdesvariablesexplicatives xijbinairesoudiscrètes
(i.e., prenant un petit nombre de valeurs entières, comme pa r exemple le nombre
d’enfants d’un ménage), la formule (8.17) de l’effet margina l est une approximation
qui peut être grossière, en particulier lorsque la valeur de βjest grande et/ou la
valeur de l’index Xiβest éloignée de 0(et donc IP(yi=1|Xi)éloignée de0,5). Il
est dans ce cas préférable de calculer l’effet marginal exact . Par exemple, pour le
139Notons que si on s’intéresse à la variation (absolue) de IP(yi=1|Xi)pour une variation relative(plutôt
qu’absolue) de xi3, on calculera∂IP(yi=1|Xi)
∂lnxi3=g(Xiβ)β3(plutôt que∂IP(yi=1|Xi)
∂xi3=g(Xiβ)β3
xi3).
184
modèle:
IP(yi=1|Xi)=G(β1+β2Di+β3xi),
oùDiest une variable binaire, plutôt que l’effet marginal approx imatif calculé sur
base de la dérivée (8.17)évaluée en Di=0:
∂IP(yi=1|Xi)
∂Di=g(Xiβ)β2=g(β1+β3xi)β2,
on calculera l’effet marginal exact:
∆IP(yi=1|Xi)
∆Di=G(X1
iβ)−G(X0
iβ)
=G(β1+β2+β3xi)−G(β1+β3xi),
oùX1
i=[ 1 1xi]etX0
i=[ 1 0xi]. De même, pour calculer l’effet marginal
exact du passage de xi2=càxi2=c+1de la variable discrète xi2dans le modèle:
IP(yi=1|Xi)=G(β1+β2xi2+β3xi3),
plutôt que l’effet marginal approximatif calculé sur base de la dérivée (8.17)évaluée
enxi2=c:
∂IP(yi=1|Xi)
∂xi2=g(Xiβ)β2=g(β1+β2c+β3xi3)β2,
on calculera l’effet marginal exact:
∆IP(yi=1|Xi)
∆xi2=G(Xc+1
iβ)−G(Xc
iβ)
=G(β1+β2(c+1)+β3xi3)−G(β1+β2c+β3xi3),
oùXc+1
i=[ 1 (c+1)xi]etXc
i=[ 1c xi].
8.2.3. Les modèles logit et probit II: estimateur du maximum
de vraisemblance
On suppose que les observations sont constituées de données en coupe obtenues
par tirages aléatoires d’individus dans une population, ou à tout le moins qu’elles
peuvent, dans une perspective de modélisation, être regard ées comme telles. Si on
suppose par ailleurs que le modèle logit ou probit est correc tement spécifié (i.e.,
la forme fonctionnelle choisie est correcte), alors les obs ervations(yi,Xi)sont par
hypothèse indépendantes d’un individu à l’autre, et sont te lles que:
IP(yi=1|Xi)=G(Xiβ) (8.20)
et
f(yi|Xi;β)=G(Xiβ)yi(1−G(Xiβ))1−yi, i=1,…,n, (8.21)
oùβest un vecteur de paramètres inconnus à estimer et la fonctio n de lienG(.)est
donnée par(8.14) danslecas du modèle logit et(8.15) dans le cas du modèle probit.
185
Les observations étant par hypothèse indépendantes d’un in dividu à l’autre, la
densitéjointedesobservations (y1,…,yn)sachant(X1,…,Xn),appelée vraisemblance
(conditionnelle) , peut être décomposée comme suit:
f(y1,…,yn|X1,…,Xn;β)
=f(y1|X1;β)×…×f(yn|Xn;β)=n
i=1f(yi|Xi;β),
oùf(yi|Xi;β)est donné par la fonction de densité (8.21).
En prenant le logarithme de la densité jointe des observatio ns, on obtient la
fonction de log-vraisemblance (conditionnelle) de l’échantillon:
L(β) = lnf(y1,…,yn|X1,…,Xn;β)
=n
i=1lnf(yi|Xi;β)
=n
i=1[yilnG(Xiβ)+(1−yi)ln(1−G(Xiβ))]
L’estimateur du maximum de vraisemblance (MV) ˆβest défini par la valeur
du vecteur de paramètres βqui maximise la vraisemblance140, ou ce qui revient au
même141, la log-vraisemblance de l’échantillon:
ˆβ=ArgmaxβL(β)=Argmaxβn
i=1lnf(yi|Xi;β)
=Argmaxβn
i=1[yilnG(Xiβ)+(1−yi)ln(1−G(Xiβ))](8.22)
Si la fonction de lien G(.)est donnée par (8.14), ˆβest appelé l’ estimateur logit . Si
la fonction de lien G(.)est donnée par (8.15), ˆβest appelé l’ estimateur probit .
Le problème d’optimisation (8.22) n’a pas de solution analy tique. L’estimateur
MVˆβne peut être obtenu que numériquement, en utilisant un algor ithme d’optimi-
sation approprié. Les logiciels économétriques, en partic ulier GRETL, s’acquittent
très bien et très facilement de cette tâche.
Sous des conditions de régularité générales et si le modèle e st bien correctement
spécifié, on peut montrer que l’estimateur MV ˆβest un estimateur convergent et
asymptotiquement normal deβ. Formellement:
ˆβp−→β (8.23)
140Càd. la valeur de βqui rend la plus élevée la probabilité d’observation de l’éc hantillon dont on dispose.
Autrement dit, la valeur de βpour laquelle l’échantillon dont on dispose est le plus prob able d’être observé.
141Le logarithme étant une fonction strictement croissante, l a vraisemblance et la log-vraisemblance ont
par construction le même maximum par rapport à β.
186
et142
$
V(ˆβ)%−1
2
ˆβ−β
d−→N(0,I), (8.24)
où143:
V(ˆβ) =−n
i=1E
∂2lnf(yi|Xi;β)
∂β∂β′−1
=n
i=1E
g(Xiβ)2X′
iXi
G(Xiβ)(1−G(Xiβ))−1
(8.25)
soit, exprimé sous forme d’approximation utilisable en éch antillon fini pour n
suffisamment grand:
ˆβ≈N(β,V(ˆβ)) (8.26)
Dans l’expression (8.25) de la matrice de variance-covaria nceV(ˆβ)de l’estima-
teur MVˆβ, les fonctions G(.)etg(.)sont données, pour le modèle logit, par
respectivement (8.14) et (8.18), et pour le modèle probit, p ar respectivement (8.15)
et (8.19).
De façon semblable au cas du modèle de régression, on peut mon trer que la
matricedevariance-covariance V(ˆβ)del’estimateurMV ˆβserad’autantpluspetite
(au sens matriciel), et donc la précision d’estimation du ve cteur de paramètres β
d’autant plus grande, que:
1-les variables explicatives xijsont dispersées,
2-la taille nde l’échantillon est grande,
3-les variables explicatives xijsont peu corrélées.
Onnoteraquel’estimateurMV ˆβn’estpasleseulestimateurpossibleduvecteur
deparamètres βdumodèle. Maisc’estlemeilleur. Eneffet, chaquefoisque, c omme
c’estlecasici,onchercheàestimerlesparamètresd’unmod èleprobabilistequispé-
cifie, pour des observations (yi,Xi)obtenues par échantillonnage aléatoire, la distri-
butionconditionnellede yisachantXiautraversd’unefonctiondedensité f(yi|Xi;β)
et que ce modèle est correctement spécifié, on peut montrer qu e l’estimateur MVde
β, définit comme ˆβ=Argmaxβn
i=1lnf(yi|Xi;β), fournit toujours un estimateur
non seulement convergent et asymptotiquement normal, mais aussiefficace, càd. un
estimateur ayant la plus petite (au sens matriciel) matrice de variance-covariance
– qui est toujours donnée par V(ˆβ)=−$n
i=1E
∂2lnf(yi|Xi;β)
∂β∂β′%−1
– parmi tous
les estimateurs convergents et asymptotiquement normaux d eβ. Autrement dit,
on ne peut pas trouver un meilleur estimateur (i.e., un estim ateur plus précis) que
142Le résultat de normalité asymptotique (8.24) peut de façon é quivalente être exprimé comme:√n(ˆβ−β)d→N(0,Σ), oùΣ=nV(ˆβ).
143La matrice∂2lnf(yi|Xi;β)
∂β∂β′est la matrice hessienne de la fonction lnf(yi|Xi;β), càd. une matrice carrée
dont les différents éléments (i,j)sont égaux aux dérivées secondes∂2lnf(yi|Xi;β)
∂βi∂βj.
187
l’estimateur MV, parmi tous les estimateurs convergents et asymptotiquement nor-
maux deβ. Cette propriété générale d’efficacité de l’estimateur MV pe ut être
intuitivement vue comme l’analogue, mais dans un cadre bien plus général, du
théorème Gauss-Markov pour le modèle de régression linéair e.
Ens’appuyantsurlerésultatapproximatif144(8.26)dedistributiond’échantillon-
nage deˆβ, on peut, de la même façon que dans le cas du modèle de régressi on
linéaire, construire des intervalles de confiance et des tes ts d’hypothèse relatifs à β,
ainsi que des intervalles de prévision (cf. Section 8.2.4 in fra). Dans cette perspec-
tive, le seul ingrédient encore manquant est un estimateur c onvergent de la matrice
devariance-covariance V(ˆβ). Onpeutmontrerqu’untelestimateurestsimplement
donné par145:
ˆV(ˆβ)=n
i=1g(Xiˆβ)2X′
iXi
G(Xiˆβ)(1−G(Xiˆβ))−1
(8.27)
Desélémentsdiagonaux Vˆar(ˆβj)(j=1,…,k)decetestimateur ˆV(ˆβ),onobtient
des estimateurs convergents des écarts-types s.e.(ˆβj)des différents ˆβjen prenant:
s.ˆe.(ˆβj)=(
Vˆar(ˆβj), j=1,…,k
Tous les logiciels économétriques, en particulier GRETL, c alculent et reportent au-
tomatiquement ˆV(ˆβ)et les écart-types qui en découlent s.ˆe.(ˆβj).
Une fois le modèle estimé, on peut évaluer la probabilité IP(yi= 1|Xi)pour
n’importe quelle valeur de Xi.A cette fin, il suffit de remplacer dans l’expression
(8.20)levecteurdeparamètresinconnus βparsonestimateurMV ˆβ. Unestimateur
convergent de la probabilité IP(yi=1|Xi)est ainsi donné par:
7IP(yi=1|Xi)=G(Xiˆβ) (8.28)
De même, on peut estimer l’effet marginal des différentes vari ables explica-
tivesxij– les autres variables étant maintenues constantes – sur la p robabilité
IP(yi=1|Xi). A nouveau, il suffit de remplacer dans l’expression (8.17) le vecteur
de paramètres inconnus βpar son estimateur MV ˆβ. Sixijest une variable (au
moins approximativement) continue, un estimateur converg ent de l’effet marginal
de la variable xijsur la probabilité IP(yi=1|Xi)est ainsi donné par:
∂7IP(yi=1|Xi)
∂xij=g(Xiˆβ)ˆβj (8.29)
144Sauf cas particuliers (comme par exemple l’estimateur MV – q ui est égal à l’estimateur MCO – des
paramètres du modèle de régression linéaire sous l’hypothè se A6 de normalité), les estimateurs MV ne
possèdent pas de propriétés d’échantillonnage exactes en é chantillon fini, mais seulement des propriétés
asymptotiques, valables pour ngrand.
145Pour rappel, l’estimateur de la matrice de variance-covari ance de l’estimateur MCO est ˆV(ˆβ) =
ˆs2(X′X)−1, qu’on peut encore écrire: ˆV(ˆβ) =n
i=11
ˆs2X′
iXi−1
. Vu sous cet angle, l’estimateur (8.27)
apparaît déjà moins mystérieux (le facteur1
ˆs2est simplement remplacé parg(Xiˆβ)2
G(Xiˆβ)(1−G(Xiˆβ))).
188
On peut procéder de la même façon – i.e., remplacer le vecteur de paramètres
inconnusβpar son estimateur MV ˆβ–lorsque la formule (8.17) de l’effet marginal
doit être adaptée pour tenir compte de la présence dans l’ind exXiβde variables
transformées et/ou de polynômes, ou encore lorsqu’il est pr éférable, en présence de
variables explicatives binaires ou discrètes, de calculer l’effet marginal exactplutôt
qu’un effet marginal approximatif (sur base de la formule (8. 17)).
Les effets marginaux estimés (8.29) ne sont pas constants, ma is varient en fonc-
tion de la valeur des variables explicatives Xi=1xi2···xik
. Pour résumer
de façon synthétique les effets marginaux des variables expl icativesxij(au moins
approximativement) continues sur la probabilité IP(yi=1|Xi), il est courant de cal-
culer ces effets marginaux au point moyen de l’échantillon ¯X=1 ¯x2···¯xk
au travers de l’expression146:
∂7IP(yi=1|Xi)
∂xij|Xi=¯X=g(¯Xˆβ)ˆβj (8.30)
Ces effets marginaux calculés au point moyen de l’échantillo n peuvent s’interpréter
comme les effets marginaux des différentes variables xijpour un individu moyen,
i.e., un individu dont les variables explicatives Xiseraient égales à ¯X.
On peut encore procéder de la même façon – i.e., résumer les eff ets marginaux
variables en fonction de Xien calculant ces effets au point moyen de l’échantillon ¯X
–lorsquelaformule(8.17)del’effetmarginaldoitêtreadap téepourtenircomptede
laprésencedansl’index Xiβdevariablestransforméeset/oudepolynômes,ouencore
lorsqu’il est préférable, en présence de variables explica tives binaires ou discrètes,
de calculer l’effet marginal exactplutôt qu’un effet margina l approximatif (sur base
de la formule (8.17)).
Notons qu’il faut faire attention à la définition du point moy en de l’échantillon
lorsque l’index Xiβcontient des variables transformées, des polynômes et/ou d es
variables explicatives binaires. Ainsi par exemple, pour l e modèle:
IP(yi=1|Xi)=G&
β1+β2xi2+β3lnxi3+β4xi4+β5×2
i4'
,
où toutes les variables sont (approximativement) continue s, il convient d’utiliser
comme point moyen de l’échantillon ¯X=1 ¯x2ln¯x3¯x4(¯x4)2
, et non¯X=
1 ¯x2lnx3¯x4x2
4
, i.e., pourlnxi3, le logarithme de la moyenne de xi3(=
ln¯x3), et non la moyenne du logarithme de xi3(=lnx3), et pourx2
i4, le carré de la
moyenne de xi4(=(¯x4)2), et non la moyenne du carré de xi4(=x2
4). Pour ce point
moyen¯Xcorrectement défini, les effets marginaux sont alors donnés p ar:
∂7IP(yi=1|Xi)
∂xi2|Xi=¯X=g(¯Xˆβ)ˆβ2
146Une alternative est de calculer les effets marginaux pour tou s les points Xide l’échantillon, puis d’en
prendre la moyenne.
189
∂7IP(yi=1|Xi)
∂xi3|Xi=¯X=g(¯Xˆβ)ˆβ3
¯x3
∂7IP(yi=1|Xi)
∂xi4|Xi=¯X=g(¯Xˆβ)(ˆβ4+2ˆβ5¯x4)
De même, pour par exemple le modèle:
IP(yi=1|Xi)=G(β1+β2Di+β3xi),
oùDiest une variable binaire et xiune variable (approximativement) continue,
on utilisera comme point moyen de l’échantillon ¯X=1 0 ¯x
et/ou¯X=1 1 ¯x
, plutôt que ¯X=1¯D¯x
.Il est en effet difficile de regarder la
moyenne¯Dd’une variable binaire Di– qui est égale à la proportion des obser-
vations de l’échantillon pour lesquelles Di= 1147–, comme représentative d’un
quelconque individu moyen. Pour ce (ou ces) point(s) moyen( s)¯Xcorrectement
défini(s), l’effet marginal de xiest alors donné par:
∂7IP(yi=1|Xi)
∂xi|Xi=¯X=g(¯Xˆβ)ˆβ3
et l’effet marginal exact de Dipar:
∆IP(yi=1|Xi)
∆Di|Xi=¯X=G(¯X1ˆβ)−G(¯X0ˆβ)
=G(ˆβ1+ˆβ2+ˆβ3¯x)−G(ˆβ1+ˆβ3¯x),
où¯X1=[ 1 1 ¯x]et¯X0=[ 1 0 ¯x]
Laplupartdeslogicielséconométriques,enparticulierGR ETL,calculeetreporte
automatiquementdeseffetsmarginauxcalculésaupointmoye ndel’échantillon. Ces
effets marginaux sont toujours, quelle que soit la forme des v ariables qui composent
l’indexXiβdu modèle, calculés sur base de la formule de base (8.30), ave c¯X=1 ¯x2···¯xk
. Ilsnesontdonccorrectsquesilemodèlenecontientnivari ables
transformées,nipolynômes,nivariablesexplicativesbin airesoudiscrètes. Sicen’est
pas le cas, ils doivent être recalculés de la façon indiquée c i-dessus.
Pour se faire une idée du degré d’ajustement ou de la ‘capacit é prédictive’ du
modèle que l’on vient d’estimer, il est usuel de calculer le pourcentage de prévisions
correctes dumodèle. Cepourcentageestobtenuenfaisant,pourchaque observation,
une prévision ˆyide la valeur de yisachantXisur base de la règle:
.
ˆyi=1si7IP(yi=1|Xi)=G(Xiˆβ)≥0,5
ˆyi=0si7IP(yi=1|Xi)=G(Xiˆβ)<0,5
Le pourcentage de prévisions correctes du modèle est simple ment le pourcentage
des observations de l’échantillon pour lesquelles ˆyi=yi, i.e., le pourcentage des
observations pour lesquelles la valeur prédite ˆyiest égale à la valeur observée yi.
147Si par exemple Di=1lorsque l’individu iest une femme, et 0sinon,¯Dest la proportion de femmes
dans l’échantillon.
190
Il est reporté par la plupart des logiciels économétriques, en particulier GRETL.
Il est parfois ventilé en pourcentages de prévisions correc tes parmi, d’une part, les
observations telles que yi= 1, et d’autre part, les observations telles que yi= 0.
A l’instar du R2dans le modèle de régression, il s’agit d’une mesure descriptive ,
intéressante, mais à laquelle il ne faut pas accorder une tro p grande importance148.
Pour conclure cette section, on notera qu’en pratique les mo dèles logit et probit
donnent généralement des résultats très semblables, tant e n termes d’estimation des
probabilités IP(yi=1|Xi)qu’entermesd’estimationdeseffetsmarginaux∂IP(yi=1|Xi)
∂xij.
Celavientdufaitquelesfonctionsdeliens(8.14)et(8.15) desmodèleslogitetprobit
sont en réalité moins dissemblables qu’il n’y paraît à premi ère vue. En normalisant
leur argument de façon adéquate, on a en effet approximativem ent:
Glogit(z)≃Gprobit(z
1,6),
oùGlogit(.)etGprobit(.)désignent respectivement les fonctions de liens (8.14) et
(8.15). Graphiquement:
01
0,5
204 4 3 1 123 zGlogit z
Gprobit z
1,6
Graphique 50: Les fonctions de lien normalisées des modèles logit et probit
Al’estimation, on obtienttypiquement ˆβlogit≃1,6ˆβprobit, oùˆβlogitetˆβprobitsont
les paramètres estimés des modèles logit et probit, de sorte qu’on a approximative-
ment:Glogit(Xiˆβlogit)≃Gprobit(Xiˆβlogit
1,6)≃Gprobit(Xiˆβprobit). Le choix d’utiliser en
pratiquel’unoul’autremodèleestdoncgénéralementpeucr ucial149. L’interprétation
dumodèleentermesdevariablelatenteetlapopularitédela loinormaleexpliquela
popularité du modèle probit. Mais le modèle logit est en prat ique plus commode à
utiliser, du fait de la disponibilité d’une forme analytiqu e explicite pour la fonction
de lienG(.).
148Une autre mesure du degré d’ajustement ou de la ‘capacité pré dictive’ du modèle fréquemment reportée
par les logiciels économétriques (y compris GRETL) est le ps eudo-R2de McFadden. Ce pseudo- R2n’est
cependant pas aussi commode à interpréter que le R2standard du modèle de régression.
149Les modèles logit et probit ne se différencient (un peu) que po ur l’estimation des probalilités
IP(yi=1|Xi)proches de0ou de1.
191
8.2.4. Les modèles logit et probit III: inférence
On sait que, si le modèle est correctement spécifié, on a asymp totiquement:
$
V(ˆβ)%−1
2
ˆβ−β
d−→N(0,I),
où:
V(ˆβ)=n
i=1E
g(Xiβ)2X′
iXi
G(Xiβ)(1−G(Xiβ))−1
,
soit, exprimé sous forme d’approximation utilisable en éch antillon fini pour n
suffisamment grand:
ˆβ≈N(β,V(ˆβ)) (8.31)
On sait également qu’un estimateur convergent de V(ˆβ)est donné par:
ˆV(ˆβ)=n
i=1g(Xiˆβ)2X′
iXi
G(Xiˆβ)(1−G(Xiˆβ))−1
(8.32)
Enprocédantdefaçonsemblableàcequenousavonsfaitdansl ecadredumodèle
de régression linéaire, on peut, sur base de ces résultats, o btenir des intervalles de
confiance et des tests d’hypothèse relatifs à β, ainsi que des intervalles de prévision.
Ces intervalles et tests ne seront évidemment valables qu’a symptotiquement, à titre
approximatif pour ngrand.
8.2.4.1. Intervalles de confiance
Le résultat de distribution d’échantillonnage (8.31) impl ique que, pour j=
1,…,k, on a:
ˆβj≈N(βj,Var(ˆβj)),
oùVar(ˆβj)=$
V(ˆβ)%
jjdésignel’élément (j,j)delamatricedevariance-covariance
V(ˆβ), de sorte que:
ˆz=ˆβj−βj
s.e.(ˆβj)≈N(0,1),
oùs.e.(ˆβj)=(
Var(ˆβj).
Onpeutmontrerqu’asymptotiquementleremplacementdel’é cart-typethéorique
s.e.(ˆβj)par son estimateur convergent s.ˆe.(ˆβj)ne modifie pas cette distribution
d’échantillonnage, de sorte qu’on a aussi:
192
ˆt=ˆβj−βj
s.ˆe.(ˆβj)≈N(0,1) (8.33)
oùs.ˆe.(ˆβj)=(
Vˆar(ˆβj)etVˆar(ˆβj)=$
ˆV(ˆβ)%
jjdésigne l’élément (j,j)deˆV(ˆβ).
Etant donné (8.33), on a:
IP
−z1−α
2≤ˆβj−βj
s.ˆe.(ˆβj)≤z1−α
2
≃1−α,
oùz1−α
2est le quantile d’ordre 1−α
2de la loiN(0,1), dont on peut déduire un
intervalle de confiance à (1−α)×100%pourβj:
$
ˆβj−z1−α
2s.ˆe.(ˆβj);ˆβj+z1−α
2s.ˆe.(ˆβj)%
(8.34)
Cet intervalle de confiance a la même forme150et s’interprète de la même façon
quel’intervalledeconfiancepour βjdanslemodèlederégressionlinéaire. Rappelons
néanmoins que, dans le présent contexte, les valeurs précis es des paramètres βj–
qui représentent151les effets marginaux des différentes variables explicatives xijsur
la variable latente y∗
idans l’interprétation en termes de variable latente du modè le
– n’ont généralement en elles-mêmes que peu d’intérêt. Seul leur signe ou leur
nullité est généralement interprétable.
Dans la plupart des applications empiriques, on est général ement avant tout
intéressé par les valeurs des effets marginaux des différente s variables explicatives
xijsur la probabilité IP(yi= 1|Xi). On a vu que la formule précise de ces effets
marginauxvarieselonlaformedel’index Xiβdumodèle, i.e., selonqu’ilcontientou
non des variables transformées, des polynômes, ou encore de s variables explicatives
binaires ou discrètes. Dans tous les cas, l’effet marginal de la variable xijsur la
probabilité IP(yi=1|Xi)est donné par une fonction non-linéaire deβ:
∂IP(yi=1|Xi)
∂xij=hj(Xi,β), (8.35)
et un estimateur ponctuel de cet effet marginal est obtenu en r emplaçant βpar son
estimateur MV ˆβ:
∂7IP(yi=1|Xi)
∂xij=hj(Xi,ˆβ) (8.36)
Dans le cas de base où xijest une variable (approximativement) continue et que
l’indexXiβdu modèle ne contient ni variables transformées ni polynôme s, on a
150Simplement, il utilise un quantile de la loi normale plutôt q ue de la loi de Student – dans le présent
contexte, aucun résultat exact en échantillon fini ne justifi e l’utilisation, asymptotiquement équivalente
pourngrand, de quantiles de la loi de Student au lieu de quantiles d e la loi normale –, et bien entendu
la définition de s.ˆe.(ˆβj)est différente.
151Si l’index Xiβdu modèle ne contient ni variables transformées, ni polynôm es.
193
simplement (cf. les équations (8.17)et (8.29)):
hj(Xi,β)=g(Xiβ)βj (8.37)
Comme pour βj, on peut obtenir un intervalle de confiance pour l’effet margi nal
hj(Xi,β). Sa dérivation et son calcul pratique sont cependant comple xes, du fait
quehj(Xi,β)est une fonction non-linéaire de β.
On peut montrer qu’asymptotiquement, pour ngrand, on peut approximer la
fonction non-linéaire hj(Xi,ˆβ)par une fonction linéaire donnée par son développe-
ment de Taylor à l’ordre 1 en ˆβ=β:
hj(Xi,ˆβ)≃hj(Xi,β)+∂hj(Xi,β)
∂β′(ˆβ−β)
≃hj(Xi,β)+D(Xi,β)(ˆβ−β), (8.38)
où:
D(Xi,β)=∂hj(Xi,β)
∂β′=$
∂hj(Xi,β)
∂β1∂hj(Xi,β)
∂β2···∂hj(Xi,β)
∂βk%
,
i.e., un vecteur ligne contenant les dérivées de la fonction hj(Xi,β)par rapport aux
différentsβj.
Pour le cas de base où hj(Xi,β)=g(Xiβ)βj, on a152:
D(Xi,β)
=βjg′(Xiβ)βjg′(Xiβ)xi2···βjg′(Xiβ)xij+g(Xiβ)···βjg′(Xiβ)xik
,
oùg′(z)=dg(z)
dzest donné, pour le modèle logit, par:
g′(z)=ez(1−ez)
(1+ez)3,
et pour le modèle probit, par:
g′(z)=−z√
2πe−1
2z2
Surbasedel’approximationlinéaire(8.38), hj(Xi,ˆβ)estunecombinaisonlinéaire
deˆβ. Commeˆβ≈N(β,V(ˆβ))et qu’une combinaison linéaire d’un vecteur aléatoire
normal suit aussi une loi normale, on en déduit qu’on a asympt otiquement153:
hj(Xi,ˆβ)≈N(hj(Xi,β),Var(hj(Xi,ˆβ)), (8.39)
152Pour rappel, Xi=
1xi2···xik
, i.e., le premier élément de Xiest la constante 1.
153Cettefaçond’obtenirladistributionasymptotiqued’unef onctionnon-linéaired’unvecteurdeparamètres
ˆβen faisant une approximation linéaire de la fonction en ˆβ=βest appelée la méthode delta (delta method
en anglais).
194
où:
Var(hj(Xi,ˆβ))=D(Xi,β)V(ˆβ)D(Xi,β)′(8.40)
Un estimateur convergent Vˆar(hj(Xi,ˆβ))de la variance Var(hj(Xi,ˆβ))est sim-
plement obtenu en remplaçant, dans l’expression (8.40), V(ˆβ)par son estimateur
ˆV(ˆβ), et évaluant D(Xi,β)enβ=ˆβ:
Vˆar(hj(Xi,ˆβ))=D(Xi,ˆβ)ˆV(ˆβ)D(Xi,ˆβ)′
Le résultat de distribution d’échantillonnage (8.39) impl ique que:
ˆz=hj(Xi,ˆβ)−hj(Xi,β)
s.e.(hj(Xi,ˆβ))≈N(0,1),
oùs.e.(hj(Xi,ˆβ))=(
Var(hj(Xi,ˆβ)).
On peut encore montrer qu’asymptotiquement le remplacemen t de l’écart-type
théoriques.e.(hj(Xi,ˆβ))par son estimateur convergent s.ˆe.(hj(Xi,ˆβ))ne modifie
pas cette distribution d’échantillonnage, de sorte qu’on a aussi:
ˆt=hj(Xi,ˆβ)−hj(Xi,β)
s.ˆe.(hj(Xi,ˆβ))≈N(0,1) (8.41)
oùs.ˆe.(hj(Xi,ˆβ))=(
Vˆar(hj(Xi,ˆβ)).
Etant donné (8.41), on a:
IP
−z1−α
2≤hj(Xi,ˆβ)−hj(Xi,β)
s.ˆe.(hj(Xi,ˆβ))≤z1−α
2
≃1−α,
oùz1−α
2est le quantile d’ordre 1−α
2de la loiN(0,1), dont on peut déduire un
intervalle de confiance à (1−α)×100%pourhj(Xi,β):
$
hj(Xi,ˆβ)−z1−α
2s.ˆe.(hj(Xi,ˆβ));hj(Xi,ˆβ)+z1−α
2s.ˆe.(hj(Xi,ˆβ))%
(8.42)
oùs.ˆe.(hj(Xi,ˆβ)) =(
Vˆar(hj(Xi,ˆβ)) =(
D(Xi,ˆβ)ˆV(ˆβ)D(Xi,ˆβ)′. Cet intervalle
de confiance s’interprète de lafaçon habituelle, comme l’in tervalle de confiance pour
βj.
L’intervalledeconfiance(8.42)donneunintervalledeconfi ancepourl’effetmar-
ginal∂IP(yi=1|Xi)
∂xij=hj(Xi,β)de la variable xijsur la probabilité IP(yi=1|Xi)pour
une valeur Xidonnée des variables explicatives. Un intervalle de confian ce pour cet
effet marginal au point moyen de l’échantillon ¯X– dont, pour rappel, il faut faire
attention à la définition – est simplement obtenu en calculan t l’intervalle de confi-
195
ance pourXi=¯X. Notons que peude logiciels économétriques –GRETL n’en fai t
malheureusement pas partie154– calcule et reporte automatiquement cet intervalle
de confiance.
8.2.4.2. Tests d’hypothèse
On sait que le résultat de distribution d’échantillonnage ( 8.31) implique que,
pourj=1,…,k, on a:
ˆβj≈N(βj,Var(ˆβj)),
oùVar(ˆβj)=$
V(ˆβ)%
jj.
Ainsi, si la vraie valeur de βjest égale à βo
j, on a:
ˆzo=ˆβj−βo
j
s.e.(ˆβj)≈N(0,1),
oùs.e.(ˆβj)=(
Var(ˆβj), tandis que si la vraie valeur de βjest différente de βo
jet
par exemple égale à β∗
j(β∗
j=βo
j), on a:
ˆzo=ˆβj−βo
j
s.e.(ˆβj)≈N
β∗
j−βo
j
s.e.(ˆβj),1
On peut à nouveau montrer qu’asymptotiquement le remplacem ent de l’écart-
type théorique s.e.(ˆβj)par son estimateur convergent s.ˆe.(ˆβj)ne modifie pas ces
distributions d’échantillonnage, de sorte qu’on a aussi, l orsqueβj=βo
j:
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)≈N(0,1),
et lorsqueβj=β∗
j=βo
j:
ˆto=ˆβj−βo
j
s.ˆe.(ˆβj)≈N
β∗
j−βo
j
s.e.(ˆβj),1
oùs.ˆe.(ˆβj)=(
Vˆar(ˆβj)etVˆar(ˆβj)=$
ˆV(ˆβ)%
jj.
Comme dans le modèle de régression linéaire, étant donné ses propriétés, on
peut utiliserˆtocomme statistique de test pour tester des hypothèses telles que H0:
βj=βo
jcontre H1:βj=βo
j(test bilatéral) ou H 0:βj≤βo
j(resp.βj≥βo
j) contre
H1:βj> βo
j(resp.βj< βo
j) (tests unilatéraux). Les règles de décision à appliquer
pour des tests au seuil α, ainsi que les P-valeurs de ces tests, sont résumées dans le
154Pour calculer l’intervalle de confiance (8.42) avec GRETL, i l faut utiliser ses fonctions de calcul ma-
triciel.
196
tableau suivant:
Test Règle de décision155P-valeur156
H0:βj=βo
j – RH0si|ˆto|=+++ˆβj−βo
j
s.ˆe.(ˆβj)+++>z1−α
2pˆt∗o=IP(|z|>|ˆt∗
o|),
contre H1:βj=βo
j- NRH0sinon
H0:βj≤βo
j – RH0siˆto=ˆβj−βo
j
s.ˆe.(ˆβj)>z1−αpˆt∗o=IP(z >ˆt∗
o),
contre H1:βj>βo
j- NRH0sinon
H0:βj≥βo
j – RH0siˆto=ˆβj−βo
j
s.ˆe.(ˆβj)<zαpˆt∗o=IP(z <ˆt∗
o)
contre H1:βj<βo
j- NRH0sinon
Ces tests, qu’on appelle toujours t-testsdans le présent contexte, ont la même
forme157et s’interprètent –en termes de risque de première espèce, d e puissance et
deP-valeur – de la même façon que les t-tests deβjdans le modèle de régression
linéaire. Rappelons cependant à nouveau que, dans le présen t contexte, seul le signe
ou la nullité des βjest généralement interprétable.
Comme pour le modèle de régression linéaire, tous les logici els économétriques,
en particulier GRETL, calculent et reportent en standard la statistiqueˆto=ˆβj
s.ˆe.(ˆβj)
–qu’onappelletoujours t-statistique (deˆβj)–etlaP-valeurdutestdeH 0:βj=0
contre H1:βj=0pour chacun des paramètres du modèle. On peut donc directe-
mentvoir, surbasedesrésultatsd’estimation, silesdiffér entesvariablesexplicatives
xijontounonuneffet(statistiquement)significatifsurlaprob ablilitéIP(yi=1|Xi).
Pour tester si les différentes variables explicatives xijont un effet (statistiquement)
significativement positif ou négatif sur la probablilité IP(yi=1|Xi), comme l’effet
marginal∂IP(yi=1|Xi)
∂xijde chacune des variables xijest toujours – à tout le moins si
l’indexXiβne contientni transformations devariables atypiques158ni polynômes159
– du même signe que βj, il suffit de tester H 0:βj≤0contre H1:βj>0ou H0:
βj≥0contre H1:βj<0.
Pour pouvoir tester des hypothèses plus élaborées, comme pa r exemple H 0:
β4=β5=β6=0contre H1:β4=0et/ouβ5=0et/ouβ6=0dans le modèle:
IP(yi=1|Xi)=G&
β1+β2xi2+β3xi3+β4×2
i2+β5×2
i3+β6xi2xi3'
,
i.e., si une forme linéaire simple (plutôt que polynomiale) enxi2etxi3serait ou non
155z1−α
2,z1−αetzα(=−z1−α)désignent les quantiles d’ordre 1−α
2,1−αetαde la loiN(0,1).
156ˆt∗
odésigne la valeur de la statistique ˆtoobtenue pour un échantillon particulier, et z∼N(0,1).
157Simplement, comme dans le cas de l’intervalle de confiance po urβj, ils s’appuyent sur la loi normale
plutôt que sur la loi de Student, et bien entendu la définition des.ˆe.(ˆβj)est différente.
158Comme par exemple la fonction inverse1
x. Notons que la transformation logarithmique standard ln(x)
ne provoque elle aucune inversion de signe de l’effet margina l.
159Lorsque l’index Xiβcontient des polynômes, les signes des effets marginaux ne so nt généralement plus
constants, mais variables.
197
suffisante pour la fonction d’index Xiβdu modèle, on a besoin d’un test général
similaire au F-test du modèle de régression linéaire. Un tel test général d e:
H0:R0β=r0contre H1:R0β=r0
oùR0est une matrice q×kde constantes ( q≤k;q=le nbr. de restrictions et k=
le nbr. de paramètres) et r0un vecteur q×1de constantes, est aisé à obtenir.
Le résultat de distribution d’échantillonnage (8.31) impl ique qu’on a:
(R0ˆβ−r0)≈N(R0β−r0,R0V(ˆβ)R′
0),
de sorte que, si la vraie valeur de βest telle que R0β=r0, càd. que H 0est vraie,
on a:
ˆχ2
0=(R0ˆβ−r0)′$
R0V(ˆβ)R′
0%−1
(R0ˆβ−r0)≈χ2(q),
tandis que si la vraie valeur de βest telle que R0β=r0, càd. que H 0est fausse, on
peut montrer qu’on a160:
ˆχ2
0=(R0ˆβ−r0)′$
R0V(ˆβ)R′
0%−1
(R0ˆβ−r0)≈χ2(δ∗,q),
oùδ∗=(R0β−r0)′$
R0V(ˆβ)R′
0%−1
(R0β−r0).
Onpeutencoremontrerqu’asymptotiquementleremplacemen tdeV(ˆβ)parson
estimateur convergent ˆV(ˆβ)ne modifie pas ces distributions d’échantillonnage, de
sorte qu’on a aussi, lorsque H 0est vraie (i.e., R0β=r0):
ˆχ2′
0=(R0ˆβ−r0)′$
R0ˆV(ˆβ)R′
0%−1
(R0ˆβ−r0)≈χ2(q),
et lorsque H 0est fausse (i.e., R0β=r0):
ˆχ2′
0=(R0ˆβ−r0)′$
R0ˆV(ˆβ)R′
0%−1
(R0ˆβ−r0)≈χ2(δ∗,q),
oùδ∗=(R0β−r0)′$
R0V(ˆβ)R′
0%−1
(R0β−r0).
Etant donné ses propriétés, on peut utiliser ˆχ2′
0comme statistique de test pour
tester H0:R0β=r0contre H1:R0β=r0. La règle de décision à appliquer pour un
test au seuil αest donnée par:
.- Rejet de H0siˆχ2′
0>χ2
q;1−α
– Non-rejet de H0sinon
où lavaleurcritique χ2
q;1−αestlequantile d’ordre 1−αde laloiχ2(q), etlaP-valeur
du test est donnée par:
pˆχ2′∗
0=IP(v >ˆχ2′∗
0)
160Pour rappel, par définition, si X∼N(m,Σ), oùXest un vecteur de dimension q×1, alors:X′Σ−1X∼
χ2(δ,q), oùδ=m′Σ−1m.
198
oùˆχ2′∗
0désignelavaleurdelastatistique ˆχ2′
0obtenuepourunéchantillonparticulier,
etv∼χ2(q).
Ceχ2-test, couramment appelé test du khi-carré ou encore test de Wald , a la
même forme161et s’interprète – en termes de risque de première espèce, de p uis-
sance et de P-valeur – de la même façon que le χ2-test (basé sur la statistique
ˆχ2′
0, cf. Section 7.1.2) obtenu dans le modèle de régression liné aire. Comme pour
le modèle de régression linéaire, la plupart des logiciels é conométriques, en parti-
culier GRETL, permettent de le calculer de façon très simple : il suffit de spécifier
les contraintes R0β=r0, et le logiciel reporte alors la valeur de la statistique ˆχ2′
0et
laP-valeur du test.
8.2.4.3. Intervalle de prévision
Comme pour le modèle de régression linéaire, un des objectif s des modèles logit
et probit est de faire des prévisions. Un estimateur/prédic teur convergent de la
probabilité que y0soit égale à1sachant que les variables explicatives prennent une
valeurX0=1×02···x0k
, càd. de la probabilité:
IP(y0=1|X0)=G(X0β)
est simplement donné par162:
7IP(y0=1|X0)=G(X0ˆβ) (8.43)
L’estimateur/prédicteur(8.43)fournituneprévisionpon ctuelledelaprobabilité
IP(y0=1|X0)=G(X0β). On peut lui associer un intervalle de prévision, càd. un
intervalle de valeurs plausibles pour G(X0β). Un tel intervalle de prévision est assez
facile à obtenir. Le résultat de distribution d’échantillo nnage (8.31) implique qu’on
a:
X0ˆβ≈N(X0β,Var(X0ˆβ)), (8.44)
où:
Var(X0ˆβ)=X0V(ˆβ)X′
0 (8.45)
Un estimateur convergent Vˆar(X0ˆβ)de la variance Var(X0ˆβ)est simplement
obtenu en remplaçant, dans l’expression (8.45), V(ˆβ)par son estimateur ˆV(ˆβ):
Vˆar(X0ˆβ)=X0ˆV(ˆβ)X′
0
161Simplement, la définition de ˆV(ˆβ)est différente. Notons encore que, dans le présent contexte, aucun
résultat exact en échantillon fini ne justifie l’utilisation , asymptotiquement équivalente pour ngrand, d’une
forme du type F-test de ce test.
162Cet estimateur correspond, dans le cadre du modèle de régres sion linéaire, à l’estimateur/prédicteur
de l’espérance de ysachant ( x02,…x0k).
199
Le résultat de distribution d’échantillonnage (8.44) impl ique que:
ˆz=X0ˆβ−X0β
s.e.(X0ˆβ)≈N(0,1),
oùs.e.(X0ˆβ)=(
Var(X0ˆβ).
On peut encore montrer qu’asymptotiquement le remplacemen t de l’écart-type
théoriques.e.(X0ˆβ)par son estimateur convergent s.ˆe.(X0ˆβ)ne modifie pas cette
distribution d’échantillonnage, de sorte qu’on a aussi:
ˆt=X0ˆβ−X0β
s.ˆe.(X0ˆβ)≈N(0,1), (8.46)
oùs.ˆe.(X0ˆβ)=(
Vˆar(X0ˆβ).
Etant donné (8.46), on a:
IP
−z1−α
2≤X0ˆβ−X0β
s.ˆe.(X0ˆβ)≤z1−α
2
≃1−α
⇔IP
X0ˆβ−z1−α
2s.ˆe.(X0ˆβ)≤X0β≤X0ˆβ+z1−α
2s.ˆe.(X0ˆβ)
≃1−α,
oùz1−α
2estlequantiled’ordre 1−α
2delaloiN(0,1). Finalement,commelafonction
de lienG(.)est –tant dans le modèle logit que probit –strictement crois sante, on
a encore:
IP
G(X0ˆβ−z1−α
2s.ˆe.(X0ˆβ))≤G(X0β)≤G(X0ˆβ+z1−α
2s.ˆe.(X0ˆβ))
≃1−α,
dont on peut déduire un intervalle de prévision à (1−α)×100%pour
IP(y0=1|X0)=G(X0β):
$
G(X0ˆβ−z1−α
2s.ˆe.(X0ˆβ));G(X0ˆβ+z1−α
2s.ˆe.(X0ˆβ))%
,(8.47)
oùs.ˆe.(X0ˆβ)=(
Vˆar(X0ˆβ)=(
X0ˆV(ˆβ)X′
0.
Bienqued’uneformeunpeudifférente163, cetintervalledeprévisions’interprète
de la même façon que l’intervalle de prévision pour E(y0)dans le modèle de régres-
sion linéaire.
163On notera qu’un intervalle de prévision de forme plus classi que pourrait être obtenu en s’appuyant sur
laméthode delta utilisée à la Section 8.2.4.1.
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Notes à l’usage des étudiants de 3ème année de bachelier en sciences économiques et de gestion Année académique 2013-2014 i Préambule En parallèle… [615626] (ID: 615626)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
