16/04/2013
Université de Montréal
Rapport de recherche
Fréquence optimale et fréquence de 5
minutes : Une comparaison des Volatilités Réalisées
journalières à partir du modèle HAR-RV.
Rédigé par:
GUERRIER Joseph Junior
Dirigé par:
KALNINA Ilze
Département des sciences
économiques Faculté des arts et des sciences
1
Sommaire
I. Résumé du projet 2
II. Introduction et motivation 3
III. Revue de la littérature 4
Corsi (2009) 4
Corsi, Pirino et Reno (2010) 5
Bandi et Russell (2007) 7
IV. Statistiques descriptives et analyse des données
9
Volatilité réalisée du CHK stock:
données regroupées par fréquences de 5 minutes 10
Volatilité réalisée du CHK stock:
données regroupées par fréquences de 9 minutes 11
Volatilité réalisée, fréquences
de 5 minutes et de 9 minutes : comparaison 11
Auto-corrélation des volatilités
réalisées pour les séries journalières 13
V. Estimation et prévision 15
Test de stationnarité et relation de long terme 15
Estimation 17
Prévision hors échantillons 18
VI. Conclusion 24
VII. Annexe 25
VIII. référence ,.33
I- Résumé du projet
2
La réalisation de cet ouvrage s'appuie essentiellement
sur les travaux de Corsi (1999) et de Bandi et Russell (2007). En effet notre
modèle de base, pour les fins d'estimation et de prévision, est
le modèle HAR(3)-RV présenté par Corsi. Notre analyse se
portera sur le `CHK Stock' pour l'année 2010 avec des données
journalières à hautes fréquences. Dans un premier temps on
va regrouper les données en des fréquences de 5 minutes puis, en
utilisant les même principes que Bandi et Russell (2007), on va
déterminer une fréquence optimale1 `M' pour chaque
journée de transaction et prendre leur moyenne arithmétique
simple sur les 252 jours ouvrables de l'année en question, afin d'avoir
une seule et même fréquence optimale `M*'.
Le présent document commencera par une revue de
littérature où principalement les travaux de Corsi (1999), Corsi,
Pirino et Reno (2010) et Bandi et Russell (2007) seront présentés
et sur lesquels on s'appuiera pour faire notre travail. Ensuite, la
sélection, la manipulation et la transformation des données sur
le CHK Stock (données allant du 4 janvier 2010 au 31 décembre
2010) permettront de déterminer la variable sous études qui est
la RV2 et de présenter les différents graphes et
tableaux de statistiques descriptives relatifs aux diverses transformations
qu'on aura opérées sur la variable de base pour les besoins
d'analyse. En troisième lieu, on se prêtera à un exercice
d'estimation des coefficients du modèle pour les deux séries en
question3 en prenant soin de corriger les écarts-types selon
Newey-West en vue de pallier de possibles problèmes d'auto
corrélations des erreurs. Finalement, des prévisions hors
échantillons seront effectuées pour les deux séries et
leurs erreurs quadratiques moyennes seront comparées afin de
déterminer laquelle donne un meilleur résultat.
1 La fréquence optimale M* selon Bandi et Russell (2007),
est celle qui minimise la perte quadratique conditionnelle de la
volatilité réalisée estimée.
2 Le RV se réfère à Realized volatility ou
volatilité réalisée en français.
3 On fait référence à la série
regroupée par fréquences de 5 minutes et celle regroupée
par M* qui est la fréquence optimale de Bandi et Russell (2007)
II- Introduction et motivation
3
Le comportement des données financières hautes
fréquences occupe une place importante dans la littérature
économique depuis un certain temps. De nombreuses études ont
été réalisées en vue de déterminer des
méthodes d'estimation et de prévision appropriées. Des
études comme celle réalisée par Corsi (1999), tentent de
trouver un modèle dit à mémoire courte qui puisse donner
d'assez bons résultats comparés à ceux de modèles
plus complexes dits de long mémoire. L'analyse de ces types de
données (données à hautes fréquences) pose souvent
des problèmes dits de « microstructure noise» qui affectent
les résultats d'analyse en biaisant les résultats d'estimation et
de prévision. Bandi et Russell (2007) se sont donnés pour
tâche de déterminer le regroupement des données en
fréquences optimales en vue d'un arbitrage entre minimiser la
`microstructure noise' et avoir une meilleure estimation de la variance
intégrée pendant que d'autres utilisent par convention un
regroupement des données par intervalles de 5 minutes. Notre travail
consiste de ce fait à déterminer, pour le CHK Stock (Chesapeake
Energy Coorporation4) la pertinence de la fréquence optimale,
proposée par Bandi et Russell (2007), par rapport à la
fréquence de 5 minutes conventionnellement utilisée. Nous allons
donc estimer et faire la prévision pour deux bases de
données5 différentes du CHK Stock
(données allant du 4 janvier 2010 au 31 décembre
2010) en utilisant le modèle HAR(3)-RV de CORSI (1999) et
déterminer, en analysant les erreurs quadratiques moyennes, laquelle des
deux fréquences permet d'avoir un meilleur résultat.
4 Le Chesapeake Energy Corp est une compagnie de
d'exploitation et de production de gaz naturel. Cette compagnie explore,
développe et fait acquisition de propriétés en vue de la
production de gaz naturel et de pétrole non raffiné.
5 Les données regroupées par fréquences de 5
minutes et celles regroupées en fréquence optimale selon Bandi et
Russell (2007)
4
III- Revue de la littérature
Dans le cadre de ce travail, trois articles ont
été retenus et utilisés comme base. Le premier est
«A Simple Approximate Long-Memory Model of Realized
Volatility» et a été réalisé par Corsi
(1999). Le second intitulé « Thershold bipower variation and
the impact of jumps on volatility forecasting» par Corsi, Pirino et
Reno (2010) et finalement le dernier «Microstructure Noise, Realized
variance, and optimal sampling» de Bandi et Russell (2007).
Corsi (2009)
Dans ce papier l'auteur présente le modèle
`Heterogeneous Autoregressive model of realized Volatility' (HAR-RV) qui
conduit à un modèle de type Auto-regressif (AR). Il montre que
malgré la simplicité de la structure de ce dernier et, l'absence
de propriété « long mémoire », il donne de
très bons résultats de prévisions dans et hors
échantillons.
A travers un survol de la littérature sur les
problèmes que posent les séries financières, (notamment
les auto- corrélations des carrés des rendements et les
rendements absolus montrent de fortes persistances pour les longues
périodes) l'auteur présente le modèle GARCH standard et
les modèles de volatilités stochastiques à mémoire
courte comme ayant des limitations dans la reproduction de certaines
caractéristiques des données. Quant aux volatilités
à mémoires longs, elles sont généralement obtenues
grâce aux modèles FIGARCH de rendements ou les modèles
ARFIMA de volatilité réalisée. Ces derniers ont de bonnes
astuces mathématiques mais ont un manque quand à leur
interprétation économique. D'un autre côté, une
autre approche montre que, si le niveau d'intégration n'est pas assez
large comparé à la fréquence la plus faible du
modèle, de vraies modèles à mémoire courte peuvent
être pris asymptotiquement pour des modèles à
mémoire longue comme le montre LeBaron (2001). Finalement, Corsi propose
un modèle additif en cascade de différentes composantes de
volatilités générées par les actions de
différents types de participants sur le marché. Ce modèle
est le « Autorégressive modèle of Realized Volatility
(HAR-RV) et selon ce dernier, il est capable de reproduire la même
persistance de la volatilité observée dans les données
empiriques.
5
La construction du modèle HAR-RV part du processus
temporel standard continue suivant: dp(t) =u(t)dt +ó(t)dw(t)
où p(t) est le logarithme des prix instantanés;
u(t) est un processus aléatoire fini; w(t) est un
mouvement brownien continue et ó(t) est processus stochastique
indépendant de w(t). La variance intégrée (IV)
est l'intégrale de la variance instantanée sur un
?
intervalle d'une journée IVt (d)= ? ?2(?)?? et la
volatilité intégrée est noté ?? (?)= (IVt
(d))1/2. ????
La variance intégrée (IVt (d)) peut
être approximée par la somme des carrés des rendements
à l'intérieur d'une journée et la volatilité
réalisée sur un intervalle d'une journée est
???
??? (?)= (? r
??? ???.?'
? )1/2 avec Ä=1d/M et
rt-j.Ä=p(t-j.Ä)-p(t-(j+1))6. La construction de ce
modèle a été influencée par les Hypothèses
d'hétérogénéité des marchés
présentées par Muller et al (1983).
Dans le cadre de cet article Corsi considère un
modèle hiérarchisé avec trois composantes de
volatilité correspondant aux horizons d'un jour, une semaine et un mois
(??(d)1, ??(w)1, ??(m)1) et la
composante journalière de la volatilité permet de
déterminer le rendement haute fréquence du processus suivant la
relation rt= ?? (?) ?t avec ?t ~ N I D(0,1). Apres manipulations il obtient la
représentation série temporelle très simple suivante
??????
(?) = c+ f3(d) ??? (?)+ f3(w) ??? (?)+
f3(m) ??? (?)+ùt+1d qui est un
HAR(3)-RV7. Les résultats de simulations avec ce
modèle confirment de sa capacité à reproduire, avec
efficacité, les volatilités et les rendements observés
dans les données empiriques. En même temps, le critère
d'information de Akaike traduit une préférence du HAR(3) à
celui d'un AR(22) pendant que les résultats de prévisions
comparés à ceux d'un ARFIMA (5,d,0) montrent que les deux
modèles sont comparables.
Corsi, Pirino et Reno (2010)
La littérature sur l'importance des sauts en
économie financière est vaste. Les auteurs de ce présent
papier en citent quelques uns. Certains comme Ait-Sahalia (2004), Jiang et
Oomen (2008), Barndorf-Nielsen et Shephard (2006), Lee et Mykland (2008) et
Ait-Sahalia et Jacob
6 Anderson,Bollerslev, Diebold et Labys (2001),
Anderson,Bollerslev, Diebold et Ebens (2001) et Barnadorff-Nielsen et Shephard
(2002a,2002b) cités par Corsi (2009).
7 Corsi 2009
6
(2009) sont venus avec les tests de spécification.
D'autres comme Bandi et Nguyen (2003) et Johannes (2004) ont
réalisé des estimations non paramétriques en
présence de sauts. Contrairement au travail de Corsi (2009) qui
considérait les séries financières comme des variables
continues, les auteurs de ce présent article ont surtout mis l'accent
sur les sauts dont peuvent faire l'objet les variables financières. En
clair, leur travail s'évertue à montrer que les sauts ont un
impact positif significatif sur les volatilités futures ce qui leur
permet du coup de prendre le contrepied des travaux de Andersen et al (2007),
Forsberg et Ghysels (2007), Giot et Laurent (2007) qui eux ont trouvé un
impact des sauts sur la volatilité qui est négatif ou nul. Ils
procèdent en décomposant la volatilité en sa composante
continue et en sa composante non continue en utilisant des estimateurs
consistants. Les auteurs introduisent de ce fait l'estimateur « Thershold
bipower variation (TBV)» ou seuil de variation à deux puissances
qui se base sur l'utilisation combinée de la variation à deux
puissances et l'estimation du seuil. La contribution leur papier est triple.
D'abord, à travers des estimations réalistes, ils montrent qu'en
présence de sauts, la variation à deux puissances ( Bipower
Variation) a un biais plus important et ceci a pour conséquence une sous
estimation de la composante du saut. Ensuite, ils proposent un estimateur
alternatif de la puissance intégrée de la volatilité en
présence de saut. Enfin, un nouveau test « C-Tz »8
permettant la détection de sauts est introduit et est une correction du
test statistique « Z » de Barndorff-Nielsen et Stephard
(2006)9.
Des estimations ont été faites en vue de montrer
qu'en échantillon fini, la variation à deux puissances est un
estimateur biaisé de la volatilité intégré en
présence de sauts tandis que les estimateurs basés sur un seuil
sont moins sensibles aux sauts et de ce fait sont moins biaisés. Les
résultats des simulations ont permis de tirer les conclusions suivantes
:
1- La mesure de la volatilité intégrée
montre que les estimateurs de variations à deux puissances (bipower
variation) contiennent plus de biais que ceux se basant sur un seul seuil.
8 Voir sa construction et son expression dans Threshold bipower
variation and the impact of jumps on volatility forecasting page 279
9 Threshold bipower variation and the impact of jumps on
volatility forecasting page 277.
7
2- Dans la détermination de la variance
intégrée, la TBV10 est presque insensible au choix
d'un seuil pour une certaine valeur d'une constante CO11 tandis que
la variance réalisée avec un seul seuil l'est d'avantage.
En conclusion, il a été montré dans ce
papier que la décomposition de la volatilité en sauts et
variation continue, améliore considérablement la projection de la
volatilité à cause de l'impact positif des sauts sur la
volatilité future. Les résultats empiriques obtenus à
partir des `US stock index', des `stocks individuels' et des `Bonds du
trésor' ont permis de montrer que les sauts peuvent être
détectés grâce au test C-Tz basé sur les estimateurs
TMPV12.
Bandi et Russell (2007)
L'attention de ces auteurs s'est surtout portée vers
les « Microstructure noise, realized variance and optimal sampling ».
Leur objectif était de montrer comment la « microstructure
noise» affectait la variance réalisée qui dans ce cas ne
permettait pas d'identifier le prix d'équilibre sans friction. Aussi,
ils se sont évertués à montrer comment le biais induit par
la « Microstructure noise » des données à hautes
fréquences pouvait faire l'objet d'un arbitrage avec la réduction
de variance. Ils en dérivent une erreur quadratique moyenne
(MSE13) optimale pour l'échantillon. Leur travail leur a
aussi permis de déterminer la valeur optimale du nombre d'observations
(ou fréquence) leur permettant d'obtenir le MSE minimal. Leur approche a
ensuite été appliquée sur un échantillon de IBM ce
qui leur a permis de confirmer sa justesse et la précision des
résultats de projection.
Le modèle théorique qu'ils utilisent
considère une période de temps fixe « h » et le prix
observé à la i-ème période est:
??ih=pihOih.
Pih est le prix à l'équilibre sans friction et
Oih est la « microstructure noise ». La transformation algorithmique
des prix donne l'équation suivante:
ln(??ih) - ln (??(i-1)h) = ln(pih) - ln(p(i-1)h) +
çih - ç(i-1)h i= 1,2,3 n, et ç = ln O
10 TBV fait référence à Threshold bipower
variation
11 CO = 3. Voir Threshold bipower variation and the impact of
jumps on volatility forecasting page 278
12 Threshold multipower variation
13 Dans la suite du travail, l'erreur quadratique moyenne sera
notée MSE
8
ln(??ih) - ln (??(i-1)h) = ?Þi ; ln(pih) -
ln(p(i-1)h) = ri çih - ç(i-1)h = åi
En divisant maintenant les périodes en « M »
sous périodes (fréquences) ils obtiennent l'équation du
rendement comme suit :
?Þji = ln(??(i-1)h+jS) - ln
(??(i-1)h+ (j-1)S) j= 1,2,3 M, et S= h/M
= ???rj+ ?j~?åJ + 2
?M?rjåj14
L'un des intérêts de leur travail est de
caractériser les propriétés en échantillon fini et
les propriétés asymptotiques de l'estimateur de la variance
réalisée ?? = ?M? ?Þ Cette expression de la
variance réalisée n'est correcte que si le véritable
processus de prix est observé, dans le cas contraire, V?
En échantillon fini, Bandi et Russel ont montré
que le minimum du MSE de la variance réalisée est atteint pour
une valeur spécifique de M soit M*15. Sous certaines
hypothèses données16 ils
montrent que Eu(?? -V)2 = 2
?? (Q+ o(1)) +Mb + M2a +c17. Eu est
l'espérance conditionnelle à la
fréquence de la volatilité sur la période
et sera notée tout simplement `E' quand l'espérance n'est pas
conditionnelle. Ils montrent par la suite que la valeur de M, soit M*
(fréquence optimale) qui permet de minimiser la MSE est : M*
(h?/(?(?)2)2)1/3. Dans le document les auteurs
considèrent également des extensions de M* pour des cas comme la
`correction de biais de la variance réalisée', les `fonctions non
linéaires de la variance intégrée' et les `bruits
dépendants'18.
14 Voir Bandi et Russell (2007), page 9.
15 M* est la fréquence permettant d'avoir un MSE
minimal
16 Voir les hypotheses dans Bandi et Russell (2007), page 11 et
12
17 Q?= ????M? r?4j ; a= (E(å2))2; b= E(å4)
+ 2E(å2å2-1)- 3(E(å2))2 ; c= 4E(å2)V-
2E(å2å2-1)+ 2(E(å2))2 et h est la durée en
seconde d'une journee
d'activité. Voir les démonstrations dans Bandi et
Russell (2007), appendis A.
18 Bandi et Russell (2007), page 14 à 18.
9
|