L’analyse des données temporelles a toujours attiré l’attention des professionnels de la finance. La question généralement posée est de savoir comment à partir d’un historique de données sur un indicateur financier il est possible de prédire le comportement futur de cet indicateur financier afin d’adopter les meilleures stratégies d’investissement ou d’optimisation de portefeuille.

Pour répondre à cette question, des techniques statistiques et stochastiques liées aux séries temporelles ont longtemps été utilisées. Parmi ces méthodes figurent la moyenne mobile (MA), les méthodes autorégressives (AR), les méthodes ARIMA et ARCH.

Grâce à la quantité d’information stockée par les institutions financières et aux nombreux travaux de recherches sur l’apprentissage automatique et l’intelligence artificielle, les techniques d’analyse et de prédiction des séries temporelles se sont fortement enrichies.

L’objectif de cet article est de présenter la contribution des réseaux de neurones artificiels pour la prédiction des données temporelles.

Afin de faciliter la compréhension du sujet, cet article commence par définir ce qu’est une série temporelle et rappelle les techniques classiques utilisées pour la prédiction des données chronologiques. Les réseaux de neurones artificiels seront ensuite introduits pour en étudier le fonctionnement et les avantages par rapport aux méthodes classiques.



1. Qu’est-ce qu’une donnée temporelle ?


Une série temporelle est une suite d’information numérique représentant la progression d’un phénomène au cours du temps. Par exemple, dans le domaine météorologique, la température est une donnée temporelle car directement liée à la notion du temps. En Finance, l’analyse des séries temporelles permet de comprendre le comportement d’un indicateur financier au cours du temps et d’anticiper ses valeurs futures.



Figure 1: Evolution de la valeur de l’action de General Motors



La Figure 1 montre la valeur de l’action du constructeur automobile General Motors. La lecture de cette courbe montre que la valeur de l’action de cette compagnie a progressivement augmenté au cours du temps.

De manière générale, parmi les caractéristiques principales d’une série temporelle, on notera la tendance. Elle correspond à l’évolution à long terme de la série. Elle est matérialisée par l’allure globale la courbe (hausse, baisse, stagnation ou constance). Par exemple, la série temporelle présentée ci-dessus montre une tendance moyenne à la hausse. La seconde composante observable sur une série chronologique est la saisonnalité. Elle représente les pics réguliers observables sur chaque cycle de temps. Par exemple, on peut observer que la série prend chaque année des valeurs élevées sur certaines périodes et des valeurs faibles sur d’autres.




2. Les modèles classiques de prédiction des séries temporelless


La littérature sur l’analyse et la prédiction des données temporelles est très bien fournie. Les économètres comme Georges Box and Georges Jenkins, ont permis dès 1970 de rendre populaire les techniques d’analyse des données temporelles à travers les modèles ARMA(Auto Regressive Moving Average). Cette approche consiste à décomposer une chronique en deux parties : une composante liée aux valeurs passées de la série et une composante qui capture les chocs aléatoires. Cela signifie que les valeurs futures d’une variable financière peuvent être prédites par une combinaison linéaire des valeurs passées de cette variable financière à laquelle s’ajoutent les chocs aléatoires.

En 1980, le mathématicien Christoper Sim introduit les modèles VAR (Vector Auto Regressive). Cette approche permet, à l’opposé des modèles ARMA, d’utiliser plusieurs variables temporelles pour prédire une série chronologique.

Une autre révolution marquante dans l’analyse des données temporelles a été l’introduction en 1982 par Robert F. Engle des modèles de types ARCH(Auto Regressive and Conditionnal Heteroscedasticity) et leurs variantes. Cette méthode permet de pallier aux inconvénients des modèles ARMA et VAR (et leurs variantes) jusque-là utilisés uniquement pour modéliser des données linéaires.




3. Utilisation des réseaux de neurones artificiels


Les réseaux de neurones artificiels sont très adaptés pour la prédiction des données temporelles et de manière générale pour toute information séquentielle. On retrouve dans la catégorie des données séquentielles des données textuelles, des données vocales et des données temporelles.

Il existe différents types de réseaux de neurones artificiels: le perceptron multicouche (MLP), les réseaux de neurones convolutionnels (CNN) et les réseaux de neurones récurrents (RNN). Ces derniers sont les plus appropriés pour la modélisation des données séquentielles.

La suite de ce article se focalisera sur le modèle LSTM (Long Short-Term Memory), un type particulier de réseau de neurones récurrents très populaire pour ses performances dans la prédiction des données séquentielles.

De manière simplifiée, le modèle LSTM peut-être représente par le schéma ci-dessous.

Figure 2:  Schéma simplifié du modèle LSTM

Comme tout modèle d’apprentissage supervisé, le modèle LSTM prend en entrée des variables explicatives et produit en sortie la valeur prédite. Dans le cas d’une série temporelle, il n’existe pas de variables explicatives proprement dites mais d’une suite successive de chiffres.

Sur la Figure 2, on notera que chaque cellule est immédiatement connectée à la cellule la plus proche. Ce lien traduit un partage d’information entre les différentes cellules. Par exemple, si notre problématique consiste à estimer le chiffre d’affaire d’une entreprise à date t, la connaissance du chiffre d’affaire des mois passés est importante pour cette prédiction. La puissance du modèle LSTM réside dans sa capacité à conserver plusieurs séquences d’information dans la phase d’apprentissage.

Figure 3:  Détails d’un bloc du modèle LSTM

La Figure 3 décrit bien ce fonctionnement.  La première information importante sur cette figure est la variable X<t>.

Elle représente la valeur de la série à la date t.  Il s’agit de la donnée d’entrée. Chaque cellule reçoit aussi une information de la cellule précédente a<t-1>. On parle ainsi de données d’activation.

Figure 4:  Cellule mémoire dans le modèle LSTM

La particularité du modèle LSTM réside dans la variable c<t-1> (zone encadrée en rouge sur la Figure 4) . Elle joue un rôle d’effet mémoire car elle permet la propagation d’informations sur le réseau. En plus de faire propager l’information, la cellule c<t-1> peut être modifiée par deux fonctions: f<t> et i<t>. Ces deux fonctions sont aussi appelées porte (gate en anglais).

La fonction f<t>, appelée forget gate layer (voir la Figure 5), permet de bloquer ou de laisser passer l’information sur le réseau.

Figure 5:  La fonction forget gate dans le modèle LSTM

La fonction f<t> est donnée par la formule mathématique suivante:

δ (Wf[a<t-1>, x<t>] + bf )

Dans cette formule, Wf est un vecteur de poids , bf un biais et δ une fonction d’activation. La fonction δ est généralement une fonction sigmoid ( 1(1+e-x). Elle contraint la quantité f(t) à prendre des valeurs comprises entre 0 et 1. Si la valeur de cette fonction est égale à 1, toute l’information passée est transférée à la cellule suivante. Si la valeur de cette fonction est proche de 0 alors toute l’information de la cellule C<t-1> est bloquée. La seconde fonction agissant sur la cellule mémoire C<t-1> est appelée update gate layer i(t). Son rôle est de permettre une modification ou une mise à jour de l’information stockée dans la cellule C<t-1>. Elle est donnée par la formule mathématique:

i<t> = δ(Wu [a<t-1> , x<t> ] + bu )

La fonction i(t) est donnée par la formule mathématique suivante:

i<t> = σ(Wu[a<t−1>, x<t>] + bu)

Dans la pratique les flux de données temporelles sont sous un format non adapté à l’apprentissage supervisé. En effet, les méthodes supervisées nécessitent de disposer d’une matrice X et d’un vecteur de label Y. L’utilisation du modèle LSTM pour la prédiction des séries temporelles nécessite au préalable une transformation de la série temporelle.

Figure 6:  Example de transformation de données séquentielles pour l’apprentissage automatique


4. Apports des réseaux de neurones artificiels

L’utilisation du modèle LSTM pour la prédiction des données temporelles présente des avantages par comparaison aux modèles statistiques classiques. Les avantages du modèle LSTM peuvent se résumer en trois points principaux:

– Non linéarité : Les réseaux de neurones sont réputés pour leur capacité à apprendre des relations linéaires et non linéaires. En effet, ils n’imposent aucune hypothèse sur la distribution des données et peuvent donc être utilisés pour modéliser des interactions complexes.

– Flexibilité: Le modèle LSTM offre une grande flexibilité dans la prédiction des données temporelles. En effet, à l’opposé de certains algorithmes stochastiques, le modèle LSTM ne requiert pas nécessairement une étude préalable sur la saisonnalité et la tendance. Les dynamiques temporelles contenues dans les données sont encodées par le réseau grâce aux cellules mémoire afin de fournir la meilleure représentation possible au prédicteur.

– Performance: Le modèle LSTM offre de très bonne performance en présence d’une grande quantité de données d’apprentissage.




5. Limites


Le modèle LSTM peut cependant présenter certaines limites en comparaison aux méthodes traditionnelles de séries temporelles.

Une première limite est l’interprétabilité. Le modèle LSTM tout comme les autres modèles de deep learning peut avoir plusieurs millions de paramètres. Ce qui rend souvent les règles de décisions illisibles.

Par ailleurs, au regard du nombre de paramètres qui peut être rapidement très important, le modèle LSTM requiert plus de données d’apprentissage comparativement aux modèles classiques.




Conclusion


Cet article a traité des apports des réseaux de neurones artificiels pour la prédiction des données temporelles. Le cheminement suivi a permis de comprendre que la puissance du modèle LSTM réside dans sa capacité à mémoriser de longues séquences d’information et que cette information mémorisée peut être modifiée ou simplement supprimée si celle-ci n’est pas jugée utile par le réseau de neurones.

Très généralement, l’utilisation du modèle LSTM pour la prédiction des séries temporelles est recommandée lorsqu’on dispose d’une quantité importante de données d’apprentissage ou lorsque les données d’apprentissage présentent des relations non-linéaires.


Rédaction: Martin NASSE, OneWealthPlace

Avec la participation de: Yann CHARRAIRE, Sébastien LIEVAIN, Priscille BAIGET, Bruno ABILOU et Estèphe ARNAUD




Références


[1] Arthur Charpentier. Modèles de prévision Séries temporelles. Charpentier, UQAM, ACT6420, Hiver 2011, 2012.

[2] Xiaochen Chen, Lai Wei, Jiaxin Xu and The Hong Kong. House Price Prediction Using LSTM. University of Science and Technology, 2017.

[3] Neelabh Pant. A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs). Stats and Bots, 2017.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.