WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Les méthodes QSAR/QSPR et identification de nouveaux médicaments: SARS_CoV-2


par Assia REGRAGUI
Université Chouaïb Doukkali - Licence Fondamentale en Matière de Chimie 2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2.2 Méthodes d'analyse de données

L'objectif principal des méthodes d'analyse de données est d'utiliser la statistique pour extraire des informations utiles des données à fin d'analyser au mieux l'incertitude et la

variation dans les observations. L'analyse de données est plus importante pour décrire, comprendre, évaluer suffisamment les phénomènes étudiés et d'interpréter les résultats trouvés d'une façon claire. Les données peuvent être de toute nature, ce qui rend la statistique très utile dans la plupart des disciplines : économie, sociologie, psychologie, agronomie, biologie, médecine, chimie, physique, géologie, sciences de l`ingénieur, sciences de l`information et de la communication, etc. (ROY, 2015). La mise en place des modèles QSAR/QSPR à l'aide des méthodes statistiques n'est pas une tâche facile à réaliser due à la difficulté au niveau de la différence d'échelles existant entre les données à corréler. Par exemple, la structure étant à une échelle moléculaire alors que les propriétés à prédire sont à une échelle macroscopique. De l'autre côté, on doit tenir compte des problèmes d'incertitude à la fois au niveau des structures moléculaires (liées niveau de calcul) et des données expérimentales (protocoles de mesures). De plus, le traitement d'une grande quantité de données génère une difficulté supplémentaire lié avec le processus de mise au point de modèles QSAR, surtout quand on veut analyser les corrélations entre un grand nombre de descripteurs d'un grand nombre de molécules ce qui entraine une perturbation au niveau du choix des paramètres structuraux parmi ceux disponibles. Dans la littérature, il existe de nombreuses méthodes d'analyse de données, mais dans ce chapitre nous allons s'intéresser aux quelques méthodes les plus utilisées.

2.2.1 Méthodes basées sur les descripteurs

Les méthodes statistiques basées sur les descripteurs, permettent de représenter numériquement la structure chimique pour en déduire ensuite un modèle. La mise en pratique de cette méthode dans la recherche de nouveaux médicaments peut bien refléter l'importance de cette méthode. Une application de cette méthodologie est de pouvoir calculer par exemple la capacité d'une molécule d'être un candidat médicament ou une tête de série afin de réduire les risques d'échecs aux étapes expérimentales.

a. Approches linéaires

En général, les fonctions linéaires sont facilement interprétables et suffisamment précises pour de petites séries de composés identiques, spécialement lorsque les descripteurs sont sélectionnés avec soin pour une grandeur donnée.

b. La régression linéaire multiple (MLR)

La régression linéaire multiple MLR est l'une des méthodes de modélisation les plus populaires grâce à sa simplicité d'utilisation et facilité d`interprétation. L'avantage important de la régression linéaire multiple est qu'elle est très transparente, puisque l'algorithme est disponible, et que les prédictions peuvent être réalisées facilement (Fernández, 2007). L'analyse de régression linéaire multiple repose sur l'hypothèse qu'il existe une relation linéaire entre une variable dépendante Y et une série de n variables indépendantes Xi. Pour les études de régression multiple, le nombre de variables doit être inférieur ou égal au nombre d'individus (molécules). L'objectif est d'obtenir une équation de la forme suivante :

9

X1,...., Xn sont des descripteurs moléculaires affectés de leurs coefficients a1,....an.

Les coefficients ai peuvent être obtenus en utilisant des estimateurs comme la méthode des moindres carrés qui minimise la somme des résidus au carré. Les valeurs des coefficients peut exprimer le degré d'influence des descripteurs moléculaires utilisés sur la propriété cible. De plus, un coefficient positif indique que le descripteur moléculaire correspondant contribue positivement à la propriété cible, tandis qu'un coefficient négatif indique une contribution négative.

c. La méthode de régression des moindres carrés partiels

La régression par les moindres carrés partiels (PLS) est une technique qui sert à optimiser les calculs en diminuant le nombre de descripteurs à un plus petit ensemble de composantes non corrélées et effectuer la régression par les moindres carrés sur ces composantes, plutôt que sur les données initiales (Hasegawa, 2010). L'analyse avec la méthode PLS fournit des résultats avec moins d'incertitude des mesures.

d. Approches non linéaires

Les méthodes non-linéaires étendent les calculs avec l'approche QSAR à des relations plus complexes. Ces méthodes souffrent des difficultés et parfois sont sur-ajustés (ils se borneront dans ce cas à décrire du bruit au lieu de la relation sous-jacente entre descripteurs et activité). Malgré ces inconvénients, la recherche pharmaceutique tire un grand bénéfice de l'application des méthodes non linéaires.

e. Réseaux de neurones artificiels

La méthode des réseaux de neurones artificiels sont des modèles mathématiques qui suivent le même principe que le cerveau humain, mais d'une façon plus simplifiée. Les réseaux de neurones sont des systèmes de traitement de l'information basés sur des outils mathématiques et algorithmiques qui s'avèrent être puissants et commodes pour résoudre des problèmes complexes (Breneman, 2003). Un réseau de neurones est un processeur massivement distribué en parallèle qui a une propension naturelle pour stocker de la connaissance empirique et la rendre disponible à l'usage. Il ressemble au cerveau humain sur deux aspects :

Figure 5. Illustration simplifiée d'un réseau de neurones

10

11

Les réseaux de neurones sont basés sur trois couches: la couche d'entrée des neurones, au moins une couche cachée de neurones et une couche de sortie des neurones (Figure 5). Ces réseaux peuvent utiliser de couches supplémentaires de neurones en cas de complexité élevée pour capturer des informations plus précises concernant les relations moléculaires. Ils sont formés de manière itérative, où chaque période de formation est appelée une époque. Ainsi qu'une une phase d'entraînement est un processus itératif sert à la minimisation de l'erreur entre l'activité connue et l'activité prédite par le réseau neuronal.

f. Arbre de décision

L'arbre de décision est un concept utilisé dans la théorie des graphes, un arbre est un graphe non orienté, acyclique et connexe. L'ensemble des noeuds se divise en trois catégories :

? Noeud racine (l'accès à l'arbre se fait par ce noeud).

? Noeuds internes : les noeuds qui ont des descendants, qui sont à leur tour des noeuds. ? Noeuds terminaux (ou feuilles) : noeuds qui n'ont pas de descendant.

Un arbre de décision est un schéma qui représente les résultats possibles d'une série de choix interconnectés. Il permet à une personne ou une organisation d'évaluer différentes actions possibles en fonction de leur coût, leur probabilité et leurs bénéfices. Il peut être utilisé pour

Figure 6. L'arbre de décision a trois types de noeuds

exploiter des relations entre les données en permettant de décrire ces données en se basant sur une combinaison de techniques mathématiques et de calcul pour faciliter la description, la catégorisation et la généralisation d'un ensemble de données.

12

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Là où il n'y a pas d'espoir, nous devons l'inventer"   Albert Camus