Techniques d'extraction de connaissances appliquées aux données du Web( Télécharger le fichier original )par Malika CHARRAD Ecole Nationale des Sciences de l'Informatique, Université de la Manouba, Tunis - Mastère en informatique, Option : Génies Documentiel et Logiciel 2005 |
Netographie[Lav, 99] B. Lavoie et H. F. Nielson, Web characterisation terminology & definitions sheet http :// www.W3c.org/1 999/05/WCA-terms/, Août 2004. [Lis] http :// www.iplists.com/, fevrier 2005. [Rob] http :// www.robotstxt.org/wc/active/html/index.html, fevrier 2005 [Sea] http ://www .searchturtle.com/search/Computers_Internet/Robots/, fevrier 2005. [Sel] H. M. Sellami, cours d'analyse des données, http :// www. tn. refer .org/hebergement/analyse/Index .html [Tou] C. Touzet, »Les réseaux de neurones artificiels : Introduction au connexionisme, cours, exercices et travaux pratiques» http :// saturn.epm.ornl.gov/~touzetc/Book/Bouquin.htm, Septembre 2004. [Web] http :// www.web-datamining.net, Septembre 2005. Glossaire- Classification Deux types de classi...cation existent. Le premier type consiste à classer des éléments dans des classes connues (par exemple les bons et les mauvais clients). On parle alors d'apprentissage supervisé. Le second consiste à regrouper les éléments ayant des comportements similaires dans des classes, inconnues au départ. On parle dans ce cas de clustering, de segmentation ou d'apprentissage non supervisé. - Cognitivisme Le cognitivisme fait l'analogie de fonctionnement entre l'esprit et l'ordinateur et envisage le fonctionnement du cerveau com me un ensemble d'opérations logiques effectuées sur des symboles élémentaires. - Connexionnisme Le connexionnisme se réfère aux processus auto-organisationnels. Il envisage la cognition comme le résultat d'une interaction globale des parties élémentaires d'un système. - Coordonnées parallèles d'Inselberg Les coordonnées parallèles représentent les variables principales sous la forme d'axes verticaux parallèles et équidistants. Ainsi, pour une représentation à n dimensions, n axes verticaux sont placés sur un plan. Un individu est représenté par une ligne brisée dont la position sur chaque axe est déterminée par la valeur observée sur chacune des dimensions. - Data Mining Le data mining consiste à utiliser un ensemble des techniques statistiques qui, en fouillant un grand nombre des données, permettent de découvrir et de présenter des informations à valeur ajoutée dans une forme interprétable facilement par un individu. -ECD Extraction des Connaissances à partir des Données i.e. Découverte des connaissances dans les bases des données gigantesques - HOLAP Hybride OLAP désigne les outils d'analyse multidimensionnelle qui récupèrent les données dans des bases relationnelles ou multidimensionnelles, de manière transparente pour l'utilisateur. Il présente l'avantage de mixer les avantages des deux systèmes MOLAP et ROLAP en répartissant les requêtes sur l'un ou l'autre des deux moteurs selon que l'un ou l'autre est susceptible de répondre plus rapidement à la requête (ou de façon plus précise).Cette dernière prend en charge les contenus les plus souvent recherchés. - Marqueur En général, un marqueur est représenté par une simple image gif pour une utilisation gratuite. Pour une utilisation professionnelle (payante) celui-ci peut être soit une image gif (transparente) dont la taille est de 1 pixel £ 1 pixel, soit un simple code (qui fait appel à du Javascript) à insérer dans les pages Web. - MOLAP Multidimensional On Line Analytical Processing est conçu exclusivement pour l'analyse multidimensionnelle, avec un mode de stockage optimisé. MOLAP agrège tout par défaut. Plus le volume de données à gérer est important, plus les principes d'agrégations implicites proposés par MOLAP sont pénalisants dans la phase de chargement de la base, tant en termes de performances que de volume. MOLAP surpasse ROLAP pour des fonctionnalités avancées comme la prévision ou la mise à jour des données pour la simulation. - OLAP On Line Analytical Processing caractérise l'architecture nécessaire à la mise en place d'un système d'information décisionnel. Il s'oppose à OLTP (On Line Transaction Processing), adressant les systèmes d'information transactionnels. OLAP est souvent utilisé pour faire référence exclusivement aux bases de données multidimensionnelles. -Popup Un pop up (ou une popup), trouvé également sous l'orthographe »pop-up», »pop up», ou »popup» désigne une page HTML qui s'ouvre souvent de petite taille pour faire passer un message. Des images de publicité sont souvent placées dans ces pop-ups. Pop-up devient trop souvent le synonyme de bannière de publicité. - Représentations par pixel L'idée de base est d'associer à chaque enregistrement un pixel dont la couleur varie selon la classe d'appartenance. - ROLAP Relation al On Line Analytical Pro cessing caractérise l'architecture nécessaire à la mise en place d'un système multidimensionnel en s'appuyant sur les technologies relationnelles. Au travers des méta-données, les outils ROLAP permettent de transformer l'analyse multidimensionnelle demandée par l'utilisateur en requêtes SQL. Ils proposent le plus souvent un composant serveur, pour optimiser les performances lors de la navigation dans les données ou pour les calculs complexes. ROLAP n'agrège rien, mais tire parti des agrégats s'ils existent. De ce fait, il est plus lourd à administrer que MOLAP, puisqu'il demande de créer explicitement certains agrégats. - Robots Web Logiciels utilisés pour balayer un site Web afin d'extraire son contenu. - Techniques de factorisation Le principe consiste à regrouper les variables initiales en facteurs sur la base d'une proximité de comportement (coefficient de corrélation ou de contingence). Le regroupement des variables en facteurs se traduit par la construction d'un plan sur lequel les individus sont représentés. Cette technique est vulgarisée sous le nom de mapping. - Techniques hiérarchiques Les techniques hiérarchiques cherchent à subdiviser l'espace multidimensionnel en une succession de plans bipolaires. La représentation la plus commune est l'arbre de décision. - Web prefetching En Français, préchargement. Il consiste à anticiper la navigation future de l'internaute en téléchargeant (préchargeant) les documents que l'utilisateur est susceptible de vouloir visiter dans un proche avenir. Ainsi, quand l'internaute décide de visiter un des documents préchargés, le navigateur ira le piocher rapidement dans son cache, sur le disque dur de l'utilisateur qui n'aura ainsi pas à attendre le chargement de la page depuis le site Web distant. |
|