Administration d'un big data sous mongodb et extraction de connaissance par réseau de neurones.

par Destin CUBAKA BENI
Université Pédagogique Nationale (UPN) - Licence 2019

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

I.7. TYPES6(*) DES DONNEES DU BIG DATA

Comme nous l'avons vu, le Big Data réside dans la capacité de gérer en temps réel un volume de données de plus en plus important et en constante évolution. Afin d'approfondir les solutions répondant à ce besoin, il convient de distinguer les différents cas d'utilisation que l'on refusera en fonction du type de données manipulées et de l'utilisation que l'on souhaite en faire. Le Big Data comprend deux types principaux de données : les données structurées et les données non structurées.

Figure 1.3:Les données du Big Data.[Big Data et ses données]

I.7.1. Données structurées

Elles sont définies par le fait qu'elles sont conçues pour être traitées automatiquement et efficacement par un logiciel, mais pas nécessairement par un humain. Les données structurées nous amènent dans un virage qui s'appelle Big Data Analytics (ou Big Analytics).

Le Big Data Analytic désigne un ensemble des technologies de pointes mise en place pour fonctionner de manière efficace sur les grandes masses de données hétérogènes. Dans cette approche, l'analyse des données structurées évolue de par la variété et la vélocité des données manipulées. On ne peut donc plus se contenter d'analyser des données et de produire des rapports, la grande variété des données fait que les systèmes en place doivent être capables d'aider à l'analyse des données.

L'analyse consiste à déterminer automatiquement, au sein d'une variété de données en évolution rapide, les corrélations entre les données afin de contribuer à leur exploitation.

I.7.2. Données non structurées

Au contraire, elles sont définies comme des données disponibles mais non directement exploitables. En fait, ce sont les données qui peuvent être extraites de tous les types de documents électroniques (courrier électronique, document Word, vidéo, image, SMS, courrier électronique, page Web, réseau social). Les données non structurées nous amènent dans un autre virage celui, du Text Mining.

Le Text Mining (fouille de textes) permet à un ensemble de documents d'analyser leur contenu par le biais d'une recherche sémantique basée sur l'analyse du langage naturel (le français par exemple) et la gestion d'ontologies spécialisées (pour un secteur d'activité, un métier). Cette fouille peut permettre de déterminer le contenu d'un document, mais aussi aller jusqu'à analyser le ressenti par des tournures de phrases pour savoir par exemple si un client se plaint ou fait une simple demande d'informations.

À l'issue de cette fouille, on produit la liste des « concepts et relations » 2 abordés dans un document afin de pouvoir alimenter une base de connaissances qui permet :

? Soit d'effectuer des recherches au sein de ce fond documentaire ;

? Soit d'extraire des données qui serviront à alimenter d'autres systèmes.

La différence entre une analyse sémantique et une indexation classique de document est que l'indexation se contente de référencer les mots présents dans un document sans s'intéresser au sens, à l'usage fait de celui-ci.

* ⁶Exemples de données semi structurées : messages mail, log etc.) ; et non structurées : photo, vidéo, son.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Je voudrais vivre pour étudier, non pas étudier pour vivre" Francis Bacon