WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Traduction automatisée des langues africaines. Cas du lingala.


par Assandé Jacob TANO
International Data Science Institute - Master Data Science - Big Data 2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

c. Harmonisation des écrits

L'harmonisation des écrits est une étape de prétraitement très négligée. L'harmonisation des écrits est le processus de transformation d'un texte en une forme canonique (standard). Par exemple, le mot « gooood » et « gud » peut être transformé en «good», sa forme canonique. Un autre exemple est la mise en correspondance de mots presque identiques tels que « stopwords », « stop-words » et « stop words » en simplement « stopwords ».

L'harmonisation des écrits est importante pour les textes bruyants tels que les commentaires sur les réseaux sociaux, les SMS et les commentaires sur les articles de blog où les abréviations, les fautes d'orthographe et l'utilisation des Out-Of-vocabulary (oov) sont répandus. Voici un exemple de mots avant et après la normalisation :

Texte initial

 

Texte harmonisé

 
 
 

2moro 2mrrw 2morrow 2mrw tomrw

 

tomorrow

b4

 

before

 
 
 

otw

 

On the way

 
 
 
 

smile

 

Tableau 9 : Exemple d'harmonisation des écrits du jeu de données

d. Tokenisation

La tokenisation est l'une des tâches les plus courantes lorsqu'il s'agit de travailler avec des données textuelles. Mais que signifie réellement le terme "tokenisation" ? La tokenisation consiste essentiellement à diviser une phrase, un paragraphe ou un document textuel entier en unités plus petites, comme des mots ou des termes individuels. Chacune de ces petites unités est appelée "token". [ 13 ]

Exemple : Natural Language Processing ---> [`Natural','Language','Processing']

La tokenisation est l'étape la plus élémentaire pour procéder au traitement de langue naturelle. Cette étape est importante car le sens du texte pourrait facilement être interprété en analysant les mots présents dans le texte.

Il existe de nombreuses utilisations de cette méthode. Nous pouvons utiliser cette forme tokenisée pour :

l Compter le nombre de mots dans le texte ;

l Comptez la fréquence du mot, c'est-à-dire le nombre de fois qu'un mot particulier est présent et ainsi de suite.

Master Data Science - Big Data 39

TANO Assandé Jacob

 

e- Vectorisation

Le traitement de la langue naturelle nécessite la conversion de la chaîne/du texte en un ensemble de nombres réels (un vecteur) - Word Embeddings.

L'incorporation de mots (Word Embeddings) ou la vectorisation de mots est une méthodologie de la NLP qui consiste à créer une représentation vectorielle des mots d'une phrase en tenant compte des similarités/sémantiques.

Le processus de conversion des mots en vecteur est appelé vectorisation.

Figure 18 : Exemple de vectorisation d'une entrée

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'ignorant affirme, le savant doute, le sage réfléchit"   Aristote