Aperçu des sections
Généralités
Le Big Data est une science récente qui a surgie avec l’évolution et la variation des données et d’applications mises et échangées en ligne. Cette science consiste à prendre en charge d’une manière efficace un volume important des données hétérogènes en intégrant des techniques et outils nouveaux, vu que la technologie disponible ne répond plus aux besoins.
Ce polycopié est un support pédagogique qui permet d’initier l’étudiant au domaine des Big Data. Ce cours composé de plusieurs chapitres permet aux étudiants de comprendre la problématique et la motivation du domaine, et de maîtriser l’outil Hadoop avec le modèle MapReduce associé à ce domaine.
Chaque chapitre est élaboré pour répondre à un but pédagogique bien précis, se matérialisant par des explications, définitions accompagnées d’exemples et des illustrations par des figures suivies par des exercices, des solutions envisageables ou des fiches de travaux pratiques bien guidés.
1. Le chapitre I met l’étudiant dans le contexte du Big Data, consiste à lui donner des connaissances générales sur le domaine ;
2. Le chapitre II est consacré à l’étude de Hadoop, le framework qui permet le développement d’applications traitant les données massives. Ce chapitre donne les notions les plus générales avec la procédure d’installation
du logiciel ;
3. Le chapitre III détaille la partie qui s’occupe du stockage des données "HDFS", avec la possibilité de la manipulation de ces données selon deux manières différentes à savoir : les commandes et l’API JAVA;
4. Le chapitre IV étudie en détail la partie traitement des données massives "MapReduce", le modèle qui permet de traiter des blocs de données séparément et parallèlement dans des machines connectées. La modélisation selon le paradigme MapReduce est une étape importante avant le développement des programmes;
5. Le chapitre V détaille l’implémentation des programmes MapReduce dans Hadoop. Dans le cadre de ce chapitre, nous étudions l’implémentation des programmes en utilisant le langage Java. D’autres langages peuvent être utilisés pour écrire des programmes mapreduce, mais cette partie n’est pas traitée dans ce cours.