PROJET AUTOBLOG


Shaarli - Les discussions de Shaarli

Archivé

Site original : Shaarli - Les discussions de Shaarli du 23/07/2013

⇐ retour index

Panorama des technologies Big Data (IT-expert Magazine) | Blog Xebia France

dimanche 16 août 2015 à 14:59
liens
1/ HDFS (Hadoop Distributed File System)
2/ Map/Reduce (Paradigme de programmation)
3/ Base de données orientée colonne (ex: HBase)
4/ Machine Learning

Le porte étendard de l’association Machine Learning / Big Data est sans conteste Mahout, un logiciel libre issu de la fondation Apache. Mahout repose sur Hadoop, et distribue ses algorithmes de calcul sous forme de Map / Reduce sur la grille. Néanmoins, l’utilisation de Mahout demande de solides connaissances mathématiques alliées à une très bonne connaissance de l’écosystème Hadoop. Sa maîtrise n’est donc pas à la portée du premier programmeur venu.

5/ L’émergence du temps réel

De nombreux projets OpenSource émergent, et visent tous le même but. Réitérer ce qui a fait la puissance de Map Reduce : son côté distribué, hautement scalable et résistant à la panne, mais sans son défaut majeur : sa latence.

Conclusion

L’écosystème Big Data est en permanente évolution, et en dresser un panorama exhaustif est un exercice périlleux. Au final, cet article est une photographie du temps présent, et il sera peut-être obsolète l’année prochaine.

Il existe néanmoins des acteurs très sérieusement installés, et sur lesquels reposent des projets vitaux pour des groupes qui pèsent plusieurs milliards d’euros :

*   Hadoop, qui permet de traiter en mode batch plusieurs TeraOctets de données,
*   Cassandra, la base de données orientée colonne, qui sacrifie le requêtage complexe à des performances exceptionnelles en lecture / écriture,
*   Mahout qui permet d’exécuter des algorithmes de machines learning sur de large clusters Hadoop.
(Permalink)