PROJET AUTOBLOG


Shaarli - Les discussions de Shaarli

Archivé

Site original : Shaarli - Les discussions de Shaarli du 23/07/2013

⇐ retour index

Outils de la DataScience: Spark MLlib 1/2 | Blog Xebia France

dimanche 16 août 2015 à 17:17
liens
à lire!

park possède 3 API : en Scala, Python et Java. Pour les deux premiers langages il propose une interface en ligne de commande qui permet une exploration rapide et interactive des données. La version 1.4 de Spark prévue pour Juin 2015 inclura en plus une API R. Plusieurs projets se greffent au dessus de Spark : Spark SQL qui permet d’exécuter des requêtes SQL sur des RDD (Résilient Distributed Datasets) et contient l’API des DataFrames (collection de données organisée en colonnes, très utilisé en Data Science), Spark Streaming pour l’analyse de données en temps réel, GraphX pour l’exécution d’algorithmes de graphes et donc MLlib, la librairie de machine learning.
(Permalink)