Les systèmes de traitement et de distribution de big data offrent un moyen de collecter, distribuer, stocker et gérer des ensembles de données massifs et non structurés en temps réel. Ces solutions fournissent un moyen simple de traiter et de distribuer des données parmi des clusters de calcul parallèle de manière organisée. Conçus pour l'échelle, ces produits sont créés pour fonctionner sur des centaines ou des milliers de machines simultanément, chacune offrant des capacités de calcul et de stockage locales. Les systèmes de traitement et de distribution de big data apportent un niveau de simplicité au problème commercial commun de la collecte de données à grande échelle et sont le plus souvent utilisés par les entreprises qui ont besoin d'organiser une quantité exorbitante de données. Beaucoup de ces produits offrent une distribution qui fonctionne au-dessus de l'outil de clustering de big data open-source Hadoop.
Les entreprises ont souvent un administrateur dédié à la gestion des clusters de big data. Le rôle nécessite une connaissance approfondie de l'administration de bases de données, de l'extraction de données et de l'écriture de langages de script pour le système hôte. Les responsabilités de l'administrateur incluent souvent la mise en œuvre du stockage des données, l'entretien des performances, la maintenance, la sécurité et l'extraction des ensembles de données. Les entreprises utilisent souvent des outils d'analyse de big data pour ensuite préparer, manipuler et modéliser les données collectées par ces systèmes.
Pour être inclus dans la catégorie des systèmes de traitement et de distribution de big data, un produit doit :
Collecter et traiter des ensembles de big data en temps réel
Distribuer les données à travers des clusters de calcul parallèle
Organiser les données de manière à ce qu'elles puissent être gérées par des administrateurs système et extraites pour analyse
Permettre aux entreprises de faire évoluer les machines au nombre nécessaire pour stocker ses données