Le logiciel d'analyse de big data fournit des informations sur de grands ensembles de données collectées à partir de clusters de big data. Ces outils aident les utilisateurs professionnels à digérer les tendances, les modèles et les anomalies des données et à synthétiser l'information en visualisations de données compréhensibles, rapports et tableaux de bord. En raison de la nature non structurée des clusters de big data, ces solutions d'analyse nécessitent souvent un langage de requête pour extraire les données du système de fichiers. Certaines solutions peuvent offrir des fonctionnalités en libre-service afin que les employés non techniques puissent assembler leurs propres graphiques et diagrammes à partir des ensembles de données de big data.
Certaines solutions d'analyse de big data offrent des fonctionnalités alimentées par l'apprentissage automatique, telles que le traitement du langage naturel, permettant à l'utilisateur d'interroger les données de l'entreprise de manière naturelle. Le logiciel d'analyse de big data est couramment utilisé dans les entreprises utilisant Hadoop en conjonction avec des logiciels de traitement et de distribution de big data pour collecter et stocker des données. De plus, ces produits s'intègrent généralement avec des logiciels d'entrepôt de données, le centre de stockage centralisé pour les données intégrées d'une entreprise.
Le logiciel d'analyse de big data diffère des plateformes d'analyse dans la mesure où le premier est uniquement axé sur la manipulation de clusters de big data complexes et à grande échelle en visualisations compréhensibles, tandis que les secondes sont orientées vers une large gamme de sources de données et de connecteurs. Les deux catégories sont mutuellement exclusives, et les produits qui se concentrent uniquement sur les cas d'utilisation de big data sont uniquement classés dans la catégorie d'analyse de big data.
Pour être inclus dans la catégorie Analyse de Big Data, un produit doit :
Consommer des données, interroger des systèmes de fichiers et se connecter directement à des clusters de big data
Permettre aux utilisateurs de préparer des ensembles de big data complexes en visualisations de données utiles et compréhensibles
Créer des rapports, visualisations et tableaux de bord applicables aux affaires basés sur les découvertes à l'intérieur des ensembles de données