El software de análisis de big data proporciona información sobre grandes conjuntos de datos que se recopilan de clústeres de big data. Estas herramientas ayudan a los usuarios empresariales a digerir tendencias, patrones y anomalías de datos y sintetizar la información en visualizaciones de datos comprensibles, informes y paneles. Debido a la naturaleza no estructurada de los clústeres de big data, estas soluciones de análisis a menudo requieren un lenguaje de consulta para extraer los datos del sistema de archivos. Algunas soluciones pueden ofrecer características de autoservicio para que los empleados no técnicos puedan ensamblar sus propios gráficos y tablas a partir de conjuntos de datos de big data.
Algunas soluciones de análisis de big data ofrecen características impulsadas por el aprendizaje automático, como el procesamiento del lenguaje natural, permitiendo al usuario consultar los datos de la empresa de manera natural. El software de análisis de big data se utiliza comúnmente en empresas que ejecutan Hadoop junto con software de procesamiento y distribución de big data para recopilar y almacenar datos. Además, estos productos suelen integrarse con software de almacén de datos, el centro de almacenamiento central para los datos integrados de una empresa.
El software de análisis de big data se diferencia de las plataformas de análisis en la medida en que el primero se centra únicamente en la manipulación de clústeres de big data complejos y a gran escala en visualizaciones comprensibles, mientras que las segundas están orientadas a una amplia gama de fuentes de datos y conectores. Las dos categorías son mutuamente excluyentes, y aquellos productos que se centran únicamente en casos de uso de big data solo se categorizan en la categoría de análisis de big data.
Para calificar para la inclusión en la categoría de Análisis de Big Data, un producto debe:
Consumir datos, consultar sistemas de archivos y conectarse directamente a clústeres de big data
Permitir a los usuarios preparar conjuntos de datos de big data complejos en visualizaciones de datos útiles y comprensibles
Crear informes, visualizaciones y paneles aplicables a los negocios basados en descubrimientos dentro de los conjuntos de datos