Los sistemas de procesamiento y distribución de big data ofrecen una forma de recopilar, distribuir, almacenar y gestionar conjuntos de datos masivos y no estructurados en tiempo real. Estas soluciones proporcionan una manera sencilla de procesar y distribuir datos entre clústeres de computación paralela de manera organizada. Diseñados para escalar, estos productos están creados para funcionar en cientos o miles de máquinas simultáneamente, cada una proporcionando capacidades de computación y almacenamiento local. Los sistemas de procesamiento y distribución de big data proporcionan un nivel de simplicidad al problema común de las empresas de la recolección de datos a gran escala y son utilizados con mayor frecuencia por empresas que necesitan organizar una cantidad exorbitante de datos. Muchos de estos productos ofrecen una distribución que se ejecuta sobre la herramienta de clústeres de big data de código abierto Hadoop.
Las empresas comúnmente tienen un administrador dedicado para gestionar los clústeres de big data. El rol requiere un conocimiento profundo de la administración de bases de datos, extracción de datos y escritura de lenguajes de scripting del sistema anfitrión. Las responsabilidades del administrador a menudo incluyen la implementación del almacenamiento de datos, el mantenimiento del rendimiento, la seguridad y la extracción de los conjuntos de datos. Las empresas a menudo utilizan herramientas de análisis de big data para luego preparar, manipular y modelar los datos recopilados por estos sistemas.
Para calificar para la inclusión en la categoría de Sistemas de Procesamiento y Distribución de Big Data, un producto debe:
Recopilar y procesar conjuntos de big data en tiempo real
Distribuir datos a través de clústeres de computación paralela
Organizar los datos de tal manera que puedan ser gestionados por administradores de sistemas y extraídos para análisis
Permitir a las empresas escalar las máquinas al número necesario para almacenar sus datos