Sistemas de processamento e distribuição de big data oferecem uma maneira de coletar, distribuir, armazenar e gerenciar conjuntos de dados massivos e não estruturados em tempo real. Essas soluções fornecem uma maneira simples de processar e distribuir dados entre clusters de computação paralela de forma organizada. Construídos para escala, esses produtos são criados para rodar em centenas ou milhares de máquinas simultaneamente, cada uma fornecendo capacidades locais de computação e armazenamento. Sistemas de processamento e distribuição de big data proporcionam um nível de simplicidade ao problema comum de negócios de coleta de dados em grande escala e são mais frequentemente usados por empresas que precisam organizar uma quantidade exorbitante de dados. Muitos desses produtos oferecem uma distribuição que roda sobre a ferramenta de clusterização de big data de código aberto Hadoop.
As empresas geralmente têm um administrador dedicado para gerenciar clusters de big data. O papel requer conhecimento aprofundado de administração de banco de dados, extração de dados e escrita de linguagens de script do sistema host. As responsabilidades do administrador frequentemente incluem implementação de armazenamento de dados, manutenção de desempenho, manutenção, segurança e extração dos conjuntos de dados. As empresas frequentemente usam ferramentas de análise de big data para então preparar, manipular e modelar os dados coletados por esses sistemas.
Para se qualificar para inclusão na categoria de Sistemas de Processamento e Distribuição de Big Data, um produto deve:
Coletar e processar conjuntos de big data em tempo real
Distribuir dados através de clusters de computação paralela
Organizar os dados de tal maneira que possam ser geridos por administradores de sistema e extraídos para análise
Permitir que as empresas escalem máquinas para o número necessário para armazenar seus dados