Big-Data-Verarbeitungs- und -Verteilungssysteme bieten eine Möglichkeit, massive, unstrukturierte Datensätze in Echtzeit zu sammeln, zu verteilen, zu speichern und zu verwalten. Diese Lösungen bieten eine einfache Möglichkeit, Daten in parallelen Rechenclustern auf organisierte Weise zu verarbeiten und zu verteilen. Für Skalierbarkeit entwickelt, sind diese Produkte darauf ausgelegt, auf Hunderten oder Tausenden von Maschinen gleichzeitig zu laufen, wobei jede lokale Rechen- und Speicherkapazitäten bietet. Big-Data-Verarbeitungs- und -Verteilungssysteme bieten eine Ebene der Einfachheit für das häufige Geschäftsproblem der Datensammlung in großem Maßstab und werden am häufigsten von Unternehmen verwendet, die eine exorbitante Menge an Daten organisieren müssen. Viele dieser Produkte bieten eine Distribution, die auf dem Open-Source-Big-Data-Cluster-Tool Hadoop läuft.
Unternehmen haben häufig einen dedizierten Administrator für die Verwaltung von Big-Data-Clustern. Die Rolle erfordert fundierte Kenntnisse in der Datenbankverwaltung, Datenextraktion und im Schreiben von Host-System-Skriptsprache. Zu den Verantwortlichkeiten des Administrators gehören oft die Implementierung der Datenspeicherung, die Leistungswartung, die Wartung, die Sicherheit und das Abrufen der Datensätze. Unternehmen verwenden häufig Big-Data-Analyse-Tools, um die von diesen Systemen gesammelten Daten vorzubereiten, zu manipulieren und zu modellieren.
Um sich für die Aufnahme in die Kategorie der Big-Data-Verarbeitungs- und -Verteilungssysteme zu qualifizieren, muss ein Produkt:
Big-Data-Sätze in Echtzeit sammeln und verarbeiten
Daten über parallele Rechencluster verteilen
Die Daten so organisieren, dass sie von Systemadministratoren verwaltet und für die Analyse abgerufen werden können
Unternehmen ermöglichen, Maschinen auf die Anzahl zu skalieren, die erforderlich ist, um ihre Daten zu speichern